Однослойный персептрон (пример)

Материал из MachineLearning.

Версия от 16:01, 29 апреля 2009; Maxx (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Постановка задачи
2 Описание алгоритма
3 Вычислительный эксперимент
4 Исходный код
5 Смотри также
6 Литература

Однослойный персептрон — TODO

Постановка задачи

Пусть $X$ - пространство объектов; $Y$ - множество допустимых ответов. Будем считать, что $x = (x_0,x^1,\dots,x^n) \in \{-1\}\times\mathbb{R}^n$ , где $x^j = f_j(x), j \geq 1$ - признаковое описание объекта, а $x_0 = -1$ - дополнительный константный признак; $Y = \{0,1\}$ . Задана выборка $\{(\mathbf{x}_i,y_i)\}_{i=1}^\ell$ . Значения признаков $x^j = f_j(x)$ рассматриваются как импульсы, поступающие на вход нейрона, которые складываются с весами $w_1,\dots,w_n$ . Если суммарный импульс превышает порог активации $w_0$ , то нейрон возбуждается и выдаёт на выходе 1, иначе выдаётся 0. Таким образом, нейрон вычисляет $n$ -арную булеву функцию вида

$a(x) = \varphi(\sum_{i=1}^{\ell}w_jx^j-w_0) = \varphi(\langle w,x \rangle)$ , где $\varphi(z)=[z \geq 0]$

Описание алгоритма

Для настройки вектора весов воспользуемся методом стохастического градиента. Возьмем квадратичную функцию потерь: $Q(w) = \sum_{i=1}^{\ell}(a(x_i)-y_i)^2$ , а в качестве функции активации возьмем сигмоидную функцию: $\varphi(z) = \frac{1}{1+e^{-z}}$ . Согласно принципу минимизации эмпирического риска задача сводится к поиску вектора, доставляющего минимум функционалу $Q(w) \rightarrow \min_w$ . Применим для минимизации метод градиентного спуска:

$w:=w - \eta \nabla Q(w)$ ,

где $\eta > 0$ величина шага в направлении антиградиента, называемая также темпом обучения (learning rate). Будем выбирать прецеденты $(x_i, y_i)$ по одному в случайном порядке, для каждого делать градиентный шаг и сразу обновлять вектор весов:

$w:= w - \eta(a(x_i,w)-y_i)(1-\varphi(\langle w,x_i \rangle))\varphi(\langle w,x_i \rangle)x_i$ . Значение функционала оцениваем: $Q = (1-\lambda)Q+\lambda \eps_i$ , где $\eps_i = (a(x_i,w)–y_i)^2$ . Процедура останавливается после того, как изменение значения функционала функционала $Q$ становится меньше заданной константы: $|Q_n - Q_{n-1}|< \delta$

Вычислительный эксперимент

TODO

Исходный код

TODO

Смотри также

TODO

Литература

Bishop, C. Pattern Recognition And Machine Learning. Springer. 2006.

Данная статья является непроверенным учебным заданием.

Студент: Участник:Максим Панов

Преподаватель: Участник:В.В. Стрижов

Срок: 28 мая 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B4%D0%BD%D0%BE%D1%81%D0%BB%D0%BE%D0%B9%D0%BD%D1%8B%D0%B9_%D0%BF%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

Категории: Непроверенные учебные задания | Учебные материалы

Однослойный персептрон (пример)

Материал из MachineLearning.

Содержание

Постановка задачи

Описание алгоритма

Вычислительный эксперимент

Исходный код

Смотри также

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты