Поиск нелинейной модели поверхности Мохоровичича (пример)

Материал из MachineLearning.

(Различия между версиями)

Almaf (Обсуждение | вклад)
(Новая: '''Поиск нелинейной модели поверхности раздела пород земной коры.''' == Аннотация == Рассматривается зад...)
К следующему изменению →

Версия 02:16, 8 декабря 2010

Поиск нелинейной модели поверхности раздела пород земной коры.

Аннотация

Рассматривается задача восстановления функциональной зависимости глубины прохождения поверхности раздела пород земной коры от значений поля силы тяжести на определенных высотах. На вид зависимости накладываются ограничения в силу особенностей задачи. Применяется символьная регрессия и метод полного перебора суперпозиций, полученных из заданного набора функций. Построен алгоритм нахождения парето-оптимального фронта по совокупности критериев качества.

Постановка задачи

Имеется несколько точек $\{(y_i,z_i)\}_{i=1}^L$ на поверхности Земли. Каждой точке сопоставлен вектор значений силы тяжести $\mathbf{x}_i=(g^{i}_{1},\ldots,g^{i}_{k})$ , измеренной на~заданных высотах $1,\ldots,k$ , а также глубина границы раздела: $\mathbb{X} = (\mathbf{x}_{1},\ldots,\mathbf{x}_{L})$ , $\mathbb{H} = (H_{1},\ldots,H_{L})$ . Здесь $L$ - количество точек, в которых известна глубина прохождения границы раздела, $k$ - число измерений силы тяжести в каждой точке.

Кроме того, имеется множество точек, на которых известны только векторы значений силы тяжести $\mathbf{X}$ . Требуется построить функцию $h(g_{1},\ldots,g_{k})$ , которая позволяет вычислять значение глубины раздела слоёв по~значениям сил тяжести и вычислить её на~заданном множестве точек.

Требуется найти $\{\widehat{h}^j(g_1,\ldots,g_k)\} _{j\in P} =\{\left.h_{s^*_j}(\mathbf{w},g_1,\ldots,g_k)\right| _{\mathbf{w} = \mathbf{w^*_j}}\} _{j\in P}$ , где $\widehat{h}\in\mathfrak{F}$ , $\mathfrak{F}$ - множество $k$ -местных непрерывных, монотонных функций действительной переменной, $h_s\in\mathfrak{F_1}$ , $\mathfrak{F_1}$ - множество функций из $\mathfrak{F}$ , зависящих дополнительно от вектора параметров, $s\in\mathfrak{S}$ - множество индексов функций множества $\mathfrak{F_1}$ , $\mathbf{w}$ - настраиваемый вектор параметров, $\mathbf{w}\in\mathfrak{W}(s)$ , $\mathfrak{W}(s)$ - множество допустимых векторов параметров функции $h_s$ .

Запишем сумму квадратов регрессионных остатков $R_J(h_s) = \frac{1}{|J|}\sum_{i \in J}\left(h_s(\mathbf{w},\mathbf{x}_i)-h^{*}(\mathbf{x}_i)\right)^2$ , где $(\mathbf{x}_i = ng^{i}_{1},\ldots,g^{i}_{k})$ , $h^{*}(\mathbf{x}_i) = H_i\in\mathbb{H}$ , $J$ - множество индексов объектов, по которым считается сумма, $J = \{1\ldots L\}$ .

Используются следующие критерии качества.

Переобученность $Q$ модели. Мы будем разбивать выборку $\mathbb{X}$ на обучающую $X^l$ и контрольную $X^m$ , $\mathbb{X} = X^l\sqcup X^m$ . Пусть $J_l$ и $J_m$ - множества индексов объектов обучающей и контрольной выборок, тогда $J = J_l\sqcup J_m$ , где $J$ - множество индексов всех объектов выборки. Вектор параметров модели $\mathbf{w}$ будет настраиваться по минимизации функционала $R_{J_l}(h_s(\mathbf{w},g_1,\ldots,g_k))$ , а значение $Q$ критерия будет вычислено по байесовскому информационному критерию BIC: $Q = L\ln\left(R_J(h_s(\mathbf{w^{*}},g_1,\ldots,g_k))\right)+d^2\ln(L)$ , где $d$ - длина вектора $\mathbf{w}$ .

Простота модели $C$ будет вычислена как число поддеревьев дерева суперпозиции.

Качество приближения данных будет вычислено как средняя сумма квадратов регрессионных остатков $R_{J_m}$ на контрольной подвыборке.

Множество $\{h_s^j\}_{j\in P}$ - парето-оптимальное множество по совокупности критериев качества: $\{s\in\mathfrak{S}| POF(h_s) = 1\},$ где $POF(h_s)$ - номер парето-слоя, в котором лежит модель с индексом $s$ и вектором параметров, настроенным по минимизации суммы квадратов регрессионных остатков на обучающей подвыборке: $\mathbf{w^{*}} = \arg\min_{\mathbf{w}\in\mathfrak{W}(s)}R_{J_l}(h_s).$ Для каждой $h_{s^*_j}$ вектор параметров находится как $\mathbf{w^{*}_j} = \arg\min_{\mathbf{w}\in\mathfrak{W}(s^*_j)}R_{J_l}(h_{s^*_j}).$

Пути решения задачи

Порождение суперпозиций функций набора методом полного перебора. Каждой суперпозиции можно поставить в соответствие дерево, в вершинах которого стоят функции набора, в листьях - аргументы, а ребро, связывающее вершины означает, что функция, соответствующая вершине-потомку подается в качестве аргумента на вход функции, соответствующей вершине-предку. Метод заключается в том, чтобы перебрать все возможные суперпозиции функций набора вплоть до определенной глубины/длины. В нашей задаче, поскольку $h = h(g_{1},\ldots,g_{k})$ , будем осуществлять перебор среди суперпозиций, в которых на месте самых нижних функций (листьев дерева суперпозиции) стоят дискретные функции $g_{1},\ldots,g_{k}$ .

Смотри также

Данная статья является непроверенным учебным заданием.

Студент: Александр Мафусалов

Преподаватель: В.В.Стрижов

Срок: 24 декабря 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA_%D0%BD%D0%B5%D0%BB%D0%B8%D0%BD%D0%B5%D0%B9%D0%BD%D0%BE%D0%B9_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8_%D0%BF%D0%BE%D0%B2%D0%B5%D1%80%D1%85%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%9C%D0%BE%D1%85%D0%BE%D1%80%D0%BE%D0%B2%D0%B8%D1%87%D0%B8%D1%87%D0%B0_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

Категории: Непроверенные учебные задания | Практика и вычислительные эксперименты

Поиск нелинейной модели поверхности Мохоровичича (пример)

Материал из MachineLearning.

Версия 02:16, 8 декабря 2010

Содержание

Аннотация

Постановка задачи

Пути решения задачи

Смотри также

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты