Скачать 92.88 Kb.
|
ГЕТЕРОСКЕДАСТИЧНАЯ РАЗРЕЖЕННАЯ БАЙЕСОВСКАЯ РЕГРЕССИЯ И ЕЕ ПРИМЕНЕНИЕ В ЗАДАЧЕ ПРОГНОЗА ТЕМПЕРАТУРЫ ПЛАВЛЕНИЯ ХАЛЬКОПЕРИТОВ И ЗАДАЧЕ СИНТЕЗА НАНОРАЗМЕРНОГО ОКСИДА АЛЮМИНИЯ1 Д. Ветров2, Д. Кропотов3 2 Московский государственный университет, факультет ВМиК, 119992, Москва, ГСП-2, Ленинские Горы, 1, vetrovd@yandex.ru 3 Вычислительный центр им. А.А. Дородницына РАН, 119333, Москва, ул. Вавилова, д. 40, dkropotov@yandex.ru В работе предлагаются два метода решения задачи восстановления регрессии в рамках байесовского подхода. Эти методы позволяют получать разреженные решающие правила, где разреженность понимается в смысле небольшого количества задействованных признаков или объектов. В частности, рассматриваются два варианта недиагональной регуляризации обобщенных линейных моделей, которые приводят к алгоритмам с большой величиной обоснованности. Основное внимание уделено гетероскедастичным регрессорам. Предложенные алгоритмы апробированы при решении двух химических задач: прогноз температуры плавления халькопиритов и прогноз оптимальных условий синтеза наноразмерного оксида алюминия. Введение В настоящее время байесовские методы активно используются при решении задач классификации и восстановления регрессии [1]. Успех данного подхода обеспечивается практическим отсутствием параметров, которые необходимо настраивать пользователю при решении задач. Кроме того, байесовские методы позволяют автоматически отсеивать большую часть объектов или признаков в решающем правиле, что соответствует высокой степени интерпретируемости решения, а также позволяет быстро проводить распознавание новых объектов. Также следует отметить, что байесовский подход обеспечивает не только точечное значение прогноза, но и степень уверенности алгоритма в выдаваемом ответе. К числу широко используемых байесовских алгоритмов анализа данных следует отнести метод релевантных векторов (RVR) [2] и байесовскую логистическую регрессию [3]. В данной работе предложены два метода модификации RVR. Новые методы обладают более высокой скоростью обучения, большими значениями обоснованности и разреженности по сравнению с RVR. ^ Предположим, что имеется выборка данных ![]() ![]() ![]() ![]() ![]()
где в качестве функции регрессии используется линейная модель
Здесь ![]() ![]() ![]() ![]() ![]() ![]() Тогда правдоподобие обучающей выборки может быть представлено как
где ![]() ![]() Заметим, что случай гомоскедастичной регрессии соответствует единичной матрице ![]() Байесовский подход предполагает задание априорных распределений на параметры алгоритма ![]() ![]() ![]() Прогноз значения целевой переменной для нового объекта ![]() ![]()
Здесь ![]() ![]() ![]() Выражение (2) представляет собой свертку двух нормальных распределений и может быть вычислено как ![]() Оптимальное значение матрицы регуляризации ![]() ![]()
В дальнейшем рассматриваются два семейства матриц ![]() ^ Рассмотрим функцию правдоподобия (1). Она может быть представлена как ![]() Здесь ![]() ![]() ![]() ![]() ![]() ![]() Основным достоинством такой регуляризации является то, что значение обоснованности в терминах ![]() ![]() ![]() ![]() ![]() ^ Выберем следующее семейство матриц регуляризации: ![]() Приравнивая производную обоснованности (3) по матрице ![]() ![]() Матрица ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ^ В последнее время внимание исследователей привлекли полупроводники с тетрагональной кристаллической структурой халькопирита. Интерес к халькопиритам вызван перспективами их применения в оптоэлектронике [5,6], солнечной энергетике [6], нелинейной оптике [7] и спинтронике [8]. Задача состоит в прогнозе температуры плавления халькопирита по данным о составляющих его химических элементах. Обучающая выборка состоит из 40 халькопиритов (см. таблицу 1), а тестовая выборка – из 14 элементов (см. таблицу 3). Для решения данной задачи использовалась гетероскедастичная регрессия, т.к. традиционно в химии точность прогноза температуры измеряется в доле отклонения от абсолютной величины. В экспериментах участвовали три метода: метод релевантных векторов (RVR), предложенный метод с регуляризацией вдоль собственных векторов гессиана логарифма правдоподобия (REVR) и предложенный метод с регуляризацией в семействе симметричных неотрицательных матриц (IREVR). Каждый раз в качестве обобщенных признаков использовались следующие: ![]() ![]() ^
В таблице 2 приведены результаты экспериментов на обучающей выборке. Для оценки качества использовался следующий критерий: ![]() Значение критерия оценивалось с помощью скользящего контроля (5x2-fold cross validation). Результаты экспериментов приведены для трех наборов признаков. Набор признаков П1 состоит из простых химических признаков каждого из элементов, входящего в состав халькопирита. Набор П2 представляет собой специально отобранные признаки, полученные в результате исследования. Набор П3 – это набор П2 с добавлением логарифмов всех признаков. Результаты прогноза для набора П1 лишь немногим лучше погрешности в 20%, что соответствует точности, с которой эксперт решает эту задачу вручную. Наборы П2 и П3 позволяют добиться точности в 14%, что уже значительно лучше, чем точность экспертной оценки. ^
В таблице 3 приведен прогноз для тестовой выборки, полученный с помощью метода IREVR. ^
^ Задача синтеза дешевых наноразмерных материалов из окиси алюминия является одной из актуальных проблем современной химии [10]. В качестве предшествующего материала часто используется гидрокарбонат алюмаммония (AACH), для синтеза которого проводится реакция с участием NH4Al(SO4)2 и NH4HCO3. В данном исследовании решалась задача прогноза выхода AACH в процентах при различных условиях этой реакции. Обучающая выборка состояла из 34 объектов, а тестовая – из двух. Результаты экспериментов приведены в таблицах 4 и 5. Эти результаты показывают, что предложенные методы работают в целом лучше, чем метод релевантных векторов, а качество прогноза оказалось лучше, чем у используемого химиками алгоритма решения данной задачи на основе метода опорных векторов [9]. ^
^
Список литературы
______________________________________________________________________ 1 Работа выполнена при поддержке РФФИ (проекты №№06-01-08045, 05-01-00332, 05-07-90333, 07-01-00211, 07-01-12020) |
![]() | К учебному пособию кафедры ауиррв Наличие современных пакетов проектирования, анализа и синтеза свч устройств еще не гарантирует достоверности модели. Умение построить... | ![]() | Структурный подход и принципы формирования примитивов в задаче распознавания... Ый подход и принципы формирования примитивов в задаче распознавания составных объектов 1 |
![]() | Задание: к задаче №1, 2, 3, 4 (решение верно) внести пояснения к... К задаче №1, 2, 3, 4 (решение верно) внести пояснения к решению (откуда формула, какая, промежуточные и т п.) | ![]() | Модели и алгоритмы обнаружения локальных закономерностей в задаче... |
![]() | Формализация лексического значения слова в задаче распознавания ситуаций... | ![]() | Задача №1 В первой задаче, где-то промахнулись с арифметикой там должен получиться доход, а не убыток |
![]() | Задания на контрольную работу по дискретной математике В задаче о кенигсбергских мостах, добавив необходимые ребра, построить эйлеров граф | ![]() | Урок на тему «Условие и вопрос в задаче» К неравенству? (Вставьте вместо такие числа, чтобы неравенство стало верным). 7, 8, 9 |
![]() | По каким признакам экосистемы относятся к классу сложных систем? Источником оксида азота в атмосфере является реакция. По величине констант равновесия этой реакции для температуры –300 и +300 с... | ![]() | Задание №3 (выполняется студентами, фамилии которых начинаются с букв н-с) Выполнить бухгалтерские проводки и определить остатки средств по счетам, указанным в задаче |