Разработка и реализация методики интеллектуального анализа данных с использованием теории сетей Байеса и регрессионного анализа
Предложен новый вдухшаговый метод интеллектуального анализа данных, соединяющий теорию сетей Байеса и регрессионного анализа данных. Метод основывается на двух группах методов. Первый набор методов предназначен для построения топологии сети Байеса и формирования вероятностного вывода, на основе которого строится прогноз-решение. Второй набор методов предназначен для создания регрессионной модели с использованием логистической функции связи, на основе которой вычисляется оценка прогноза. Результаты моделирования и вычисленные прогнозные значения используются для построения комбинированного интегрированного значения прогноза, который предоставляет аналитику статистически обоснованные рекомендации развития исследуемого процесса. При построении модели в форме сети Байеса, для выбора значимых показателей процесса используется значение взаимной информации, а для построения топологии – минимизация функционала на основе описания минимальной длиной. Для построения оптимальных пороговых значений состояний, реализован метод совокупности значений (weight of evidence). Построение оптимальной модели регрессии выполняется прямым последовательным включением регрессоров на основе значения критерия хи-квадрат. Для калибровки комбинированной модели используется технология последовательной разбивки выборки на обучающий, проверочный и тестовый наборы данных с привязкой к стратификационной переменной анализа.
На основе использованных методов и алгоритмов разработана оригинальная архитектура системы поддержки принятия решений для математического моделирования. Предложенный двухэтапный метод реализован в виде программного модуля DMTwoStage на языке программирования SAS/IML, что может использоваться в любых программах семейства SAS. Использование универсальной платформы SAS обеспечивает возможность оперативной модификации предложенных вычислительных процедур за счет открытой модульной архитектуры компьютерной системы поддержки принятия решений при моделировании и прогнозировании развития процессов. С использованием программного модуля DMTwoStage выполнено решение серии практических задач и получены практически значимые результаты в виде математических моделей и комбинированных прогнозов на их основе.
Для проверки корректности предложенного подхода использованы аналитические процедуры и вычислительные эксперименты с использованием значительного объема статистических данных и экспертных оценок.
Вложение | Размер |
---|---|
2419-p.doc | 484 КБ |