Правительство нижегородской области
Официальный сайт
Вход для пользователей
Информатизация

Интеллектуальный анализ данных, как инструмент для поддержки принятия управленческих решений

В различных сферах практической деятельности зачастую возникает необходимость решения плохо формализованных задач. Современные интеллектуальные системы оказываются способными решать сложные задачи на уровне высококвалифицированных специалистов и, кроме того, объяснять полученные результаты. Решение в таких системах формируется с использованием имеющейся базы знаний. Однако диалог инженера по знаниям с экспертом не позволяет добыть все необходимые для разработки интеллектуальной системы сведения.

В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накапливают большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

Обработка этих данных в системе поддержки принятия решений позволяет выявлять скрытые тенденции и получить важную аналитическую информацию, позволяющую качественно повысить  эффективность деятельности лица, принимающего решения.

Поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах.

1. Сфера детализированных данных. Это сфера действия систем, предназначенных в первую очередь для поиска информации. В большинстве случаев реляционные системы управления базами данных отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными является язык структурных запросов SQL. Информационно-поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек, как над отдельными системами обработки данных, так и над хранилищем данных в целом.

2. Сфера агрегированных показателей. Комплексное использование содержимого хранилища данных, обобщение, агрегация, гиперкубическое представление и многомерный анализ обеспечивается системами оперативной аналитической обработки данных (OLAP).

3. Сфера закономерностей. Методы интеллектуального анализа данных - ИАД позволяют осуществлять поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, объяснение найденных закономерностей и аномалий, а также  позволяют прогнозировать будущее состояние наблюдаемой системы или процесса.

Интеллектуальный анализ данных (Data Mining) заключается в поиске в данных и выявлении скрытых закономерностей с целью поддержки принятия решений.

К основным видам интеллектуального анализа относятся:

·  формирование прогностических моделей;

·  извлечение знаний, то есть выявление логических закономерностей в предметной области - формирование описательных или дескриптивных моделей;

·  анализ исключений, предназначенный для выявления и объяснения аномалий в найденных закономерностях.

В рамках интеллектуального анализа данных (ИАД) решаются следующие наиболее распространенные задачи.

Классификация в результате которой каждый из предъявляемых объектов, характеризуемых вектором признаков, относится к одному из заранее известных классов. Обычно эти классы заданы с помощью неполных априорных сведений и эмпирических данных. При этом обучение классификатора выполняется «с учителем».

Кластеризация заключается в разбиении заданного множества объектов на кластеры (однородные группы). В отличие от классификации в данном случае обучение выполняется «без учителя».

Прогнозирование при котором на основе текущих и ретроспективных данных оцениваются будущие значения определенных количественных показателей.

Выявление ассоциаций, то есть взаимосвязанных между собой событий.

Выявление последовательностей - цепочек связанных во времени событий.

В соответствии со стандартом CRISP-DM (Cross-Industry Standard Process for Data Mining) жизненный цикл проекта ИАД включает следующие шесть фаз, в каждой из которых решается ряд задач.

  • Фаза понимания бизнес процессов: определение бизнес-целей, определение ситуации, определение целей анализа данных, создание плана проекта.
  • Фаза понимания данных: первичный сбор данных, описание данных, изучение данных, проверка качества данных.
  • Фаза подготовки данных: выбор данных, очистка данных, интеграция данных, форматирование данных.
  • Фаза моделирования: выбор метода моделирования, генерация тестового проекта, создание моделей, оценка моделей.
  • Фаза оценки: оценка результатов, пересмотр процесса, определение дальнейших действий.
  • Фаза размещения: планирование размещения, планирование наблюдения и сохранения, формирование конечных отчетов.

Методы интеллектуального анализа данных основаны на методах и алгоритмах статистики, распознавания образов, машинного обучения и искусственного интеллекта. К основным методам интеллектуального анализа данных относят следующие.

Системы рассуждения на основе аналогичных случаев, в которых для того чтобы получить прогноз на будущее или выработать решение, в обучающей выборке (эмпирических данных) находятся близкие по отношению к новому наблюдению примеры. При этом решение формируется в результате усреднения откликов для выбранных (соседних) примеров из обучающей выборки. Системы рассуждения на основе аналогичных случаев показывают неплохие результаты в самых разнообразных задачах. Их основным недостатком является то, что для вынесения решений не создается каких-либо моделей или правил, обобщающих предыдущий опыт. При этом не выявляется влияние отдельных факторов на результирующую переменную. Другой недостаток заключается в отсутствии теоретически обоснованной методологии выбора меры «близости» между различными наблюдениями. Кроме того, вычислительная сложность формирования решения в общем случае пропорциональна объему обучающей выборки.

Искусственные нейронные сети составляют большой класс систем, архитектура которых имеет аналогию с нервной тканью живых организмов. Нейронные сети основаны на элементарных вычислительных (процессор­ных) элементах – нейронах, соединенных между собой синаптическими связями. Для ряда нейронных сетей с последовательными связями доказаны теоремы об их универсальной аппроксимирующей способности, то есть способности аппроксимировать произвольные функции с требуемой точностью. Синтез НС осуществляется на основе обучающей выборки и в общем случае заключается в определении как структуры, так и параметров НС. Существенный недостаток нейросетевой парадигмы заключается в очень слабой логической прозрачности. В настоящее время отсутствует методика интерпретации знаний полученных в результате обучения нейронной сети, то есть для человека (лица принимающего решения) нейронная сеть представляет со­бой «черный ящик». Некоторый прогресс в этом направлении связан с исследованиями в области нечетких нейронных сетей и создании гибридных сетей.

Байесовские сети обеспечивают компактное представление совместного распределения вероятностей совокупности случайных величин. Структура байесовской сети определяется ориентированным графом, не содержащим направленных циклов, вершины которого соответствуют случайным переменным, а дуги направлены от родительских вершин к дочерним. Основные достоинства байесовских сетей связаны с возможностью вынесения решений в условиях, когда значения некоторых переменных неизвестны, а также использования, как эмпирических данных, так и знаний экспертов. Байесовские сети могут быть использованы как в качестве прогностических моделей, так и для причинно-следственного анализа.

Деревья решений являются одним из популярных под­ходов к решению задач интеллектуального анализа данных. Популярность подхода связана со сравнительно невысокой вычислительной сложностью формирования деревьев, пониженными (в сравнении с другими методами) требованиями к предобработке данных, наглядностью формируемых результатов, возможностью получения множества логических правил, имеющих вид «Если... То...». Однако при использовании деревьев решений, как правило, выявляются лишь простые закономерности,  а более  сложные  остаются не обнаруженными. Кроме того, решения, формируемые при использовании деревьев решений, могут существенно изменяться при небольших изменениях в обучающей выборке.

Методы интеллектуального анализа данных находят практическое применение для поддержки принятия решений в различных областях науки и техники, включая информационно-телекоммуникационные системы, в медицине, генной инженерии, прикладной химии, а также в многочисленных сферах бизнеса, включая торговлю, страхование, банковское дело и др.

Дата создания страницы: 21.06.2007
Дата модификации страницы: 20.06.2008