Автоматизация извлечения информации и знаний из экспериментальных данных

Теоретической и методической основой автоматизации обработки, анализа и оценивания экспериментальных данных, получаемых при исследовании мозга, являются математическая теория распознавания образов и математическая теория анализа изображений.

Основное назначение методов распознавания образов — отнесение предъявленного объекта к одному из заданных классов на основе анализа прецедентов (вычисление значений метрики близости) в многомерном признаковом пространстве при помощи постановки и решения задач следующих типов:

а) идентификация и классификация объектов;

б) разбиение множества заданных объектов на непересекающиеся классы (кластерный анализ);

в) оценка информативности характеристик (признаков) распознаваемых объектов;

г) построение формализованных описаний распознаваемых объектов (в т.ч. с помощью дескриптивных алгебр, векторов признаков, логических формул, формальных грамматик).

Распознавание образов как наука возникло и сформировалось в результате необходимости решать задачи анализа и оценивания плохо структурированной, неформализованной, нечёткой, неполной, противоречивой, семантически насыщенной и зашумленной информации с помощью вычислительно эффективных математических методов. Исходной информацией в этих задачах служат числовая, символьная и экспертная информация, изображения, речь, сигналы произвольного вида, тексты, документы, схемы и чертежи, а также произвольные комбинации указанных разновидностей исходных данных.

Методы и средства распознавания образов предназначены для решения прикладных интеллектуальных задач принятия решений, диагностики, идентификации и прогнозирования.

Основу современной математической теории распознавания образов составляет «Алгебраический подход к решению задач распознавания и классификации». Для случая представления исходной информации в виде изображений осуществлена его специализация — предложен и развивается дескриптивный подход к анализу и пониманию изображений (ДПАИ). Основной целью ДПАИ является структурирование разнообразных методов, операций и представлений, используемых в анализе и распознавании изображений, причём формальные конструкции ДПАИ обеспечивают способы и инструменты представления и описания изображений для их последующего анализа и оценивания. В рамках развития ДПАИ решаются следующие задачи:

а) определение способов представления исходной и промежуточной информации в задачах обработки, анализа и распознавания изображений;

б) разработка математического аппарата для единообразного описания моделей изображений и моделей преобразований, обеспечивающих их построение и решение задач распознавания;

в) построение стандартизированных алгоритмических схем и их реализация в виде элементов информационных технологий анализа изображений.

В рамках ДПАИ выделены три функциональные группы задач:

1) обработка изображений — повышение качества изображений для улучшения их визуального восприятия человеком, обработка изображений для их хранения, представления и передачи, преобразование изображений с целью повышения эффективности их дальнейшего анализа и распознавания;

2) анализ изображений — применение к ним системы преобразований, обеспечивающей извлечение из изображения полезной информации о свойствах изображаемого объекта/процесса; результатом анализа изображений является приведение изображения к виду, удобному для распознавания, т.е. построение формального описания — модели изображения;

3) распознавание изображений — отнесение изображения/его фрагментов/ представленных на нём объектов к некоторому классу, либо разбиение множества изображений/его фрагментов/представленных на нём объектов на несколько классов.

В области распознавания образов и анализа изображений выделяют следующие основные стадии «алгебраизации»:

• Математическая морфология: Г. Матерой, Ж. Ceppa (1970-е);

• Алгебра алгоритмов: Ю.И. Журавлев (1970-е — настоящее время);

• Теория образов: У. Гренандер (1970-е — настоящее время);

• Теория категорий в области распознавания образов: М. Павел (1970-е);

• Алгебра изображений: Ж. Серра, С. Стернберг (1980-е);

• Стандартная алгебра изображений: Г. Риттер (1990-е — настоящее время);

• Дескриптивные алгебры изображений (ДАИ): И. Гуревич (1990-е — настоящее время);

• ДАИ с одним кольцом (ДАИ1К): И. Гуревич, В. Яшина (2002 — настоящее время).

Роль изображения как объекта анализа и оценивания определяется его специфическими и неотъемлемыми информационными свойствами. Изображение представляет собой некоторую совокупность отображаемых исходных данных и средств их представления, результатов процессов формирования представлений изображения и процедур их преобразований, физических и логических аспектов и моделей объектов, событий и процессов, представленных на изображении.

Специфичность и сложность задач анализа и оценивания изображений связана с необходимостью достижения некоторого баланса между такими противоречивыми факторами, как цели и задачи анализа, природа зрительного восприятия, способы и средства получения, формирования и представления изображений, и математическими, вычислительными и технологическими инструментами анализа изображений.

Разработка математического аппарата, обеспечивающего теоретическую основу автоматизации обработки, анализа, оценивания и понимания изображений, является одной из фундаментальных задач информатики. Автоматизация обработки и анализа изображений обеспечивает разработчикам автоматизированных систем, предназначенных для работы с изображениями, и конечным пользователям, в т.ч. не являющимся специалистами в области информатики и прикладной математики, возможность в автоматическом или интерактивном режимах:

а) разрабатывать, адаптировать и проверять методы и алгоритмы распознавания, понимания и оценивания изображений;

б) выбирать оптимальные или адекватные методы и алгоритмы распознавания, понимания и оценивания изображений;

в) проверять качество исходных данных и их пригодность для решения задачи распознавания изображений;

г) использовать стандартные алгоритмические схемы распознавания, понимания, оценивания и поиска изображений.

К настоящему времени анализ и оценивание изображений накопили обширный опыт применения математических методов из различных разделов математики, информатики и физики, в частности, алгебры, геометрии, дискретной математики, математической логики, теории вероятностей, математической статистики, математического анализа, математической теории распознавания образов, цифровой обработки сигналов, оптики.

Анализ и понимание изображений для математиков оказались весьма трудной задачей, поскольку изображение — крайне неудобная для математической обработки форма представления информации. В задачах, связанных с исследованиями мозга, приходится работать с динамическими изображениями, что ещё больше усложняет анализ. Работа с такими нетрадиционными видами информации для математиков достаточно долго не являлась предметом интересов, это направление не развивали. Серьёзные изыскания начались в 1950-е годы, они активно продолжаются и сегодня. К настоящему времени выделена целая совокупность математических методов, которые позволяют приводить изображение к виду, допускающему применение эффективных алгоритмов распознавания. Такие формализованные представления изображения (модели — изображения, приведённые к виду, удобному для распознавания) — необходимая основа для моделирования, распознавания, вычисления характеристик, выделения регулярностей и свойств, принятия интеллектуальных решений. Эти методы в фундаментальной части в определённой мере отработаны и многократно практически проверены. В этом смысле вполне правомерно говорить о формировании математической теории анализа изображений и достижении ею определённой степени зрелости, но она ещё не достигла степени развития математической теории распознавания образов, существенные элементы которой используются при работе с изображениями.

Чрезвычайно существенен вклад в математические теории распознавания образов и анализа изображений отечественной математической школы, фундаментальные результаты которой, в частности в области алгебраических методов распознавания образов и анализа изображений, определяют в настоящее время мировой уровень.

В рамках указанных теорий и прикладных разработок, выполненных на их основе, учёные и специалисты, занятые исследованием мозга, могут найти обширный набор методов и средств, необходимых для перехода к реальной автоматизации научных исследований, извлечения информации и знаний из результатов экспериментальных исследований и, в некоторой степени, для моделирования мозга и его функций. Для прикладного анализа изображений разработаны и готовы к использованию стандартные постановки задач, алгоритмические схемы и алгоритмические библиотеки. Используя эти инструменты, исследователь может синтезировать необходимую алгоритмическую схему обработки и анализа данных из стандартных алгоритмических блоков. Следующим этапом развития является разработка на базе этого инструментария стандартных информационных технологий и АПК, специализированных для обработки и анализа данных, получаемых при исследованиях мозга.