Проблема распознавания изображений

При работе с исходной информацией, задаваемой в виде изображений, возникают следующие задачи распознавания:

1) сопоставление двух изображений в целом для установления их принадлежности к данному классу (определяется, представляют ли изображения один и тот же объект или сцену);

2) сопоставление изображения в целом с набором или серией последовательных (по времени) изображений, представляющих некоторый класс изображений (т.е. объектов или сцен) (цель — та же, что и в задаче 1);

3) задачи 1 и 2 для случая нескольких классов;

4) поиск на предъявленном на распознавание изображении некоторой регулярности/нерегулярности, объекта, ситуации, на которую следует обратить внимание, хотя она и не задавалась в априорном перечне эталонов (ассоциативный поиск; ограниченно детерминированный набор классов — задачи логической и семантической фильтрации в сочетании с самообучением);

5) поиск на предъявленном на распознавание изображении регулярности/нерегулярности, фрагмента заданного вида;

6) разбиение множества изображений на непересекающиеся подмножества (задача автоматической классификации);

7) решение задачи автоматической классификации на одном изображении (разбиение изображения на однородные области, группы объектов, сегментация области, выделение признаков объектов);

8) совместное решение задач (6) и (7);

9) матическое выделение непроизводных элементов, характерных объектов изображения, признаков-объектов, пространственных и логических отношений длясинтезаформализованных описаний изображения;

10) приведение изображения к виду, удобному для распознавания; автоматический синтез формализованных описаний изображения;

11) задачи восстановления:

• пропущенных кадров в последовательности изображений;

• изображений в целом по их фрагментам;

• фрагментов изображения (и объектов) на основе непроизводных элементов, признаков и порождающих процедур с учетом контекста всего изображения в целом;

• траектории задачи по ее фрагментам и неизвестных фрагментов траекторий;

12) декомпозиция задачи обработки и анализа изображения на элементарные базисные подзадачи;

13) выбор и формирование траектории задачи распознавания изображений (в соответствии с задачей распознавания со стандартной обучающей информацией);

14) решение задач (1-13) в случаях наличия на изображениях динамических объектов, сложной фоновой обстановки (в том числе динамических и статических помех) и с учетом способа получения, формирования и представления изображений.

Формализация задачи распознавания с помощью понятия стандартной информации (2.2) и матриц вида (2.3) и (2.4) применима в чистом виде при работе с такими видами информации, как результаты наблюдений, измерений, осмотра, экспертные оценки и т.п. Формальные описания объектов распознавания — модели — в этих случаях сравнительно просты, а требования к организации и представлению исходной информации минимальны, вполне допустимо ограничиваться простыми таблицами типа «признак — значение признака». Основная особенность таких моделей объектов распознавания состоит в том, что они представляются некоторым набором характеристик, взаимосвязь и взаимоотношения которых, вообще говоря, игнорируются. При этом предполагается, что каждый объект отождествляется с некоторой точкой многомерного признакового пространства, а класс объектов представляется «компактным» множеством таких точек.

Объектами распознавания могут служить изображения, полученные в различных частях спектра излучений (оптические, инфракрасные, ультразвуковые и т.д.) различными способами (телевизионные, фотографические, лазерные, радиолокационные, радиационные и т.д.), преобразованные в цифровую форму и представленные в виде некоторой целочисленной матрицы. Для кодирования изображений обычно используются стандартные методы эффективного кодирования. В качестве средств представления изображений используются растровое представление, позиционное представление, древовидные структуры данных, эскизы Марра, фреймовые конструкции и дескриптивные модели, записанные на языке ДАИ. Способ получения и формирования изображения на результат распознавания, вообще говоря, не должен влиять, но может учитываться в системе в качестве дополнительной информации.

При работе с информацией, представленной в виде изображений, выделяют несколько уровней обработки информации. На нижнем уровне — уровне предварительной обработки — на изображении выделяются непроизводные элементы и простейшие признаки (яркостные переходы, ориентация яркостных переходов). На следующем — промежуточном — уровне обработки выделяются обобщенные признаки (линии и области), а также извлекается информация о форме объектов (ориентации поверхностей и их наложения друг на друга) (уровень сегментации). На высшем уровне обрабатываются «объекты»; целью является получение описания сцены, и в основе обработки лежит использование знаний о соответствующей проблемной области.

При переходе к задачам распознавания изображений возникают математические задачи, связанные с формальным описанием изображения как объекта анализа. Последний, главным образом, опирается на рассмотрение параметров четырех типов: контраста, яркости (цвета), формы и текстуры.

Задачи, связанные с получением формальных описаний изображений как объектов анализа и формированием и выбором процедур распознавания, решаются при помощи изучения внутреннего строения, структуры и содержания изображения как результата тех операций, при помощи которых изображение может быть построено из «подызображений» и других объектов более простой природы, т.е. непроизводных элементов и объектов, выделяемых на изображении на различных этапах работы с ним (в зависимости от того, применительно к какому морфологическому и/или масштабному уровню формируется модель изображения). Поскольку этот способ характеризации изображения является операциональным, весь процесс обработки и распознавания изображения, включая построение формального описания — модели изображения, можно рассматривать как реализацию на изображении некоторой системы преобразований, которые определены на классах эквивалентности, представляющих ансамбли допустимых изображений. Из этого следует, что работа ведется с иерархией формальных описаний изображений, т.е. в процессе распознавания используются модели изображения, относящиеся к разным морфологическим (масштабным) уровням, в сущности, многоуровневые модели, которые позволяют выбирать и изменять в процессе решения необходимую степень подробности описания объекта распознавания.

При распознавании (при формализации изображения как объекта распознавания) «содержание» изображения характеризуется информацией трех типов: а) идентифицируемые объекты с хорошо определенной структурой; б) идентифицируемые объекты с плохо определенной структурой; в) неидентифицируемые объекты.

В процессе распознавания изображения должна использоваться информация, отражающая механизм формирования образа, т.е. как изображения в целом, так и объектов, на нем представленных. Учет структуры изображений сводится к определению того, какие подызображения — объекты — можно выделить на изображении, насколько они могут или должны быть элементарны и в каких отношениях пребывают эти объекты и элементы. Следовательно, в основе ввода структурной информации в описание объектов распознавания лежит изучение и использование структур отношений элементов, составляющих изображение. Реализуется этот метод при помощи построения модели изображения в виде иерархической структуры более простых объектов. В результате удается в явном виде представлять и использовать иерархическую структурную информацию, содержащуюся в изображении: изображение описывается через некоторую систему объектов, каждый объект описывается с помощью более простых объектов, последние снова описываются с помощью более простых объектов и т.д.

Вводить структурную информацию в процесс распознавания можно двумя способами.

Во-первых, можно сохранить перечень признаков как основной принцип формализации, причем: а) в описание вводятся такие признаки, которые характеризуют взаимосвязи (отношения) отдельных признаков; б) самим признакам присваиваются веса, указывающие степень их существенности для описания объекта; в) отдельные признаки объединяются в комплексы и рассматриваются как один признак.

Второй способ введения структурной информации в процесс распознавания использует то обстоятельство, что такая информация представляет свойственную реальному миру регулярность, проявляющуюся в возникновении различных упорядоченностей и структур. Математическим аналогом этой идеи служит аппарат комбинаторных регулярных структур, обеспечивающий к тому же возможность учитывать иерархичность строения изображений как объектов распознавания. Обращение к комбинаторным регулярным структурам позволяет, оперируя весьма ограниченным количеством непроизводных элементов и ограниченным набором правил комбинирования, при помощи неограниченного их применения к исходным непроизводным элементам и результатам применения отдельных комбинаторных преобразований получать практически неограниченное разнообразие описаний.

Наиболее перспективным является подход, предусматривающий введение пространства формализации изображений и построение в нем многоуровневых представлений и моделей изображений, допускающих применение эффективных алгоритмов распознавания.

При сведении анализа изображений к решению задачи распознавания очень существенно уметь правильно выбирать некоторый алгоритм распознавания из множества известных, т.е. естественным образом возникает проблема выбора в конкретной ситуации наилучшего в некотором смысле алгоритма. Очевидно, что при распознавании изображений, как и при решении задач распознавания со стандартной обучающей информацией, систематизация выбора наилучшего алгоритма непосредственно связана с формализацией теории распознавания изображений, в частности, понятия алгоритма распознавания изображений.

Известно, что необходимость ставить и решать задачу выбора алгоритма, экстремального по функционалу качества распознавания, потребовала введения понятия модели распознающего алгоритма. Потребность в синтезе моделей алгоритмов распознавания в первую очередь определялась необходимостью фиксировать каким-либо образом класс алгоритмов при выборе оптимальной или приемлемой процедуры решения конкретной задачи.

Введение понятия модели распознающего алгоритма позволяет изучать множества некорректных процедур распознавания (т.е. эвристических, не имеющих математического обоснования, но выдержавших экспериментальную проверку при решении реальных задач распознавания) с помощью строгих математических методов. Анализ совокупности некорректных алгоритмов распознавания позволяет по мере их накопления выделять и описывать не только отдельные частные алгоритмы, но и методы их формирования. Эти методы, действующие уже над подмножествами алгоритмов и формируемые сначала также в плохо формализованном виде, затем могут превращаться в точные математические описания. На этом этапе эвристический характер имеет собственно выбор метода, а алгоритмы, порождаемые на основе соответствующего метода, могут строиться стандартным образом. Именно в таком смысле формализация различных методов построения распознающих алгоритмов приводит к появлению моделей распознающих алгоритмов.

Построение модели распознающего алгоритма связано с получением единообразных описаний для множеств некорректных, но успешно решающих практические задачи процедур. Подобное множество задается указанием переменных, объектов, функций, параметров и точным определением областей их вариации, представляя, таким образом, искомую модель алгоритма. Фиксация некоторого набора соответствующих переменных, объектов, параметров и типов функций позволяет выделить из рассматриваемой модели некоторый конкретный алгоритм.

Построение модели алгоритма распознавания изображений и определение соответствующего класса алгоритмов распознавания не сводятся, к сожалению, к механическому переносу в область изображений понятия модели распознающего алгоритма, выработанной в математической теории распознавания, и непосредственному использованию формальных представлений ряда известных моделей распознавания, изученных в классической теории распознавания. Дело в том, что характер и содержание задачи распознавания изображений отличаются от свойственных классической постановке математической теории распознавания.

Определим основные особенности задачи распознавания изображений.

1) Построение формального описания — модели изображения как объекта распознавания — становится самостоятельной задачей, разрешаемой в процессе распознавания.

2) Модель изображения должна включать структурную или, по меньшей мере, реляционную информацию, т.е. она должна представлять собой некоторую формальную конструкцию, при получении которой последовательно проводится принцип учета иерархичности структуры объекта распознавания и отношений, существующих между отдельными элементами этой иерархии как в пределах одних и тех же уровней, так и между ними.

3) Изменяются понятия начальной и финальной информации. Процесс распознавания изображений имеет многоуровневый характер, при котором исходная модель изображения в результате применения к ней процедуры распознавания преобразовывается в модель изображения, относящуюся к другому морфологическому (масштабному) уровню; к полученной модели снова применяется процедура распознавания и т.д., причем правило остановки определяется видом результатов, требующихся при решении рассматриваемой задачи.

4) Тесная связь процессов описания и распознавания изображений и необходимость включения в итерационный процесс распознавания моделей изображения, относящихся к различным морфологическим (масштабным) уровням, означают, что алгоритм распознавания изображения включает помимо распознающего оператора и решающего правила оператор, осуществляющий приведение изображения к виду, удобному для распознавания:

ф5

где In — изображение, соответствующее некоторому морфологическому (масштабному) уровню описания n; Pn (I, Ωm, ωj) — модель изображения на n-м морфологическом (масштабном) уровне описания, полученная в результате применения

оператора приведения изображения к виду, удобному для распознавания, Rfn. Распознающий оператор В (2.3), естественно, применяется к модели Pn, а результат его применения может представлять собой снова модель изображения Pn+m, относящуюся к некоторому «нижнему» морфологическому (масштабному) уровню или иному уровню выбранной иерархии представлений изображения.

Указанные особенности задачи распознавания изображений позволяют определить класс процедур распознавания, характеризующихся некоторой фиксированной структурой, которая задается последовательным применением троек операций R»fn(2.5), В (2.3) и С (2.4); интерпретация процедуры, т.е. конкретные виды преобразований {TF} и {TA}, обеспечивающих переработку информации в процессе распознавания, определяются целями и типом проводимого анализа:

ф6

где Pn(I*) — модель наблюдаемого изображения, соответствующая морфологическому (масштабному) уровню n; IR — регулярность, выявляемая на изображении в процессе решения задачи распознавания.

Подпишитесь на свежую email рассылку сайта!

Читайте также