© Молчанов А. С., 2024
Введение
В настоящее время материалы аэросъемки, полученные цифровыми оптико-электронными системами (ЦОЭС), повсеместно находят применение в военной сфере, различных отраслях народного хозяйства и науки, связанных с изучением местности и объектов в каком-либо отношении.
Роль и место аэросъемки в современном мире, находящемся на этапе резкого обострения экологической ситуации, противостояния ведущих держав за ресурсы и сферы влияния, стремления к переделу установившейся геополитической картины мира, существенно возросла в начале XXI века. Трансформация видов и способов вооруженного противостояния, обусловленная интенсивным развитием технологий в области микроэлектроники, оптики, материалов, предусматривает ведение боевых действий в едином информационном пространстве в любой точке земного шара. Аэросъемка как средство информационного обеспечения в таких условиях становится ключевым элементом сетецентрической системы при принятии решений как стратегического, так и оперативно-тактического уровня. Как показывает опыт вооруженных конфликтов последних лет, роль аэросъемки только увеличивается, так как резко возрастает номенклатура и количество объектов, сведения о состоянии которых необходимо получить в кратчайшие сроки.
Получение необходимой информации реализуется в ходе наблюдения за предполагаемым противником с выполнением аэросъемки. Это подразумевает выполнение систематического контроля над отдельными районами местности, в которых могут произойти события, представляющие интерес, и получения сведений конкретного плана о деятельности противоборствующей стороны, сбора данных о ее военно-промышленном потенциале, о географических, метеорологических и других характеристиках ее территории.
Особенно большое значение аэросъемке придается в военной сфере в связи с резким повышением уровня боевого потенциала войск, при котором уже не является проблемой высокоточное поражение объектов противника, сохраняется лишь проблема своевременного получения информации об их состоянии и местоположении.
Важнейшее место в системе получения информации о противнике как в военное, так и в мирное время отводится воздушной разведке, способной обеспечить оперативное наблюдение за деятельностью противника на обширных территориях и в короткое время доставить получаемую информацию заинтересованным потребителям.
Цифровизация изображений позволила отображать все полученные данные на электронной карте командных пунктов и планшетах командиров.
Актуальность совершенствования цифровых аэрофотографических (оптико-электронных) систем в настоящее время во многом определяет прогресс в освоении ряда приоритетных направлений развития науки и техники. Расширяются области и непрерывно создаются новые ЦОЭС, решающие разнообразные сложные задачи в интересах обороны и обеспечения безопасности. В соответствии с Указом Президента Российской Федерации от 10 октября 2019 г. № 490 «О развитии искусственного интеллекта в Российской Федерации» утверждена Национальная стратегия развития искусственного интеллекта в Российской Федерации, которая предполагает повышение эффективности процессов планирования, прогнозирования и принятия управленческих решений, автоматизацию рутинных (повторяющихся) операций, использование автономного интеллектуального оборудования и робототехнических комплексов, интеллектуальных систем управления и т. д.
В соответствии с постановлением Правительства Российской Федерации от 28 октября 2020 г. № 1750 утвержден перечень технологий, применяемых в рамках экспериментальных правовых режимов в сфере цифровых инноваций, который предполагает развитие нейротехнологий и технологий искусственного интеллекта в области компьютерного зрения, цифрового проектирования, математического, информационного моделирования и управления жизненным циклом изделия или продукции производственной или сервисной системы, цифровых компонент робототехники для человеко-машинного взаимодействия; нейросенсорики; сенсоромоторной координации и пространственного позиционирования; сенсоров и обработки сенсорной информации; систем сбора и обработки информации для эффективного функционирования робототехнических систем; интеллектуальных систем управления робототехническими системами; систем автоматизации управления. В связи с этим разработка требований к дешифрированию аэроснимков, полученных цифровых аэрофотографическими (оптико-электронными) системами является актуальной задачей.
Аэроснимок – это двумерное изображение, полученное в результате дистанционной регистрации техническими системами собственного или отраженного излучения и предназначаемое для обнаружения, качественного и количественного изучения объектов, явлений и процессов путем дешифрирования, измерения и картографирования.
Дешифрирование аэроснимков – комплекс взаимосвязанных организационных, технологических и технических мероприятий. Успешное решение задачи дешифрирования аэроснимков во многом зависит от обоснованности и содержания проводимых мероприятий.
Сложный психофизиологический процесс дешифрирования аэроснимков предъявляет высокие требования к общим и специальным знаниям операторов-дешифровщиков в части знания принципов организации и боевого применения подразделений всех видов вооруженных сил, устройства, функционирования и признаков распознавания всех сложных объектов, а также к системе профессионально важных для них физиологических и психологических качеств.
В монографии рассмотрены вопросы, связанные с теоретическими основами и практическими рекомендациями при дешифрировании инженерных сооружений, промышленных предприятий и объектов железнодорожного транспорта на аэроснимках и подготовке дешифровщиков.
Новыми являются представленные в монографии основы подготовки операторов-дешифровщиков и пути повышения их квалификации, процесс формирования специальных дешифровочных навыков и умений у операторов-дешифровщиков, а также разработанная классификация инженерных сооружений, промышленных предприятий и объектов железнодорожного транспорта, которая позволяет при выполнении процедур обнаружения, выявлении конфигурации, определении габаритных размеров объектов систематизировать все многообразие объектов инженерных сооружений, промышленных предприятий и объектов железнодорожного транспорта к одному из видов, классов, подклассов или типов и отразить общие тактические или технические характеристики.
В монографии изложены общие вопросы применения технологий искусственного интеллекта, рассмотрена терминология и классификация, принятая в данной области науки. Представлены направления применения технологий искусственного интеллекта при дешифрировании аэроснимков, а также сформулированы основные задачи в рамках реализации технологий искусственного интеллекта в системах автоматизированного (автоматического) дешифрирования.
Представлены результаты реализации теоретических исследований при разработке и испытаниях цифровых оптико-электронных систем, используемых на современных комплексах с беспилотными летательными аппаратами «Иноходец», «Корсар», «Гранат», «Форпост», «Тахион», «Орлан», «Элерон», наземных комплексов приема и обработки информации от бортовых комплексов разведки, принятых на снабжение Вооруженных Сил Российской Федерации.
1. Основы подготовки операторов-дешифровщиков и пути повышения их квалификации
1.1. Процесс дешифрирования аэроснимков и формирование специальных дешифровочных навыков и умений у операторов-дешифровщиков
Сложный психофизиологический процесс дешифрирования аэроснимков предъявляет высокие требования к общим и специальным знаниям операторов-дешифровщиков, а также к системе профессионально важных для них физиологических и психологических качеств. Знания составляют основу содержания процесса обучения операторов-дешифровщиков. Они включают теоретические основы как общеобразовательных дисциплин (математики, физики, географии, химии, электроники и т. п.), так и специальных (топографии, аэрофотограмметрии, геологии и др.). Большое значение имеет общая эрудиция, знание основ военного дела, промышленного и сельскохозяйственного производства. Первостепенное значение имеет знание принципов организации и боевого применения подразделений всех видов вооруженных сил, устройства, функционирования и признаков распознавания всех сложных объектов, а также классификации простых объектов, их взаимосвязей и взаимозависимостей.
На первой ступени повышения квалификации дешифровщиков необходимо не только изучать специальные вопросы, но и развивать умения и навыки посредством тренировок с различными тестами.
На втором этапе повышения специальных знаний и навыков необходимо ставить более сложные задачи, например: быстрое распознавание простых и сложных объектов с последующим анализом по памяти признаков, по которым они были распознаны; чтение аэроснимков и карты, сравнение изображения с районом на карте; привязка плановых и перспективных аэроснимков к карте и их ориентирование с постепенным увеличением района поиска и сокращением времени на задачу; привязка к одному или нескольким аэроснимкам небольших вырезок из них; поиск на карте по памяти основных ориентиров, изображенных на аэроснимках, и др.
Для индивидуальных и групповых тренировок в быстром распознавании типовых объектов может быть создан и использоваться простейший тренажер с комплектом изображений типовых объектов аэросъемки, который по определенной программе в неожиданном для обучаемого месте показывает один из объектов. Задача дешифровщика – быстро распознать изображение.
С целью формирования и развития необходимых зрительных качеств должны проводиться тренировки различной сложности по различению деталей, находящихся на границе видения, по дифференцировке тонов и цветов, различению на глаз изображений с близкими размерами и контролем измерения с помощью приборов.
Большое влияние на эффективность дешифрирования оказывают психические свойства дешифровщика, к которым относятся: память (в том числе и зрительная), наблюдательность, умение анализировать и мыслить логически, сообразительность, творческое воображение, внимание, способность к пространственному представлению. В процессе обучения дешифрированию и практической работы эти качества должны развиваться и совершенствоваться с помощью решения, как общих психологических задач, так и специальных упражнений с использованием аэроснимков. При этом сначала нужно решать более простые задачи и отводить на них максимально необходимое время, а потом, по мере накопления опыта и развития определенных качеств, следует задачи усложнять, а время на их решение сокращать.
При формировании общих дешифровочных навыков у операторов необходимо учитывать психологические основы формирования дешифровочных навыков и умений.
Исходя из структуры дешифровочных умений, к общим дешифровочным навыкам могут быть отнесены: сенсорные (зрительные), навыки производства визуальных измерений и стереоизмерительные.
Обучение операторов-дешифровщиков надо начинать с формирования у них необходимых зрительных качеств: различительной чувствительности, разрешающей способности, стереоскопической пластичности, пропускной способности, устойчивости ясного видения и т. д. и накопления необходимого сенсорного опыта по извлечению информации из оптических и фотоэлектронных изображений.
Методика формирования необходимых зрительных качеств у оператора-дешифровщика должна опираться на упражнения различной сложности по различению деталей, находящихся на границе различения; по дифференцировке близких раздражителей: тонов (цветов), форм (текстуры) и размеров объектов применительно к различным литерным условиям информационных моделей. Для этих целей эффективно использование специальных тренировочных таблиц и шкал. В указанные упражнения включаются и измерительные операции. В настоящее время разработано множество подобных упражнений, и они в достаточной мере используются в процессе подготовки операторов-дешифровщиков различного профиля.
Более сложной проблемой является формирование навыков стереоскопических наблюдений и измерений, а именно:
а) развитие стереоскопической чувствительности путем использования стереоскопических испытательных таблиц;
б) формирование навыков быстрого получения устойчивого стереоэффекта на основе самостоятельной тренировки по стереоскопическому рассматриванию аэроснимков;
в) развитие навыков стереоскопических измерений и рисовки рельефа горизонталями;
г) формирование стереоглазомерных измерительных навыков. Для решения двух последних задач необходимо применение определенной системы упражнений.
Методика обучения стереоскопическим инструментальным измерениям должна предусматривать упражнения по ориентированию аэроснимков, по совмещению марки с поверхностью стереомодели, по стереоизмерениям на аэроснимках различной местности, с наращиванием их сложности.
К специальным элементам общего дешифровочного умения, видоизменяющимся в зависимости от вида дешифрирования, относятся навыки по распознаванию и вся система частных дешифровочных умений.
Методика становления навыков распознавания, исходя из их психологических особенностей, включает две основные задачи:
а) поэтапное формирование у обучаемых понятий о системе дешифровочных признаков и достаточного запаса многоплановых эталонных образов изображений различных объектов и соответствующих им образов реальных объектов;
б) развитие у обучаемых приемов структурного и индикаторного анализа изображений отдельных объектов.
Главной задачей в области методики становления дешифровочных умений является формирование алгоритмов структурно поисковых и логических действий, эвристических способов решения перцептивных, диагностических и поисковых дешифровочных задач, приемов оценки ситуаций, изображенных на информационной модели.
Для решения задач по формированию навыков распознавания типовых объектов необходима система упражнений с применением различных видов и средств наглядности (натуральной, объемной, графической, экранной):
а) упражнения в сличении снимков с местностью в процессе как полевого, так и воздушного дешифрирования;
б) упражнения по камеральному дешифрированию с использованием различных наглядных пособий.
Эксперименты, проведенные в летных (натурных) условиях, свидетельствуют о высокой эффективности воздушного дешифрирования аэроснимков.
Однако рассматриваемый способ не всегда может быть реализован. Большое значение имеют рационально организованные камеральные упражнения по дешифрированию аэроснимков и других информационных моделей. Для этих целей необходима разработка системы наглядных пособий, включающих аннотированные изображения, называемые как «эталоны», «портреты». В настоящее время «эталоны» достаточно широко применяются в области автоматизированного дешифрирования аэроснимков.
Проблема построения и использования эталонов весьма сложна, в том числе и в психологическом отношении. Процесс аэрофотографического эталонирования включает: изучение типовых (ключевых) участков местности; анализ их аэрофотоизображений; отбор и проверку эталонных изображений типовых объектов и их классификацию. Для фиксации информации, механизации процесса поиска эталонов применяются классификаторы и системы кодирования.
По содержанию эталоны разделены на специальные (эталоны однородных компонентов ландшафта) и комплексные (эталоны типов ландшафта и их морфологических элементов); по форме – на простые (эталоны отдельных контуров) и сложные (эталоны сочетания контуров); по дальности экстраполяции – на локальные, региональные и зональные и т. д.
Аэрофотографические эталоны делятся на:
селективные – основанные на подборе аналогичных фотоизображений;
элиминативные – основанные на сопоставлении совокупностей фотоизображений и исключении непохожих (дисковые и дихотомические).
Основной задачей дешифрирования является повышение дешифровочных характеристик полученных изображений путем применения к ним программных инструментов для обработки изображений и включает в себя выполнение следующих задач:
– управление видимостью изображений в интерфейсе программного комплекса, включая фильтрацию списка загруженных изображений по различным критериям и настройку прозрачности изображений;
– фильтрация шумов различной природы на изображениях;
– обрезка (кадрирование) изображений;
– уточнение навигационных данных для изображений на основе модели датчика и данных пилотажно-навигационного комплекса;
– корректировка координатной привязки изображений по опорным точкам на местности с использованием опорной геопространственной информации.
Задачей детального дешифрирования являются обнаружение и классификация объектов на полученных изображениях и сохранение объектов в базе данных (БД). Детальное дешифрирование изображений, прошедших этап обзорного дешифрирования, включает в себя выполнение следующих задач:
– автоматизированное обнаружение и классификация на изображениях объектов, для которых в базе данных имеются эталонные вектора признаков;
– визуальное обнаружение и классификация объектов;
– сохранение результатов дешифрирования в БД.
При выполнении задачи визуального обнаружения объектов предоставляется визуальная поддержка дешифрирования для классов объектов, по которым в БД присутствует эталонная информация. По результатам детального дешифрирования формируется донесение.
Традиционные подходы при разработке алгоритмов классификации сводятся к выбору формального описания объектов, построению БД с наиболее характерными описаниями (эталонными векторами признаков) для каждого класса и дальнейшим сопоставлением векторов признаков объектов с БД эталонов, представляющих портрет объекта в различном диапазоне длин волн: оптическом, радиолокационном. Формирование БД портретов (эталонов) объектов является самой трудоемкой частью такого подхода и требует экспертных знаний по разработке системы распознавания.
Одним из наиболее активно развивающихся подходов в области распознавания в последнее время является применение нейронных сетей, в частности различных моделей нейронных сетей. По сравнению с традиционными подходами для нейронных сетей не требуется экспертное построение формальных описаний объектов – используются непосредственно изображения объектов, и для распознавания не нужна БД эталонных векторов признаков – знание о классах находится непосредственно в параметрах обученной нейронных сетей. Кроме этого, нейронные сети достаточно устойчивы к зашумлению обрабатываемых изображений. Для обучения нейронных сетей требуется значительный набор изображений объектов каждого класса.
Одной из основных задач применения классификаторов, основанных на нейросетевых методах, является создание обучающего набора данных достаточного объема, который может составлять десятки тысяч объектов, разбитых на классы.
Классификатор в части накопления и систематизации данных должен обеспечивать:
– формирование обучающего набора данных для классификации по условиям съемки, типам и количества выбранных классов объектов;
– обобщение и анализ обработанной информации сведением базы данных типовых объектов;
– хранение в БД цифровой картографической и опорной геопространственной информации на зону ответственности, радиолокационных и оптико-электронных изображений, формализованных и неформализованных донесений.
Должна обеспечиваться возможность выполнения поиска объектов в БД по различным критериям и возможность обучения пользователей путем формирования учебной обстановки и сохранения результатов контрольно-тестовых полетов. Программные комплексы должны иметь тренажный режим, который поддерживают все функции, применяемые в штатном режиме работы.
Как показывают эксперименты, и занятия по полевому дешифрированию, а также упражнения со специальными макетами, заменяющими реальные объекты, вполне обеспечивают переход от восприятия необычных изображений к объектам в натуре и резко повышают эффективность камерального дешифрирования. Так, в одном из экспериментов специально организованное кратковременное полевое обучение повысило результаты последующего камерального дешифрирования топографических объектов у обучаемых не менее чем на 20 % по сравнению с контрольной группой, не имеющей полевой практики. В качестве специальной задачи по развитию способностей структурного анализа можно производить дешифрирование аэроснимков, на которых постепенно закрывать 30, 50 или 70 % простых объектов, оставляя косвенные и комплексные признаки, способствующие распознаванию сложного объекта, выявлению его состояния и характера деятельности. В заключение определенного курса тренировок целесообразно проводить соревнования между специалистами по решению зачетных задач.
Рациональное использование различных эталонных снимков в процессе обучения требует большого мастерства от преподавателя. Так, например, для формирования гибких «дешифровочных» образов весьма важна вариация снимков на один и тот же объект.
В этих же целях полезно проведение упражнений на мысленное «восстановление» различных проекций объектов на основе планового изображения. Для формирования «чувства масштаба», «масштабных» эталонных образов необходимо использование «шкаловых» масштабных пособий.
Методика обучения дешифрированию в процессе использования эталонов и других учебных пособий должна предусматривать специальное развитие у обучаемых приемов дифференцированного структурного и индикационного анализа с использованием различных признаков в зависимости от поставленной задачи, требующей различной степени категоричности извлекаемой информации, формирование эталонных программ распознавания на основе применения «алгоритмических предписаний».
В целях интенсификации и ускорения подготовки операторов-дешифровщиков перспективным является использование способов и средств программированного (управляемого) обучения.
Программированное обучение представляет собой строго организованный и управляемый процесс формирования у обучаемых понятий, представлений, навыков в соответствии с заранее созданной оптимальной моделью этого процесса.
Управление процессом обучения может быть достигнуто путем программирования на всех этапах обучения и повышения контроля обучаемых. Проведенные психолого-педагогические исследования свидетельствуют о большой роли при программировании учебного процесса структурных логических схем, обеспечивающих определение необходимого объема учебного материала, деление этого материала на смысловые дозы информации и рациональную последовательность их изучения, и логико-психологических схем методики обучения. Основу последних составляет психологическая структура знаний, умений и навыков, исходя из специфики учебного материала. Логико-психологические схемы позволяют устанавливать правильное соотношение между используемыми формами, средствами и методами обучения.
При обучении дешифрированию эффективно использование технических средств обучения, обеспечивающих коллективное предъявление визуальной информации (негативной и позитивной) в виде аэрофильмов или видеофильмов, а также программные комплексы тренажеров.
Несомненно, центральной методической задачей в области дешифрирования является специальное обучение дешифровщиков и других специалистов, применяющих аэрометоды, смысловому анализу и оценке содержания информационных моделей. При этом должен быть реализован ландшафтный принцип, заключающийся в комплексном изучении всех элементов обстановки в их взаимосвязях.
Для решения этой задачи методика подготовки должна предусматривать:
специальное обучение учащихся корреляционным зависимостям между элементами природной обстановки;
прочное усвоение системы комплексных и косвенных признаков; активное применение дешифровочных знаний на разных этапах решения перцептивных, диагностических и поисковых задач;
специальное обучение наиболее прогрессивным способам структурно-поискового анализа информационной модели; достаточную практику в выполнении графо-расчетных дешифровочных операций и т. д.
Как было показано выше, реализация подобной методики при обучении операторов-дешифровщиков дает большой эффект.
Для обучения анализу содержания информационных моделей полезно создание и использование сюжетных задач по дешифрированию элементов природной обстановки. Для создания сюжетных задач могут быть использованы комплексные эталоны и специально подобранные аэроснимки с характерными природными условиями. Для активизации перцептивной и мысленной деятельности обучаемых в качестве специального метода полезно создание дешифровочной обстановки с постановкой «активизирующих» вопросов. При этом важным методическим приемом является требование от обучаемых доказательств своих решений.
1.2. Порядок выполнения дешифрирования
В совокупности приемы, пути и способы организации и выполнения дешифрирования должны быть направлены на эффективное использование сил и средств подразделения дешифрирования с целью решение двух важных задач: получение информации высокого качества в минимально короткие сроки и максимальное использование информации изображений.
В зависимости от поставленной задачи, возможностей подразделения и отведенного времени дешифрирование может выполняться один раз с выдачей первоочередной или сразу полной и подробной информации, а также в два и даже в три этапа с постепенным увеличением ее полноты и подробности.
Порядок выполнения дешифрирования состоит из следующих этапов:
1) изучение условий получения изображений и подготовка материалов к дешифрированию;
2) поиск сложных объектов и определение их элементов, привязка к топографической карте и ориентирование объектов;
3) определение координат объектов;
4) распознавание простых объектов, оценка и обобщение его результатов;
5) определение состояния объектов и их количественных характеристик;
6) оформление результатов дешифрирования.
Первые три-четыре этапа обычно резко различаются между собой и выполняются последовательно, последующие этапы в процессе работы могут частично или полностью вклиниваться в предыдущие, выполняться в комплексе, составляя единый сложный процесс.
Процесс составления фотодокумента и выполнение по аэроснимкам измерительных работ, связанных с определением масштаба аэросъемки, ориентированием относительно сторон света и местности и определением координат объектов, называется фотограмметрической обработкой.
Получив аэроснимок, дешифровщик должен, прежде всего, изучить по отчетному листу условия, при которых было получено изображение. В целях экономии времени изучаться должно только то, что необходимо для дешифрирования, и в порядке изложения данных. Для этого нужно хорошо знать структуру отчетного листа и задачу дешифрирования. При изучении необходимо записать в соответствующем месте и запомнить тип и параметры системы, определяющие вид, масштаб и качество изображения, время, вид и способ съемки местности, район и объект аэросъемки. Запоминание необходимых данных облегчит и ускорит работу, так как в процессе не придется отвлекаться и затрачивать время на их поиск в отчетном листе.
После этого с помощью счетного прибора, графиков или таблиц нужно определить средний масштаб изображения по элементам внешнего и внутреннего ориентирования аэроснимков, что значительно облегчит дальнейшие действия по поиску и определению элементов сложного объекта и привязке его к топографической карте. Если получено несколько фотосхем или на одной фотосхеме сфотографировано несколько сложных объектов с различных высот и с применением различных способов, то условия нужно изучать перед дешифрированием каждого объекта (комплекта аэроснимков).
Подготовка аэроснимка к дешифрированию заключается в установке его в устройство просмотра. Аэроснимок с перспективным изображением при дешифрировании нужно расположить так, чтобы перспектива была направлена от дешифровщика, с планово-перспективным, панорамным, ИК-изображениями – в обе стороны от него. Радиолокационный снимок ориентируется всегда тенями от дешифровщика.
Перед дешифрированием аэроснимки должны быть предварительно разобраны по комплектам (сложные объекты, маршруты и т. д.), а в комплектах – по номерам. При разборе их необходимо одновременно одинаково ориентировать по направлению перспективы и теней. Затем все комплекты нужно уложить на столе в порядке их просмотра по одну сторону от дешифровщика. При этом направление теней от объектов должно совпадать с направлением освещения на рабочем месте.
Поиск сложного объекта следует начинать с первого изображения, просматривая их последовательно одно за другим, пока не будет обнаружен он сам или составляющие его простые объекты. В основу поиска должен быть положен дедуктивный принцип: от общего к частному. Просмотр каждого изображения (аэроснимка) нужно начинать с быстрого общего обзора его невооруженным глазом и/или с помощью использования увеличения изображения. Часть сложных объектов или их элементов обнаруживается сразу, и тогда дальнейший просмотр материалов, поиск элементов и простых объектов строится от них. К таким объектам относятся: аэродромы, порты и военно-морские базы, боевые и походные порядки кораблей, стационарные позиции зенитных ракет, стационарные склады, железнодорожные станции, районы обороны, промышленные комплексы.
При аэросъемке других сложных объектов обнаружить их на аэроснимках сразу не всегда представляется возможным. Распознать сложный объект в этом случае можно только после обнаружения и распознавания основных или почти всех входящих в него простых объектов. Такими сложными объектами являются: войска и боевая техника в различных условиях обстановки, пункты управления, узлы связи и радиотехнического обеспечения, ракетные комплексы оперативного и тактического назначения, зенитные ракетные комплексы. Если эти объекты располагаются на открытой местности, то их поиск следует вести от верхнего левого угла аэроснимка по спирали в направлении движения часовой стрелки или по линиям, параллельным верхнему и нижнему краям. Если местность закрытая и сильно пересеченная, то аэроснимок для просмотра нужно разбить на участки, ограниченные какими-либо естественными или искусственными границами: реками, дорогами, оврагами, опушками леса и т. д.
Дешифровщик, не имеющий большой практики, должен просмотреть в намеченной им последовательности каждый из участков, рассматривая их слева направо параллельными рядами. Этот способ может потребовать много времени, однако он гарантирует отсутствие пропуска объектов при их естественной и искусственной маскировке. Квалифицированный дешифровщик должен работать более эффективно. Часть участков, на которых заведомо не может быть объектов, например, занятых болотами, он может пропускать или просматривать быстрее, чем другие. Производя поиск объектов, дешифровщик должен быть дисциплинированным и не отвлекаться от намеченной им последовательности просмотра, даже если на соседнем участке ему бросится в глаза какой-либо выделяющийся объект. Нужно приучиться работать последовательно, четко, контролировать свои действия и поступки.
Если по прямым признакам объект не обнаружен, то это не всегда означает, что его на аэроснимке нет. Его может быть на первый взгляд не видно в связи с удачным использованием маскирующих свойств местности или маскировочных средств. Поэтому нужно всегда искать косвенные и комплексные признаки. Надо помнить, что как бы тщательно ни был замаскирован объект, на местности всегда остаются следы деятельности людей и техники. Рассматривая аэроснимки, нужно обращать внимание на различного рода нарушения природных образований, границ сельскохозяйственных угодий и других объектов природного ландшафта, а также социально-географических объектов. При поиске объекта нужно обращать внимание на характер местности и делать предположения, как ее можно использовать для расположения элементов сложного объекта и составляющих его простых объектов.
Обнаружив объект, определяют границы его расположения. После выявления границ сложного объекта выделяются его основные элементы и группы простых объектов в них.
После обозначения границ сложного объекта производят его ориентирование – определение направления истинного меридиана (север – юг) и привязку к топографической карте. Выполнение этих операций облегчается, если имеются текущие координаты самолета, а также схема выполнения полета или район выполнения аэросъемки. При любой полноте регистрации элементов внешнего и внутреннего ориентирования привязка объекта к карте и ориентирование относительно сторон света, в конечном счете, сводятся к визуальному отождествлению характерных ориентиров.
Ориентирование относительно местности (привязка к топографической карте) заключается в определении и обозначении, если необходимо, на карте границ участка, занимаемого сложным объектом или аэроснимком. За характерные ориентиры можно принимать углы земельных участков и лесных массивов, пересечения дорог, элементы населенных пунктов, отдельно стоящие местные предметы и т. п. Однако при этом необходимо учитывать возможные изменения на местности: появление новых дорог, предприятий, населенных пунктов, а также изменение облика многих объектов и их уничтожение.
После распознавания характерных ориентиров площадь, занимаемая объектом, обозначается на карте. Отбивка района осуществляется либо по контурам местности, либо переносом узловых точек площади объекта с аэроснимка на карту одним из известных фотограмметрических способов.
1.3. Модель зрительного анализатора оператора-дешифровщика и критерии оценки качества аэроснимков
Процесс отражения внешней среды характеризуется определенной детерминированностью, активностью и динамичностью. Как показывают исследования последних лет, этот процесс реализуется у человека на основе сложной системы психического управления и имеет характер активной, познавательной деятельности.
В общем виде детерминированно-эвристическую концепцию моделирования психофизиологических функций человека можно свести к следующим позициям:
а) управление представляет собой процесс формулирования и решения задачи, сформировавшейся в результате сопоставления воспринятой информации с прошлым опытом и в соответствии с потребностями системы;
б) уяснение задачи и оценка ситуации включает планирование и предвосхищение результатов предстоящих действий системы;
в) процесс решения задачи сводится к выбору или построению программ действий;
г) анализаторы обеспечивают полное, синтетическое и предметное отображение внешней среды («афферентный синтез»);
д) в ходе решения задачи идет непрерывный процесс саморегулирования системы за счет реализации обратных связей (обратная афферентация о результатах действия системы).
Психическое управление имеет два основных аспекта: логико-психологический и операциональный. Логико-психологический аспект связан с формулированием (переформулированием) задач управления. Операциональный аспект связан с процедурами преобразования входной информации и перцептивных образов в интересах выдвижения (построения) и проверки гипотез с использованием внутренних эвристических, структурных и вероятностных механизмов.
Причем сенсорные преобразования выполняют кодирование внешнестимульной информации, последовательно переводя описание внешней среды с одного языка на другой, более абстрактный.
Перцептивные операции осуществляют обратное перекодирование абстрактных, символьных данных в конкретные образы. Система перцептивных операций является в общем случае системой управления познавательным действием, использующей сформированный образ (модель).
Проблема реализации психического управления в технических воспринимающих устройствах сводится к формальному построению сенсорно-перцептивной системы, формирующей и использующей для решения сложных задач модель среды, адекватную задачам и среде.
В настоящее время еще нет формальных, т. е. имеющих строгое математическое построение, моделей информационных процессов, которые бы учитывали основные свойства психического отражения (управления). В нейрофизиологии и психофизиологии имеется описание моделирования некоторых сенсорных процессов, памяти, элементарных мыслительных операций в интересах количественного описания психофизиологических функций и явлений. Однако психологические модели не лишены недостатков – они охватывают изолированные процессы и лишены универсальности даже в рамках одной психологической модели, и не всегда их можно рассматривать как программу формального описания психофизиологических функций человека.
К основным внешним и внутренним закономерностям, свойственным содержательным психологическим моделям, в свете рассмотренной выше структурной теории восприятия могут быть отнесены:
а) обусловленность функционирования «внутренних» моделей среды воспринимаемыми структурами и решаемой задачей;
б) активно-избирательный характер отражения внешней среды на основе действия замкнутых систем постоянных и временных связей различной природы и уровня;
в) этажность обработки информации на основе взаимодействия сенсорных, перцептивных и концептуальных моделей разного ранга, обеспечивающих отражение внешних структур любой сложности;
г) использование динамических, иерархических систем описания и внутреннего воссоздания элементов среды;
д) выработка оптимальной стратегии функционирования в процессе отражения;
е) реконструкция моделей при реализации новых познавательных целей в рамках «гностической саморегуляции».
В структурном смысле рассматриваемые модели представляют собой иерархические системы данных с переменным числом уровней разной сложности, на каждом из которых с помощью определенных лингвистических средств отражаются (в той или иной степени абстрактно) внешняя среда и схемы поведения. Рассмотренная система моделей образует весьма гибкий и тонкий аппарат отражения внешней среды, обладающий высокой чувствительностью и разрешающей способностью, измерительными возможностями с автоматической настройкой.
С точки зрения автоматизации процессов первичной обработки дешифровочной информации особое значение имеет анализ особенностей функционирования перцептивных моделей.
Выполненные экспериментальные исследования позволяют конкретизировать закономерности функционирования перцептивных моделей при восприятии дешифровочной информации:
слойно-ступенчатая природа процесса восприятия первичной информации с формированием на выходе «слоев» промежуточных, а на выходе исчисления – «итогового» образа;
использование естественного языка единичных объектов, опирающегося на переменный алфавит оперативных единиц восприятия;
взаимодействие структурных и эвристических механизмов при построении образов и структурных, вероятностных механизмов – при распознавании;
непрерывное взаимодействие в процессе восприятия поисковых, ориентировочно-исследовательских и распознавательно-информационных действий;
сочетание структурного анализа с индикаторным при восприятии и распознавании зашумленных стимулов;
непрерывное регулирование процесса извлечения и обработки информации; развитое перцептивное обучение (самообучение).
С позиции автоматизации процессов вторичной обработки дешифровочной информации большое значение имеет учет особенностей функционирования концептуальных моделей, связанных с использованием системы эвристик: упреждающего планирования процессов; последовательного структурного расчленения воспринимаемой ситуации и установления отношений между ее элементами; избирательного поиска на каждом уровне без полного перебора вариантов; формирования алгоритмов распознавания в ходе решения задачи и т. п.
Анализ закономерностей, свойственных содержательным психологическим моделям, позволяет сформулировать два основных принципа «действия» таких моделей:
а) детерминированность функционирования моделей воспринимаемыми структурами и задачей и как следствие их адаптивность;
б) эвристичность функционирования моделей при решении сложных перцептивно-опознавательных задач, проявляющуюся прежде всего в многоуровневом решении задачи и общей композиционной активности процесса, включая самопрограммирование.
Последнее не исключает вероятностных аспектов перцептивно-распознавательной деятельности. Все эти особенности определяют преимущества человека перед машиной в информационном плане: активность, избирательность, гибкость, огромный арсенал «лингвистических» средств, возможность использования недостаточной и искаженной информации, огромные возможности обучения, т. е. универсальность функционирования.
Для расширения сферы применения автоматических распознающих и других технических средств с «интеллектуальными» функциями в них должны воспроизводиться основные особенности функционирования соответствующих содержательных психологических моделей. Разумеется, преимущества человека должны использоваться с учетом возможностей и преимуществ машины: высокого быстродействия, пропускной способности, точности, постоянной работоспособности при заданном уровне надежности и т. д. Конечно, не все слепо должно заимствоваться у природы, у человека. Большое значение имеет поиск и использование более экономных или вообще более выгодных в каком-то отношении решений по сравнению с биологическими системами. Однако эти решения, как правило, могут касаться лишь частных, узкоспециализированных функций. Для полифункциональных технических систем, а к ним относятся распознающие автоматы, более или менее полное соответствие с функциями человека является весьма желательным. Это будет способствовать резкому повышению надежности и эффективности технических средств.
Итак, в основу моделирования процессов восприятия и распознавания в интересах построения технических устройств широкого назначения должен быть положен «детерминированно-эвристический» подход с реализацией основных принципов функционирования содержательных психологических моделей, «структурной» детерминированности, взаимодействия моделей разного характера и уровня, эвристичности перцептивно-опознавательной деятельности. Детерминированность рассматривается с содержательно-психологических позиций, а эвристичность – в широком смысле слова, не исключая вероятностные аспекты. Из указанных принципов вытекают как следствие все перечисленные преимущества психического управления и восприятия, включая иерархичность, взаимную корреляцию функциональной и лингвистической структур, кольцеобразность (замкнутость) функциональной структуры в целом и ее элементов и т. д.
Возможные пути построения эффективно действующих непримитивных автоматов на принципах психики:
а) анализ характера психофизиологических и психологических моделей, описывающих в естественном языке деятельность человека;
б) формальное описание психофизиологических функций человека при решении соответствующих задач и построение математических моделей (цифровых, аналитических);
в) создание физических моделей из специализированных (например, оптико-электронных) конструкций и экспериментальная проверка их в различных условиях;
г) формирование интегральной системы, содержащей совокупность физических и математических моделей.
Основными задачами построения формальных моделей являются:
обеспечение универсальности функционирования рецепторных устройств, производящих обработку любой входной информации; воспроизведение функциональной структуры психического управления с реализацией соответствующих эвристик и алгоритмов выделения, преобразования и фиксации информации как при построении психологических моделей, так и их функционировании; разработка иерархического языка для адекватного описания объектов среды и отражающих их текущих образов;
разработка принципов построения внутренней модели проблемной ситуации в ходе ее решения на перцептивно-опознавательном уровне. В настоящее время эти задачи являются центральными в области кибернетической психологии.
При построении моделей восприятия и распознавания необходимо учитывать следующие основные требования:
а) модель должна быть непротиворечивой в рамках моделируемых процессов, способной «вписываться» в более общую модель, быть основой для детализации частных моделей;
б) модель должна выполнять определенные информационные функции, нести новые знания о структуре моделируемых процессов, обеспечивать прогнозирование их функционирования;
в) модель должна быть реализуемой на современных технических средствах, обладать практической полезностью и представлять собой новое средство автоматического выполнения всей системы операций, реализуемых в моделируемых ею психофизиологических структурах.
Полная модель, учитывающая все свойства зрительного анализатора, до настоящего времени не разработана, поэтому при составлении и оценке алгоритмов аналого-цифрового преобразования основные особенности зрительного анализатора учитываются раздельно, а не в совокупности. Особенности зрения выявляются при этом с помощью относительно простых тестовых изображений (штрихов, резких перепадов яркости и т. п.). Полученные результаты затем распространяются на изображения с более сложной структурой.
Сетчатка, которая содержит сложную сеть нейронов, связывающих перекрестно фоторецепторы и соединяющихся с ганглиозными клетками, аксоны которых образуют зрительный нерв, а также связывающих друг с другом ганглиозные клетки, осуществляет преобразование оптического изображения в нейронное, представляющее собой распределение интенсивности возбуждения нейронов, образующих сетчатку. Это преобразование является нелинейным и определяется химическими процессами в фоторецепторах и в системе взаимосвязанных клеток сетчатки, расположенных сразу после фоторецепторов. Изменения, происходящие при этом с изображением, моделируются путем его поэлементного преобразования нелинейной функцией, обычно логарифмической или степенной, с показателем степени 1/3. Использование логарифмической функции удобнее с методической точки зрения, т. к. она согласуется с законом Вебера-Фехнера, который сам является приближенным, применение же степенной функции позволяет получить несколько более точные результаты.
Существует три типа колбочек, входящих в сетчатку, называемых «красные», «синие», «зеленые», которые различаются по чувствительности к различным участкам длины волн λ светового излучения. На рисунке 1.1 приведены кривые спектральных чувствительностей трех типов колбочек, выраженных в процентах, поглощенных зрительными пигментами квантов.
При построении функциональной модели зрительной системы это обстоятельство учитывается включением в нее трех звеньев, «сигналы» с которых соответственно вычисляются по формулам
ek(x,y) = ƒ L(x,y,λ)εk(λ)dλ,
eз(x,y) = ƒ L(x,y,λ)εз(λ)dλ, (1.1)
ec(x,y) = ƒ L(x,y,λ)εc(λ)dλ,
где L(x,y,λ) – распределение яркости (светового потока) по координатам x,y и длин волн света εk(λ),εз(λ),εc(λ) – спектральные чувствительности «красных», «зеленых» и «синих» колбочек, ek(x,y),eз(x,y),ec(x,y) – сигналы с «красных», «зеленых» и «синих» фоторецепторов (колбочек).
Рисунок 1.1 – Кривые спектральных чувствительностей колбочек
В сетчатке глаза происходит первичная обработка изображения, в результате которой формируется ахроматическая (черно-белая) и цветностные составляющие изображения, причем, последние не зависят от яркости наблюдаемого изображения. Сформированные таким образом составляющие изображения фильтруются сетчаткой. При фильтрации ахроматической (яркостной) составляющей имеет место ослабление нижних пространственных частот (ПЧ) за счет латерального торможения. Степень ослабления определяется условиями наблюдения. Если яркость изображения не меняется во времени, то это ослабление максимально. В случае наблюдения мелькающих изображений ослабление нижних ПЧ оказывается тем меньше, чем выше частота мелькания, а при частотах мелькания f ≥ 6 Гц ослабление вообще отсутствует.
Верхние ПЧ как ахроматической, так и цветностных составляющих изображений ослабляются в процессе фильтрации глазом. Процесс ослабления формализуется экспериментальными графиками передаточных функций, представляемых обычно в виде зависимостей контрастной чувствительности зрительной системы в децибелах от пространственной частоты пространственно-гармонического сигнала.
Таким образом, в процессе описанного преобразования оптического изображения в нейронное уменьшается зависимость зрительного ощущения от освещенности сцены, «срезаются» пространственные частоты, сужается спектр, что приводит к сокращению количества информации, поступающей в зрительный нерв за счет устранения всего несущественного. Это сокращение потока информации можно оценить, если учесть, что число колбочек равно 6,5–7 млн, а число волокон зрительного нерва 0,8–1 млн, т. е. оно составляет 6,5–8,75 раз.
Полная функциональная модель зрительной системы на уровне сетчатки, в которой были бы отражены все известные в настоящее время ее характеристики, хотя и может быть построена, но она оказывается слишком сложной и представляет скорее теоретический интерес. При построении модели, пригодной для практического использования, делается ряд упрощающих допущений. Основными из них являются допущения об инвариантности к сдвигу и повороту, а также допущение относительно непрерывности мозаики сетчатки.
При описании модели ахроматического зрения было сделано предположение, что нелинейная реакция глаза на изменение интенсивности имеет логарифмический характер. Нелинейное преобразование осуществляется после проецирования изображения на сетчатку.
Преобразованию подвергаются сигналы рецепторов (палочек и колбочек) до того, как они вступают во взаимодействие друг с другом. На рисунке 1.2 приведена простейшая логарифмическая модель глаза для одноцветного зрения. Эта модель позволяет удовлетворительно предсказать реакцию зрительной системы в широком диапазоне интенсивностей.
Рисунок 1.2 – Логарифмическая модель одноцветного зрения
Однако на высоких и очень низких ПЧ или очень высоких интенсивностях наблюдаемая реакция отличается от предсказанной на основе модели, изображенной на рисунке 2. Для того чтобы получить более точную модель, необходимо детально рассмотреть процессы в зрительной системе.
Нелинейная реакция палочек и колбочек на изменение интенсивности все еще служит предметом активных исследований. Были выдвинуты гипотезы о том, что механизм этой нелинейности объясняется химической активностью, электрическими эффектами и нервной обратной связью. Если входной и выходной сигналы обозначить как Iвх(x,y),Iвых(x,y), соответственно, то основная логарифмическая модель предполагает, что:
Iвых(x,y) = K1log[K2 + K3Iвх(x,y)], (1.2)
где K1,K2,K3 – постоянные.
В другой модели предполагается следующая зависимость выходного сигнала от входного:
Iвых(x,y) = [K1Iвх(x,y)]/[K2 + Iвх(x,y)], (1.3)
В настоящее время используется также степенная функция, когда:
Iвых(x,y) = [Iвх(x,y)]s, (1.4)
где S – постоянная величина, обеспечивающая хорошее согласие между вычисленной вероятностью и субъективной оценкой качества изображения. Подбором постоянных коэффициентов, входящих в выражения (1.2) – (1.4), соответствующие кривые могут быть хорошо сближены в диапазоне средних интенсивностей.
На рисунке 1.3 приведена функциональная модель зрительной системы (глаза). В этой модели колбочки трех типов создают сигналы изображения, определяемые соотношениями (1.2).
Рисунок 1.3 – Функциональная модель зрительной системы (глаза)
Далее эти изображения преобразуются тремя фильтрами – оптическими передаточными функциями оптической системы глаза в этих световых диапазонах. Затем они подвергаются логарифмическому преобразованию и комбинируются, образуя цветоразностные Uk-3(x,y),Uk-c(x,y) и ахроматические Ua(x,y) сигналы (изображения) в соответствии с формулами
где α = 0,612, β = 0,396, γ = 0,019, а коэффициенты a,b1,b2 подобраны так, чтобы пороговые различия при восприятии света или цвета представлялись сферой единичного радиуса в пространстве сигналов (изображений) Ua(x,y),Uk-з(x,y),Uk-c(x,y). Ахроматический и цветностные сигналы (изображения) Ua(x,y),Uk-з(x,y),Uk-c(x,y) поступают на вход фильтров с оптическими передаточными функциями (ОПФ) Wн1(ωx,ωy), Wн2(ωx,ωy), Wн3’(ωx,ωy),ωx = 2πNx, ωy = 2πNy, ωм = 2πfм; Nx,Ny – ПЧ, лин/мм, fм – частота мелькания изображения, Гц. После фильтрации изображения через зрительный нерв поступают в высшие отделы зрительной системы.
Изменение яркости изображения без изменения его спектрального состава вызывает изменение компоненты Ua(x,y), в то время как компоненты Uk-з(x,y),Uk-c(x,y)остаются без изменения, что согласуется с опытом.
В соответствии с теорией линейных систем функция передачи модуляции (ФПМ) зрительного анализатора можно получить из ОПФ по следующей формуле:
где T(2πθx,0) = T(2πN)– одномерная ОПФ, вычисляемая по ФРЛ h(x)
Это выражение в грубом приближении есть зависимость контраста от ПЧ. Так как контраст не может быть равным единице, поэтому можно выполнить нормирование на T(0,0).
ФПМ зрительного анализатора учитывает передаточные свойства как оптической системы глаза, так и передаточные свойства, обусловленные нервными процессами в сетчатке, дифракцией на входном зрачке, аберрацией хрусталика, конечных размеров фоточувствительных рецепторов и др. Однако ФПМ зрительного анализатора не учитывает пространственный шум, фоновую освещенность, положение оператора относительно монитора и времени экспонирования. Тем не менее, каждый из этих параметров влияет на качество восприятия изображения, поэтому эмпирические зависимости, характеризующие ФПМ зрительного анализатора, являются лишь аппроксимацией реальной ФПМ. Преобразование сигналов в сетчатке связано с процессом их «усиления» за счет биологической энергии. При этом коэффициент «усиления» принимается kзр = 2.
Эквивалентную модель зрительного анализатора как канала передачи информации можно представить в виде, приведенном на рисунке 1.4, где WОПТ.ЗР(θ) – ФПМ оптической системы глаза, WСЕТ(θ) – эквивалентная ФПМ сетчатки, полученная путем деления WЗР(θ) на WОПТ.ЗР(θ); Gш.зр(θ) – спектральная плотность дисперсии эквивалентного шума зрительного анализатора. Взаимодействие этих двух фильтров и определяет общую ФПМ зрительного анализатора. Энергия шумов зрительной системы распределена неравномерно в диапазоне пространственных частот.
Рисунок 1.4 – Эквивалентная модель зрительного анализатора как канала передачи информации
Зрительный анализатор представлен в виде эквивалентного фильтра низких ПЧ, состоящего из двух звеньев, и источника помех. Сетчатка обладает свойствами эквивалентными фильтру высоких пространственных частот и имеет характеристики, близкие к характеристикам пространственного дифференцирующего звена.
Зрительный анализатор обладает врожденной и приобретенной способностью специальной организации рецепторов. Поля фоторецепторов подсознательно изменяются в зависимости от яркости изображений. В этом заложена потенциальная возможность зрения изменять свою ФПМ в зависимости от формы рассматриваемых деталей изображения и условий наблюдения.
В работе Шадэ проведены исследования реакции глаза на тест-объект с синусоидальным изменением яркости по пространственной координате и приведена зависимость контрастной чувствительности глаза (звена формирования изображения) от пространственной частоты наблюдаемых объектов, полученная при условии порогового восприятия. В качестве наблюдаемых объектов использовались пространственные синусоидальные миры, что наиболее понятных и хорошо исследованных характеристик, используемых в физиологии зрительного восприятия. Для анализа желательно рассматривать процесс зрения как линейный, чтобы можно было использовать аппарат линейной фильтрации. Однако зрительные процессы не всегда линейны, как, например, в случае эффекта Маха, когда наблюдаются верхний и нижний выбросы в восприятии резкого края детали высокого контраста при переходе от светлого к темному. В тех случаях, когда глаз наблюдает достаточно резкий переход яркости от светлого поля к темному, на границе изменения градиента на темном фоне субъективно появляется еще более темная линия, а на светлом – более светлая линия. При низких контрастах зрительные процессы обычно приближенно считают линейными. В этом случае ФПМ определялась как обратная величина порогового контраста для каждой пространственной частоты миры, приведенной в плоскость сетчатки. Полученные результаты нормировались относительно минимального контраста. Характеристики свидетельствуют об увеличении порогового контраста не только при увеличении ПЧ решетки, но и при ее уменьшении.
Относительно реакции глаза на тест-объект с синусоидальным изменением яркости можно сделать следующие основные выводы:
1. Наблюдаемые пространственно-частотные характеристики глаза не являются результатом действия множества узкополосных резонансных фильтров, а не одного пространственного фильтра. Каждый из этих фильтров настроен на свою среднюю частоту, и они взаимно стохастически независимы. Каждый фильтр может быть выбран независимо, и мозг с известным приближением конструирует оптимальный для решения данной задачи обнаружения фильтр, выбирая соответствующие резонансные фильтры из имеющегося их набора.
2. Оптимальные для решения данной задачи наборы фильтров имеют огибающие типичной формы для одной определенной совокупности условий. Чувствительность зрительного анализатора мала при постоянном сигнале, резко возрастает до максимума на низких частотах и спадает примерно по закону Гаусса на высоких частотах. Пространственная частота, на которой наблюдается максимум, увеличивается с ростом яркости поля адаптации, и реакция глаза в целом охватывает широкий частотный диапазон. Диапазон максимума яркостей наблюдается в интервале 0,1–0,4 мрад-1.
3. При постоянном увеличении максимум яркостей сдвигается в сторону высоких частот с увеличением расстояния аккомодации глаза. Реакция глаза расширяется с увеличением расстояния в связи с меньшей кривизной хрусталика и устранением лучей, идущих под большими углами к оси.
4. Пороговый контраст повышается, если положение штрихов синусоидального тест-объекта составляет угол 45° с вертикалью или горизонталью. Пороговый контраст понижается с ростом яркости поля адаптации и расстояния аккомодации.
Наличие зрительных порогов объясняется воздействием специфических помех (шумов) зрительного анализатора, определяемых спонтанной активностью сетчатки и флуктуацией проводимости нервных каналов. Таким образом, ФПМ зрительного анализатора для случая порогового наблюдения характеризует величину шумов зрительной системы и их зависимость от ПЧ наблюдаемой миры.
Имеющиеся экспериментальные данные указывают на способность зрительного анализатора человека перестраивать свои рецепторные поля, т. е. как бы изменять размер, форму и закон пропускания отождествляемой со зрительным анализатором сканирующей апертуры глаза в зависимости от формы рассматриваемых объектов и их деталей. Это дает основание применять для описания визуального восприятия (обнаружения) методы линейной фильтрации.
Для описания чувствительности к свету зрительного анализатора человека используют так называемый дифференциальный порог – отношение минимальной воспринимаемой визуальной разности фона Lф и расположенной на нем круглой или квадратной площадки (стимула) Lс к яркости фона
kt = |Lс – Lф|/Lф = ΔL/Lф. (1.9)
Рисунок 1.5 – Зависимость дифференциального порога зрения от яркости фона: 1 – α2=500 угл. мин2 (350×350 мкм2), 2 – α2=100 угл. мин2 (50×50 мкм2), 3 – α2 = 10 угл. мин2 (16×16 мкм2)
Экспериментальные данные показывают, что дифференциальный порог зависит от яркости поля адаптации Lад, углового размера стимула на сетчатке глаза α, степени размытия границы между стимулом и фоном, продолжительности наблюдения, степени флюктуации яркости в пределах фона и стимула и от зоны сетчатки глаза, на которую проецируется стимул.
Если фон и стимул однородны, граница между ними резкая, а продолжительность наблюдения не ограничена, то в фовеальной зоне при яркостях более 10 Кд/м2 (дневное зрение) и размерах стимула более 100 угл. мин2 дифференциальный порог достигает сравнительно небольших значений – 0,02–0,04 (рисунок 1.5).
При уменьшении размера стимула дифференциальный порог возрастает, и при наибольшей остроте зрения (α=1 угл. мин, Lф≥100 кд/м2) он равен примерно десяти. Если граница между фоном и стимулом нерезкая, порог увеличивается.
Дифференциальный порог может быть выражен в значениях контраста, а именно: при
Отношение ΔL/L называется отношением Вебера. В практических приложениях принимают отношение Вебера, равным 0,02.
Восприятие цветных изображений характеризуется порогом цветоразличия. Чувствительность зрительного анализатора к изменению цвета наибольшая, когда цвет детали примерно совпадает с цветом окружающего ее фона. Зрительный анализатор может различать несколько тысяч цветов, в пределах которых при наилучших условиях наблюдения цвета деталей с угловыми размерами, равными 2°, воспринимаются как одинаковые. Пороги цветоразличия можно считать примерно равными размерам этих областей. Треугольник «красный-зеленый-синий» ограничивает область цветов, воспроизводимых ЦОЭС. Величина порогов цветоразличия в значительной мере зависит не только от положения в цветовом теле, но и от направления координатных осей, т. е. от цветовой системы. Это обстоятельство может быть использовано для повышения эффективности аналого-цифрового преобразования путем перехода от одной цветовой системы к другой.
Зрительный анализатор, как правило, более чувствителен к изменению яркости деталей, чем к изменению их цветности. Этим, в частности, объясняется то, что в каналах цветности допускается обычно более высокий уровень шумов, чем в канале яркости. Относительная видность шумов в канале передачи зеленой составляющей изображения выше, чем в канале передачи красной составляющей, а в канале красной составляющей выше, чем в канале передачи синей составляющей. При уменьшении угловых размеров деталей изображения контрастная чувствительность зрения падает. Пороговый контраст необходимо учитывать, отмечая конкретно, к каким деталям изображения он относится.
Зависимость порога цветоразличия от размеров деталей и пространственной частоты изображения имеет примерно тот же характер, что и зависимость порогового контраста от этих величин. Установлено, что зрительный анализатор удовлетворительно различает цвет крупных деталей, линейные размеры которых более 12 элементов разрешения изображения. Детали, угловые размеры которых равны 6–18 угл. мин., воспринимаются как окрашенные цветами от оранжевого до зелено-синего. Детали с меньшими угловыми размерами воспринимаются как неокрашенные. Порог цветоразличия растет с увеличением ПЧ изображения независимо от его цвета. Поэтому при оценке уровней помех в каналах цветности широко используются взвешивающие характеристики помех.
Контрастная чувствительность зрительного анализатора зависит также от частоты изменений яркости деталей во времени. Такие изменения могут возникнуть как паразитный эффект при передаче многокадровых изображений. Чем меньше размеры деталей, тем слабее это влияние. С увеличением частоты мельканий их заметность вначале увеличивается, а затем падает. При частоте, превышающей 40 Гц, мелькания незаметны. Изменения яркости могут повысить контрастную чувствительность зрения к обнаружению крупных деталей на порядок. Такое повышение имеет место при частоте мельканий, равной 3–15 Гц.
При кодировании изображений, хранения и передачи в цифровом коде, а также при использовании тех или иных алгоритмов улучшения изображений необходимо оценивать качество результата. Во всех этих задачах общим является вопрос о качестве изображения о том, чтобы в процессе обработки изображений поддерживать, повышать и восстанавливать его.
Для оценки качества передачи изображений любого типа удобно было бы иметь единый обобщенный критерий. Известно, что два цвета практически неразличимы при величине 4–6 ед. МКО. В качестве численного значения цветового различия используется пороговая величина, равная 6 ед. МКО. При любом методе передачи необходимы экспериментальные оценки изображений по нескольким критериям, перечень которых согласуется с общими свойствами трактов передачи данного типа и с перечнем возможных искажений сигналов в таких трактах. При оценке качества передачи изображений на практике иногда используется критерий СКО.
Приближенный характер оценок по приведенным выше критериям делает необходимой субъективную экспертизу качества на реальных изображениях.
В настоящее время субъективное качество оценивается двумя способами: либо определяется верность воспроизведения, либо оценивается дешифрируемость изображения.
Верность воспроизведения характеризует степень отклонения обработанного изображения от некоторого эталонного. Например, при оцифровке и визуализации изображения на мониторе компьютера могут возникать погрешности, проявляющиеся в потере РС, уменьшении контрастов и т. д. Некоторые погрешности воспроизведения улучшают дешифрируемость, поэтому существуют различные процедуры подчеркивания границ, дифференцирования, цветовой коррекции изображений.
Очевидно, что количественные меры верности и дешифрируемости изображений крайне необходимы для проектирования и оценки систем воспроизведения изображений. Эти меры во многом помогут избавиться от трудоемкости и подчас неточной современной методики оценки изображений посредством субъективной экспертизы. Кроме того, на основе количественных мер можно развивать методы оптимизации систем обработки изображений.
В разработке количественных критериев верности и дешифрируемости изображений достигнуты значительные успехи. Однако введенные критерии не являются достаточно совершенными: очень часто можно привести примеры изображений, качество которых формально оценивается как высокое, а субъективно как низкое, и наоборот.
В настоящее время наиболее распространенным способом определения качества изображений является субъективная экспертиза. В качестве экспертов привлекают наблюдателей-неспециалистов. Их оценки определяют качество изображения именно так, как его воспринимает средний наблюдатель.
Кроме того, проводятся опыты со специалистами, имеющими опыт обработки изображений, от которых следует ожидать более обоснованных оценок качества. Предполагается, что опытные наблюдатели замечают небольшие погрешности изображения, которые неспециалист может проглядеть.
Существуют два вида экспертных оценок: абсолютные и сравнительные. В первом случае наблюдатель должен оценить качество изображения по какой-то заранее определенной шкале. При некоторых методиках процесс оценивания облегчается тем, что наблюдателю предоставляется также набор эталонных изображений. Существуют и другие методики, когда наблюдатель вынужден принимать решение только на основании своего собственного опыта. При сравнительных оценках наблюдатель должен ранжировать набор конкретных изображений, т. е. расставить их в ряд по убыванию качества.
Изображения оцениваются экспертами по шкалам снижения и оценки качества. Шкала снижения качества применяется для сравнительной оценки изображений до и после преобразований. Шкала оценки качества применяется для оценки преобразованного изображения при отсутствии оригинала. Как правило, пользуются следующими пятибалльными шкалами.
Шкала снижения качества:
5 – искажения незаметны;
4 – искажения заметны, но не мешают;
3 – искажения заметны, немного мешают;
2 – искажения мешают, надоедают;
1 – искажения сильно мешают.
Шкала оценки качества:
5 – отличное качество;
4 – хорошее;
3 – удовлетворительное;
2 – плохое (неприемлемое);
1 – очень плохое (совершенно неприемлемое).
На основании оценок, данных различными наблюдателями, вычисляется среднеарифметическая оценка.
Распространенным видом шкалы оценок является шкала «общего качества», когда изображениям приписываются баллы, которые соответствуют градациям от «неудовлетворительно» до «отлично», приведенным в таблице 1.1. На практике каждое изображение поступает к наблюдателю, и он выставляет балл той категории, которая, по его мнению, в наибольшей степени соответствует качеству изображения. Вариантом данной шкалы является шкала «места в группе», или относительная шкала (таблица 1.2), когда наблюдатель оценивает качество изображения, сравнивая его со всеми другими изображениями, входящими в рассматриваемую группу.
Таблица 1.1 – Шкала общего качества изображения
Таблица 1.2 – Относительная шкала качества изображения
Еще одной распространенной шкалой оценок является шкала погрешностей (таблица 1.3), согласно которой наблюдатель должен оценить в баллах степень искажений, изменяющихся от «незаметных» до «крайне нежелательных».
Результаты экспертных оценок обычно выражают с помощью среднего балла, определяемого как:
где nk – число изображений k-й категории; Ck – соответствующий ей балл.
Таблица 3 – Шкала погрешностей
Рисунок 1.6 – Сравнение шкал качества и погрешностей, применяемых для субъективной оценки изображений
Считается, что для получения надежной оценки качества изображения необходимо опросить не менее двадцати наблюдателей. Одной из трудностей, связанных с балльными оценками, является возможная нелинейность шкалы.
На рисунке 1.6 для сравнения помещены шкала абсолютного (общего) качества, шкала погрешностей и еще одна шкала погрешностей, состоящая из трех градаций. Сравнение шкал выполнено на основе субъективных оценок.
Для сравнения и оценки качества съемочных систем в США успешно используется Национальная шкала дешифрируемости снимков (National Imagery Interpretability Scale, NIIRS), которая первоначально разрабатывалась для военных организаций, имеющих в своем штате опытных специалистов и использующих визуальные методы дешифрирования. Шкала NIIRS основана, прежде всего, на пространственном разрешении снимков, но в ней учитываются также факторы, связанные с отношением сигнал/шум и функцией рассеяния точки. Краткое описание 10-уровневой шкалы NIIRS, разработанной для панхроматических снимков, приведено в таблице 1.4. Более подробное описание содержится в работе Лихтенауэра (Leachtenauer и др., 1997) и в документации IRARS (1996). Была также разработана шкала NIIRS для оценки многоспектральных снимков (IRARS, 1995). Процедура оценки заключается в том, что снимок отдают опытному специалистудешифровщику (сертификат NIIRS) и просят его определить уровень деталей, которые он может распознать. Средний балл процедуры для панхроматических снимков, полученных системой IKONOS с разрешением 1 м по шкале NIIRS, составил 4,5.
Таблица 1.4 – Национальная шкала дешифрирования (NIIRS) Баллы Критерий.
На первый взгляд, шкала NIIRS не очень полезна для тех задач, которые решаются в области гражданского применения данных дистанционного зондирования. Однако при существующей тенденции к увеличению разрешающей способности многоспектральных датчиков до уровня таких систем, как IKONOS, QuickBird и Orb View, можно ожидать, что одни и те же данные будут использоваться как для военных, так и для гражданских целей. Кроме того, положенная в основу NIIRS идея о необходимости связывания характеристик съемочной системы и параметров решаемой задачи может оказаться очень полезной для количественного анализа ЦОЭС. В частности, предлагается математически связать параметры датчиков со шкалой NIIRS и оценивать возможность использования той или иной съемочной системы с помощью обобщенной формулы качества изображения (Leachtenauer и др., 1997).
На результаты субъективных экспертных оценок влияют характер рассматриваемых изображений и окружающая обстановка (условия эксперимента). Если наблюдатель видел подобные изображения, то он склонен более строго оценивать погрешности, поскольку имеет сложившееся представление о структуре изображения. С другой стороны, в незнакомом изображении искажения могут оставаться незамеченными, пока наблюдателю не будет на них указано. Условия эксперимента должны в максимально возможной степени соответствовать условиям наблюдения в реальной обстановке. Следует с осторожностью пользоваться экспертными оценками, если изменились условия наблюдения. Так, качество изображения на экране обычного телевизионного монитора может быть расценено как «хорошее», с «еле заметными» искажениями. Однако если то же самое изображение будет представлено в виде фотографии, снятой с помощью высококачественной аппаратуры, то все погрешности, ранее скрытые нелинейностями телевизионного устройства, неожиданно могут стать очень заметными.
2. Основы применения искусственного интеллекта при дешифрировании аэроснимков
2.1. Основные определения искусственного интеллекта
Искусственный интеллект как область знаний охватывает все области человеческой деятельности, включая информатику, математику, философию, психологию, термодинамику, лингвистику, здравоохранение, инженерию, экономику, когнитивные науки и др.
Эти знания используются в таких приложениях, как системы управления, системы принятия решений, многоагентные системы, системы обработки естественного языка, распознавание образов, распознавание речи, обработка знаний, интеллектуальный анализ данных, логистика и другие приложения.
Ниже раскрыты основные термины и определения, принятые в области искусственного интеллекта в соответствии с ГОСТ Р 59277–2020.
Искусственный интеллект – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение, поиск решений без заранее заданного алгоритма и достижение инсайта) и получать при выполнении конкретных практически значимых задач обработки данных результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Комплекс технологических решений включает в себя информационнокоммуникационную инфраструктуру, программное обеспечение (в том числе, в котором используются методы машинного обучения), процессы и сервисы по обработке данных, анализу и синтезу решений.
Компьютерное зрение – способность функционального блока получать, обрабатывать и интерпретировать визуальные данные.
Нейротехнологии – технологии, которые используют или помогают понять работу мозга, мыслительные процессы, высшую нервную деятельность, в том числе технологии по усилению, улучшению работы мозга и психической деятельности.
Система искусственного интеллекта (СИИ) – техническая система, в которой используются технологии искусственного интеллекта.
Технологии искусственного интеллекта – комплекс технологических решений, направленных на создание систем искусственного интеллекта.
Автоматизированная система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций.
Автоматическая система – совокупность управляемого объекта и автономной СИИ, функционирующая самостоятельно, без участия человека.
Автономность – характеристика СИИ, связанная с ее способностью самостоятельно (без участия человека) выполнять возложенные на нее функции в течение заданного времени и с заданными показателями качества, надежности, безопасности. Системы, работающие в автономном режиме, подлежат обязательному контролю или надзору со стороны человека.
Агент – физический/программный объект, который оценивает собственное состояние, состояние других объектов и окружающей среды для выполнения своих действий, включая прогнозирование и планирование, которые максимизируют успешность, в том числе при неожиданном изменении оцениваемых состояний, достижения своих целей.
Алгоритм – конечное упорядоченное множество точно определенных правил для решения конкретной задачи.
Библиотека знаний – набор информационных (знаковых, символьных) моделей, которые выражают знания (также могут включать в себя определение моделей и их требования) о ряде вещей (понятий) и хранятся и воспроизводятся в электронном виде.
Вычислительные средства (средства вычислительной техники) – технические средства, непосредственно осуществляющие обработку данных.
Данные – предоставление информации в формальном виде, пригодном для передачи, интерпретации или обработки людьми или компьютерами.
Доверие к системе искусственного интеллекта – уверенность потребителя и, при необходимости, организаций, ответственных за регулирование вопросов создания и применения систем искусственного интеллекта, и иных заинтересованных сторон в том, что система способна выполнять возложенные на нее задачи с требуемым качеством.
Интероперабельность – способность двух или более информационных систем или компонентов к обмену информацией, в том числе на организационном, семантическом и техническом уровнях, и к использованию информации, полученной в результате обмена.
Интероперабельная система – система, в которой входящие в нее подсистемы работают по независимым алгоритмам, не имеют единой точки управления, все управление определяется единым набором стандартов – профилем интероперабельности.
Информационная технология – методы, способы, приемы и процессы обработки (сбора, накопления, ввода-вывода, приема-передачи, хранения, поиска, регистрации, преобразования, анализа и синтеза, предоставления, отображения, распространения и уничтожения) информации с применением программных и технических средств.
Киберфизическая система – информационно-технологическая концепция, подразумевающая интеграцию вычислительных ресурсов в физические процессы. В такой системе датчики, оборудование и информационные системы соединены на протяжении всей цепочки в логику управления для создания стоимости, выходящей за рамки одного предприятия или бизнеса. Эти системы взаимодействуют друг с другом с помощью стандартных интернет-протоколов для прогнозирования, самонастройки и адаптации к изменениям.
Многоагентная система – система, состоящая из множества взаимодействующих интеллектуальных агентов. Многоагентные системы могут решить проблемы, которые трудны или невозможны для отдельного агента или для единой (монолитной) системы.
Программное обеспечение (программа, программное средство) – упорядоченная последовательность инструкций (кодов) для вычислительного средства, находящаяся в памяти этого средства и представляющая собой описание алгоритма управления вычислительными средствами и действий с данными.
Распределенная система – распределенная система обеспечивает решение проблемы управления на базе распределенной системы знаний в отличие от многоагентных систем, где базы знаний отдельных агентов взаимодействуют.
2.2. Принципы классификации систем искусственного интеллекта
Классификация систем искусственного интеллекта отражает существенные (значимые) характеристики СИИ, включая особенности контура управления, в рамках которого используется СИИ, и технологии построения и использования знаний.
Представлена схема классификации, отражающая основные особенности СИИ для решения прикладных задач, помогающая определить направления их стандартизации (рисунок 2.1).
Схема классификации базируется на ключевых, с точки зрения стандартизации, основаниях классификации.
Каждое из рассматриваемых оснований представлено в виде нескольких классов верхнего уровня. В большинстве случаев более детальную иерархию классов или принципы классификации можно найти по ссылкам на соответствующие стандарты или документы.
Базовые классы СИИ целесообразно группировать на основе следующих принципов:
1) по классам и категориям объектов в управлении;
2) по технологиям построения, приобретения и использования знаний;
3) по функциям, которые выполняет СИИ в контуре управления;
4) по методам и технологиям, используемым в СИИ;
5) по методам и средствам взаимодействия СИИ с другими системами и человеком-оператором.
Эти подходы к классификации являются основными. Каждый из них может иметь иерархическую структуру.
Дополнительные классификации могут быть связаны со специальными требованиями к объектам, процессам, контуру управления, архитектуре, ресурсам с учетом окружающей среды (интероперабельность, нормы регулирования, безопасность, действия стандартов, этические требования, надежность, отказоустойчивость, условия внешней среды и т. д.).
Классификация, связанная с описанием каждого класса, представляет собой перечень объектов, соответствующих данному классу.
Классы, к которым могут быть отнесены СИИ, необязательно исключают друг друга. Для некоторых СИИ может быть применен только один из классов, а для других – несколько.
Каждая конкретная позиция классификации может быть детализирована, как по уже существующим стандартам, так и по сложившейся практике.
Рисунок 2.1 – Схема классификации СИИ
Рассмотрены следующие основания для классификации:
1) по степени автономности;
2) по степени автоматизации;
3) по архитектурному принципу;
4) по структуре и процессам обработки знаний:
а) по модели знаний;
б) по управлению знаниями;
в) по методу обучения;
5) по специализации систем ИИ:
а) специализированные (используют единый домен знаний);
б) комплексные (используют множество доменов знаний);
6) по методам обработки информации;
7) по функциям в контуре управления;
8) по методам достижения интеграции и интероперабельности СИИ;
9) по опасности последствий;
10) по конфиденциальности;
11) по видам деятельности;
12) по взаимодействию с человеком-оператором.
Возможно расширение видов классификации систем ИИ.
Схема классификации представлена в таблице 2.1.
Таблица 2.1 – Схема классификации систем искусственного интеллекта
Возможно дополнение классификации СИИ как по новым основаниям, так и путем детализации классов по специализированным классификациям.
Классы можно характеризовать различными дополнительными аспектами или подклассами, например:
– наличием/отсутствием внешнего наблюдения, осуществляемого человеком-оператором либо другой автоматизированной системой;
– степенью понимания системы;
– степенью реактивности/отзывчивости;
– уровнем устойчивости функционирования;
– степенью надежности и безопасности;
– видом аппаратной реализации;
– степенью приспособляемости к внутренним или внешним изменениям;
– способностью оценивать свою собственную работоспособность/пригодность;
– способностью принимать решения и планировать.
2.3. Применение технологий искусственного интеллекта при решении задач дешифрирования аэроснимков
Развитие элементной базы, материалов и технологий, в том числе искусственного интеллекта, робототехники, информационных и коммуникационных технологий, технологий цифровых двойников, способствует созданию нового поколения интеллектуальных бортовых аэросъемочных систем (аэрофотографических, телевизионных, инфракрасных, лазерных, радиолокационных, радиотехнических) и систем автоматизированного и автоматического дешифрирования (СААД) данных, полученных бортовыми аэросъемочными системами (БАС).
В рамках реализации технологий искусственного интеллекта в БАС и СААД сформулированы следующие основные задачи:
создание единой нормативной, информационной, технологической и инфраструктурной базовой платформы в области технологий искусственного интеллекта;
создание системы испытаний и опытной эксплуатации технологий искусственного интеллекта;
обоснование показателей качества искусственного интеллекта и разработка методического обеспечения оценивания этих показателей;
создание цифровых двойников с целью выполнения технических и тактико-технических требований к БАС и СААД, снижения себестоимости, сроков разработки и испытаний БАС и СААД, повышения их технологичности, а также повышения надежности и эффективности эксплуатации БАС и СААД;
развитие интеллектуальных средств и методов дешифрирования, обеспечивающих оперативное и надежное автоматизированное (автоматическое) обнаружение и распознавание объектов, в том числе замаскированных, а также ранжирование объектов по уровню угроз;
автоматизированная комплексная оценка и прогнозирование тактической обстановки и объединение априорных данных о противнике;
комплексное дешифрирование данных от аэрофотографических, телевизионных, инфракрасных, лазерных, радиолокационных, радиотехнических БАС;
автоматизация работы, контроля, диагностирования и прогнозирования технического состояния оборудования БАС и СААД.
Перечень задач, которые целесообразно решать с использованием технологий искусственного интеллекта в БАС и СААД, в зависимости от вида обрабатываемых данных, имеет следующие основные уровни классификации:
задачи в интересах обработки видовой (некоординатной) информации;
задачи в интересах обработки координатной информации;
задачи в интересах обработки неструктурированной (слабоструктурированной) информации (обеспечение кибербезопасности, реализация систем поддержки принятия решений и т. п.).
Для решения указанных задач для БАС и СААД устанавливаются следующие технические требования:
выполнение этапа предобработки за минимально допустимое время, обеспечивающего возможность выполнения более сложного основного этапа обработки информации в реальном масштабе времени;
использование наиболее простых математических операций для наилучшего быстродействия и интеграции алгоритмов в специализированные вычислительные устройства, способные работать в условиях мобильных механизмов и дестабилизирующих факторов полета;
обеспечение оптимального качества обработки информации, поступающей от различных информационных систем (оптико-электронных, радиолокационных, радиотехнических, лазерных и др.), позволяющее принятие за короткое время рациональных решений;
предоставление потребителю информации в наиболее удобном виде, обеспечивающем эффективное выполнение поставленных задач.
Технологии искусственного интеллекта открывают широкие возможности для повышения эффективности автоматизированного и автоматического дешифрирования объектов в условиях обработки большого объема видеоинформации, полученной видовыми аэрофотографическими, телевизионными, инфракрасными, радиолокационными, лазерными системами.
2.4. Биологические основы искусственного интеллекта
Человеческий мозг – самая сложная в обозримом мире биологическая структура, представляющая собой результат миллионов лет эволюции.
Головной мозг человека весит от 1,3 до 1,8 кг и содержит триллион клеток, из которых 100 млрд представлены соединенными в сети нейронами. Это соизмеримо с числом звезд в Млечном Пути. Нейроны, соединенные разнообразными связями в сеть, определяют интеллект, творческие способности и память человека. Количество нейронов в головном мозге человека больше, чем у всех остальных известных форм жизни. Нейрон представляет собой особый вид клеток, которые обладают электрической активностью. Он получает информацию (рисунок 2.2) при помощи сильно разветвленных отростков, называемых дендритами, и передает информацию вдоль тонкого волокна – аксона. Аксон имеет множество ответвлений, на конце каждого из которых находится область, называемая синапсом. Посредством синапсов осуществляется связь между различными нейронами. Самым распространенным типом синапсов являются химические, которые работают следующим образом. Предсинаптический процесс формирует передаваемую субстанцию, которая методом диффузии передается по синаптическим соединениям между нейронами и влияет на постсинаптический процесс. Таким образом, синапс преобразовывает предсинаптический электрический сигнал в химический, а после этого – в постсинаптический электрический.
Каждый нейрон может иметь тысячи связей с соседними нейронами. Информация по аксонам передается в виде коротких электрических импульсов, амплитуда которых составляет около 100 мВ, а длительность – 1 мс. На участках контакта между нейронами (синапсы) электрические импульсы превращаются в химические сигналы, которые стимулируют проникновение в клетку нейрона положительных зарядов. Когда достигается критическое значение потенциала, называемое пороговым, в ядре нейрона возникает электрический импульс, распространяемый, как волна, по аксону на следующий нейрон. Вклад одного синапса в установление соответствующего потенциала на выходе нейрона очень маленький. Для возникновения электрического импульса необходимо, чтобы нейрон непрерывно интегрировал множество синоптических входов.
Такая интеграция является нелинейным преобразованием и не соответствует простой операции линейного суммирования. Использование технологии окраски нейронов солями серебра позволяет выявить в коре головного мозга большое разнообразие типов нейронов. Существуют пирамидальные нейроны, нейроны таламуса, нейроны Пуркинье и т. д., всего около 50 типов. Из этого следует, что не все компоненты, из которых построен мозг, взаимозаменяемы.
Рисунок 2.2 – Биологический нейрон
Скорость распространения нервного импульса в аксоне составляет приблизительно 100 м/с, что в миллион раз меньше скорости распространения электрического сигнала по медной проволоке. Однако параллельная обработка нейронами информации, одновременно распространяющаяся по множеству связей, компенсирует этот недостаток.
Таким образом, в процессе психической деятельности в коре головного мозга распространяются нервные импульсы, которые активизируют соответствующие области нейронов. Совокупность нейронов и связей между ними образуют нейронную сеть, от функционирования которой зависят эмоциональные реакции, сознательная деятельность и память человека.
Анализ нейронной организации мозга позволяет сделать следующие выводы:
– мозг разделен на зоны, которые состоят из различных функциональных структур нейронных сетей. Разнообразная информация хранится и обрабатывается в разных нейронных структурах головного мозга;
– между нейронными структурами мозга существуют как прямые, так и обратные связи. Обратные связи в частности синхронизируют активность различных функциональных нейронных зон, благодаря чему создается единая интеграционная картина об объекте;
– осознание и понимание увиденного происходит одновременно, благодаря синхронизации активности соответствующих нейронных структур мозга, которые обрабатывают различные атрибуты информации (цвет, форма, запах и т. п.);
– для головного мозга характерна как последовательная, так и параллельная обработка информации;
– образная информация обрабатывается параллельно, а операции с символьной информацией производятся в общем случае последовательно;
– система памяти головного мозга состоит из кратковременной, оперативной и долговременной;
– существует последовательное и параллельное соединение нейронных структур мозга с точки зрения надежности. При нарушении одной из параллельно соединенных нейронных структур происходит частичная потеря функций соответствующей нейронной системы (неразличение цветов и т. д.). При дефекте одной из последовательно соединенных нейронных структур происходит отказ, ведущий к полной потере функций соответствующей нейронной системы.
Развитие мозга – это непрерывный процесс, который происходит в результате обучения посредством взаимодействия с внешней средой с учетом внутренних факторов организма. Оно начинается в эмбриональный период и происходит в течение всей жизни. Как показывают исследования, именно в эмбриональный период закладываются основы разума путем образования нейронных структур и связей между ними. Установление и образование нейронных структур мозга зависят как от генетической программы развития нервной системы, так и от внешних воздействий, стимулирующих нервную активность мозга. Под управлением генетической программы происходит рост аксонов в определенных направлениях для установления синаптических связей между нейронами. Однако не существует точной спецификации каждого межнейронного соединения. Для этого потребовалось бы огромное количество генов. Как только растущие кончики аксонов достигают соответствующей им области, на выбор конкретной межнейронной связи начинают влиять события внешнего мира, стимулирующие определенную нервную активность. От воздействия этой активности и зависит установление соответствующих межнейронных связей. Поскольку каждый индивид имеет неповторимую генетическую информацию и развивается в разных условиях (испытывает воздействие разных сочетаний раздражителей), то архитектура мозга формируется у каждого человека по-своему. Это составляет его индивидуальность. Человек живет, и его сознание развивается во времени и в пространстве. Поэтому, несмотря даже на одинаковую генетическую информацию, нельзя полностью воспроизвести архитектуру мозга и интеллект индивида.
По мере взросления человека общее число нейронов в мозге снижается, однако путем перестройки соответствующих нейронных структур мозг стремится эту утрату компенсировать.
Обучение – это процесс непрерывного развития и формирования сознания посредством взаимодействия с внешней средой с учетом индивидуальности организма. В результате обучения происходит динамическая перестройка нейронных сетей головного мозга. При этом, как уже отмечалось, увеличивается число связей между нейронами, совершенствуются сами нейроны и взаимодействие между ними. Способность синапсов и нейронных сетей динамически изменяться в результате воздействий называется синаптической пластичностью. Механизм пластичности лежит в основе обучения и создает в коре головного мозга соответствующие структуры нейронных сетей, которые определяют интеллект, память и эмоции индивида. Синаптическая пластичность возникает в результате изменения эффективности и количества связей между нейронами.
В процессе обучения происходит усиление синаптических связей между соответствующими нейронами головного мозга, вследствие чего возникает кратковременное запоминание информации, которая хранится без реактивации соответствующей нейронной сети от нескольких минут до нескольких часов. При долговременном запоминании информации, длящемся месяцами, наблюдается активация и экспрессия генов, синтез соответствующих белков и рост новых связей. При более сложных видах обучения участвуют оба механизма. Например, осмысление нового материала требует определенного времени. В процессе этого усиливаются синаптические связи и в зависимости от сложности проблемы может осуществляться рост новых связей. Данный механизм будет задействован до тех пор, пока не будет преодолено какое-то пороговое значение соответствующей нейронной сети головного мозга. В результате происходит понимание (инсайт) решаемой задачи. Пороговое значение нейронной сети характеризует степень незнания материала, индивидуальность организма и определяется пороговыми значениями нейронов, составляющих искомую сеть. При дальнейшем обучении в аналогичной области процесс понимания происходит быстрее за счет использования начальных знаний, заложенных в соответствующих синапсах.
В зависимости от вида взаимодействия обучающегося с внешней средой можно условно выделить обучение с учителем и без него. Обучение с учителем происходит при взаимодействии ученика с конкретным индивидом (учителем), с которым он находится в состоянии обратной связи.
В этом случае имеется конкретный желаемый выход и алгоритм его получения. В процессе взаимодействия реальная реакция ученика сравнивается с эталонной реакцией учителя. В зависимости от величины их несовпадения (целевая функция ошибки) происходит соответствующая перестройка синаптических связей в целях минимизации ошибки. При обучении без учителя нет конкретного учителя (учитель – внешняя среда) и ученик находится в состоянии обратной связи с внешней средой. Обучение здесь сводится к адаптации индивида к внешней среде. В обоих типах обучения используются как положительные, так и отрицательные обратные связи в соответствующих нейронных структурах головного мозга. Так, обучение с отрицательной обратной связью происходит для минимизации ошибки целевой функции. Положительная обратная связь может интенсифицировать процесс обучения при успешном взаимодействии индивида со средой.
Важной характеристикой процесса обучения является обобщающая способность, характеризующая способность индивида интегрировать частные данные для определения закономерностей и пролонгации результатов. К этому относится способность после обучения на одних данных применять полученные знания для других данных или рассуждения от частного к общему. Обобщающая способность – важная черта нейронной организации мозга.
2.5. Искусственные нейронные сети
Искусственная нейронная сеть (ИНС) – математическая модель, а также ее программное или аппаратное воплощение, построенные по принципу организации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке их смоделировать.
Основой ИНС является искусственный нейрон, который является отдаленным подобием биологического нейрона (рисунок 2.3).
Рисунок 2.3 – Упрощение от биологического нейрона к искусственному нейрону
Искусственный нейрон имеет несколько входов (аналоги синапсов в биологическом нейроне) и один выход (аналог аксона).
Математически нейрон выполняет функцию суммирования S входных сигналов Х с учетом их весов W, и затем результат обрабатывается функцией активации F. Результат на выходе Y зависит от входных сигналов X и их весов W, а также от функции активации. Коэффициенты W являются элементами памяти нейрона и основными элементами обучения нейронной сети.
Функция активации ограничивает амплитуду выходного сигнала нейрона. Обычно нормализованный диапазон амплитуд выходного сигнала нейрона лежит в интервале [0, 1] или [-1, 1].
На вход функции активации подается сумма всех произведений сигналов и весов этих сигналов.
Наиболее часто используемыми функциями (рисунок 2.4) активации являются:
1. Пороговая функция. Это простая кусочно-линейная функция. Если входное значение меньше порогового, то значение функции активации равно минимальному допустимому, иначе – максимально допустимому.
2. Линейный порог. Это несложная кусочно-линейная функция. Имеет два линейных участка, где функция активации тождественно равна минимально допустимому и максимально допустимому значению и есть участок, на котором функция строго монотонно возрастает.
Рисунок 2.4 – Типы функции активации нейрона: а) функция единичного скачка; б) функция единичного скачка с линейным порогом; в) гиперболический тангенс у=th(x); г) функция сигмоида у=1/(1+exp(-ax))
3. Сигмоидальная функция, или сигмоида. Это монотонно возрастающая дифференцируемая S-образная нелинейная функция. Сигмоида позволяет усиливать слабые сигналы и не насыщаться от сильных сигналов.
4. Гиперболический тангенс. Эта функция принимает на входе произвольное вещественное число, а на выходе дает вещественное число в интервале от –1 до 1. Подобно сигмоиде, гиперболический тангенс может насыщаться. Однако, в отличие от сигмоиды, выход данной функции центрирован относительно нуля.
Объединение искусственных нейронов в группу формирует нейронную сеть (рисунок 2.5).
Рисунок 2.5 – Схема формирования нейронной сети
Слой нейронной сети – это множество нейронных элементов, на которые в каждый такт времени параллельно поступает информация от других нейронных элементов сети.
Простая нейронная сеть состоит из входного слоя, скрытого слоя и выходного слоя. Сети, содержащие много скрытых слоев, часто называют глубинными нейронными сетями.
2.6. Топология искусственных нейронных сетей
Среди основных топологий нейронных сетей можно выделить полносвязные, сверточные и рекуррентные нейронные сети.
Полносвязные нейронные сети имеют несколько слоев, которые связаны между собой таким образом, что каждый нейрон последующего слоя имеет связь со всеми нейронами предыдущего слоя. Сложность сети резко возрастает от увеличения размерности входных данных и от количества скрытых слоев. Так, для анализа изображения форматом 28×28 элементов потребуется 784 нейрона в скрытом слое, и каждый из них должен иметь 784 входа для соединения с предыдущим слоем. Другая проблема заключается в том, что в полносвязной сети изображения представляют собой одномерные последовательности и при этом не учитываются особенности изображений как структуры данных. Тем не менее, для изображений небольших форматов можно использовать и полносвязную сеть.
Сверточные нейронные сети предназначены для обработки двумерных структур данных, прежде всего изображений. Сверточная сеть представляет собой комбинацию трех типов слоев:
– слои, которые выполняют функцию свертки над двумерными массивами данных (сверточные слои),
– слои, выполняющие функцию уменьшения формата данных (слой субдискретизации),
– полносвязные слои, завершающие процесс обработки данных.
Структура сверточных нейронных сетей принципиально многослойная. Работа сверточной нейронной сети обычно интерпретируется как переход от конкретных особенностей изображения к более абстрактным деталям и далее к еще более абстрактным деталям вплоть до выделения понятий высокого уровня. При этом сеть самонастраивается и вырабатывает необходимую иерархию абстрактных признаков (последовательности карт признаков), фильтруя маловажные детали и выделяя существенное. Примером классической сверточной нейронной сети является сеть VGG16 (рисунок 2.6).
Рисунок 2.6 – Структура классической сети VGG16
Сеть VGG-16 имеет 16 слоев и способна работать с изображениями достаточно большого формата 224×224 пикселя. В своей стандартной топологии эта сеть способна работать с датасетом изображений ImageNet, содержащим более 15 млн изображений, разбитых на 22000 категорий.
Рекуррентные нейронные сети отличаются от многослойных сетей тем, что могут использовать свою внутреннюю память для обработки последовательностей произвольной длины. Благодаря направленной последовательности связей между элементами рекуррентных сетей они применимы в таких задачах, где нечто целостное разбито на сегменты, например, распознавание рукописного текста или распознавание речи.
2.7. Обучение искусственных нейронных сетей
Для работы с нейронными сетями требуется их обучение под конкретную задачу. В частности, для решения задачи распознавания объектов на изображении требуется обучение сети по специально подготовленному набору данных, который содержит изображения всех классов распознаваемых объектов, сгруппированных в соответствующие разделы. Такой тип данных носит название датасет (набор данных, Data set).
Существует большое количество уже собранных и подготовленных датасетов для решения различных задач с использованием нейронных сетей (не только для задач распознавания объектов). Более того, существуют уже заранее обученные под решение конкретной задачи нейронные сети, которые можно взять в готовом виде. Но перечень таких сетей и датасетов не очень большой, и в общем случае перед разработчиком может стоять задача выбора конфигурации нейронной сети под конкретную задачу и создание соответствующей базы данных (датасета) для ее обучения.
Формирование датасета является наиболее трудоемкой частью процесса разработки, поэтому в первую очередь нужно проверить возможное наличие похожего датасета на доступных ресурсах. На этом ресурсе имеется более 50000 свободно распространяемых датасетов и более 400000 примеров реализаций нейронных сетей. В ряде случаев имеющиеся датасеты можно объединять, модифицировать и дополнять.
Процесс обучения нейронных сетей представляет собой сложный процесс обработки данных, который включает в себя последовательное предъявление данных на вход нейронной сети и сравнение выходных данных с их истинным значением, после чего вносится коррекция весовых коэффициентов нейронов в сторону уменьшения ошибки выходных данных. Этот процесс производится многократно с использованием данных из датасета. В процессе обучения используется часть датасета, которая носит название тренировочный набор. При этом данные из датасета могут предъявляться последовательно несколько раз.
К общим рекомендациям состава датасета относятся увеличение количества изображений с отмеченными целевыми объектами, а также включение в датасет изображений с возможными вариантами фона (частей изображения, не относящихся к целевым объектам). Большие по размерам и общему объему изображения увеличивают время обучения и работы классификатора. Для каждой сетевой модели рекомендуется подавать на вход изображения различных размеров. В экспериментах было установлено, что обучение сети на изображениях, повернутых относительно исходных на 90°, производится быстрее, чем на изображениях исходной видеопоследовательности.
Один цикл обучения с использованием всего датасета носит название эпоха. Как правило, для качественного обучения сети требуется много эпох. Процесс обучения нейронных сетей, имеющих много скрытых слоев, часто носит название глубокого обучения.
Процесс обучения с учителем представляет собой предъявление сети выборки обучающих примеров. Каждый образец подается на входы сети, затем проходит обработку внутри структуры НС, вычисляется выходной сигнал сети, который сравнивается с соответствующим значением целевого вектора, представляющего собой требуемый выход сети. Затем по определенному правилу вычисляется ошибка, и происходит изменение весовых коэффициентов связей внутри сети в зависимости от выбранного алгоритма. Векторы обучающего множества предъявляются последовательно, вычисляются ошибки и веса подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не достигнет приемлемо низкого уровня (рисунок 2.7).
Рисунок 2.7 – Схема обучения нейронной сети
При обучении без учителя обучающее множество состоит лишь из входных векторов. Обучающий алгоритм подстраивает веса сети так, чтобы получались согласованные выходные векторы, т. е. чтобы предъявление достаточно близких входных векторов давало одинаковые выходы. Процесс обучения, следовательно, выделяет статистические свойства обучающего множества и группирует сходные векторы в классы. Предъявление на вход вектора из данного класса даст определенный выходной вектор, но до обучения невозможно предсказать, какой выход будет производиться данным классом входных векторов. Следовательно, выходы подобной сети должны трансформироваться в некоторую понятную форму, обусловленную процессом обучения. Это не является серьезной проблемой. Обычно не сложно идентифицировать связь между входом и выходом, установленную сетью. Для обучения нейронных сетей без учителя применяются сигнальные метод обучения Хебба и Ойа.
Математически процесс обучения можно описать следующим образом. В процессе функционирования нейронная сеть формирует выходной сигнал Y, реализуя некоторую функцию Y=G(X). Если архитектура сети задана, то вид функции G определяется значениями синаптических весов и смещенной сети.
Пусть решением некоторой задачи является функция Y=F(X), заданная параметрами входных-выходных данных (X1, Y1), (X2, Y2), …, (XN, YN), для которых Yk=F(Xk), где k=1, 2, …, N.
Обучение состоит в поиске (синтезе) функции G, близкой к F в смысле некоторой функции ошибки E.
Если выбрано множество обучающих примеров – пар (XN, YN), где k=1, 2, …, N) и способ вычисления функции ошибки E, то обучение нейронной сети превращается в задачу многомерной оптимизации, имеющую очень большую размерность, при этом, поскольку функция E может иметь произвольный вид, обучение в общем случае – многоэкстремальная невыпуклая задача оптимизации.
Для решения этой задачи могут использоваться следующие (итерационные) алгоритмы:
1. Алгоритмы локальной оптимизации с вычислением частных производных первого порядка:
градиентный алгоритм (метод наискорейшего спуска),
методы с одномерной и двумерной оптимизацией целевой функции в направлении антиградиента,
метод сопряженных градиентов,
методы, учитывающие направление антиградиента на нескольких шагах алгоритма.
2. Алгоритмы локальной оптимизации с вычислением частных производных первого и второго порядка:
метод Ньютона,
методы оптимизации с разреженными матрицами Гессе,
квазиньютоновские методы,
метод Гаусса – Ньютона,
метод Левенберга – Марквардта и др.
3. Стохастические алгоритмы оптимизации:
поиск в случайном направлении,
имитация отжига,
метод Монте-Карло (численный метод статистических испытаний).
4. Алгоритмы глобальной оптимизации (задачи глобальной оптимизации решаются с помощью перебора значений переменных, от которых зависит целевая функция).
2.8. Алгоритм обучения однослойного нейрона
Обучение нейронной сети в задачах классификации происходит на наборе обучающих примеров X(1), X(2), …, X(Р), в которых ответ – принадлежность к классу А или B – известен. Определим индикатор D следующим образом: положим D(X)=1, если X из класса А, и положим D(X)=0, если X из класса B, то есть
где всякий вектор X состоит из n компонент: X=(x1, x2 …., xn).
Задача обучения персептрона состоит в нахождении таких параметров w1, w2, …, wn и h, что на каждом обучающем примере персептрон выдавал бы правильный ответ, то есть
Если персептрон обучен на большом числе корректно подобранных примеров и равенство (2.2) выполнено для почти всех X(i),i=1,Р, то в дальнейшем персептрон будет с близкой к единице вероятностью проводить правильную классификацию для остальных примеров. Этот интуитивно очевидный факт был впервые математически доказан (при некоторых предположениях) в основополагающей работе наших соотечественников В. Вапника и А. Червоненскиса еще в 1960-х годах.
На практике, однако, оценки по теории Вапника – Червоненскиса иногда не очень удобны, особенно для сложных моделей нейронных сетей. Поэтому практически, чтобы оценить ошибку классификации, часто поступают следующим образом: множество обучающих примеров разбивают на два случайно выбранных подмножества, при этом обучение идет на одном множестве, а проверка обученного персептрона – на другом.
Рассмотрим подробнее алгоритм обучения персептрона.
Шаг 1. Инициализация синаптических весов и смещения.
Значения всех синаптических весов модели полагают равными нулю: wi=0, i=1,n; смещение нейрона h устанавливают равны некоторому малому случайному числу. Ниже, из соображений удобства изложения и проведения операций будем пользоваться обозначением w0= —h.
Обозначим через wi(t), i=1,n вес связи от i-го элемента входного сигнала к нейрону в момент времени t.
Шаг 2. Предъявление сети нового входного и желаемого выходного сигналов.
Входной сигнал X=(x1, x2 …., xn) предъявляется нейрону вместе с желаемым выходным сигналом D.
Шаг 3. Адаптация (настройка) значений синаптических весов. Вычисление выходного сигнала нейрона.
Перенастройка (адаптация) синаптических весов проводится по следующей формуле:
где D(t) – индикатор, определенный равенством (2.1), а r – параметр обучения, принимающий значения меньшие 1.
Описанный выше алгоритм – это алгоритм градиентного спуска, который ищет параметры, чтобы минимизировать ошибку. Алгоритм итеративный. Формула итераций выводится следующим образом.
Введем риск
где суммирование идет по числу опытов (t – номер опыта), при этом задано максимальное число опытов – Т.
Подставим вместо F формулу для персептрона, вычислим градиент по w. В результате мы получим указанную выше формулу перенастройки весов.
В процессе обучения вычисляется ошибка δ(t)=D(t) – y(t).
Рисунок 2.8 – График изменения ошибки в процессе обучения нейросети
На рисунке 2.8 изображен график, показывающий, как меняется ошибка в ходе обучения сети и адаптации весов. На нем хорошо видно, что, начиная с некоторого шага, величина δ(t) равна нулю. Это означает, что персептрон обучен.
2.9. Дешифрирование объектов с помощью технологий искусственного интеллекта
При автоматизированном (автоматическом) дешифрировании изображений решаются задачи, которые по классификации Гонсалеса и Вудса делятся на задачи высокого и низкого уровня. К задачам высокого уровня относятся: