© Санкт-Петербургский государственный университет, 2023
Введение
Объем знаний в мире огромен и продолжает стремительно увеличиваться. При этом в большинстве знания разнородны, не отформатированы, не структурированы и постоянно изменяются. В таких условиях крайне важно найти способы эффективно анализировать и применять имеющиеся знания, в том числе неполные и неточные. Эту задачу решают технологии, основанные на использовании искусственного интеллекта (далее – ИИ).
В настоящее время применение ИИ в разных сферах жизни общества, в том числе здравоохранении, становится уже привычным. Развитие ИИ наряду с другими элементами цифрового здравоохранения, например интернетом вещей, телемедициной, способствует повышению качества и доступности медицинской помощи.
Медицинское сообщество находится на заре новой эры, когда ИИ начинает внедряться в повседневную клиническую практику. Технологии искусственного интеллекта в здравоохранении активно развиваются, что требует создания полноценного правового регулирования всего жизненного цикла ИИ, от разработки до контроля за его применением. Глобальной сейчас является проблема почти полного отсутствия подобного регулирования. Только отдельные государства, в том числе Российская Федерация, проводят системную работу по созданию нормативной базы в области ИИ.
В формирующемся регулировании применения ИИ ключевую роль играет соблюдение безопасности и базовых этических принципов. Понимание возможностей и ограничений, связанных с использованием ИИ при оказании медицинских услуг, а также основных требований в сфере обращения медицинских изделий (далее – МИ) необходимо для эффективной работы организаторов здравоохранения.
Настоящее учебное пособие предназначено для самоподготовки студентов медицинских высших учебных заведений, а также ординаторов по дисциплине «Общественное здоровье и здравоохранение».
Раздел 1
Технологии искусственного интеллекта
§ 1. Общие положения
Концепция использования компьютерных технологий для имитации мышления и разумного поведения была впервые описана Аланом Тьюрингом (Alan Mathison Turing) в 1950 г. Основной научной задачей являлось изучение работы человеческого мозга. Шесть лет спустя Джон Маккарти (John McCarthy) дал определение термина «искусственный интеллект» (artificial intelligence, AI): наука и техника создания интеллектуальных машин, особенно интеллектуальных компьютерных программ.
В начале 1980-х годов ученые, занимающиеся теорией вычислений, Барр (Valerie Barr) и Файгенбаум (Edward Albert Feigenbaum) предложили такое определение искусственного интеллекта: «область информатики, которая занимается разработкой интеллектуальных компьютерных систем, то есть систем, обладающих возможностями, которые мы традиционно связываем с человеческим разумом, – понимание языка, обучение, способность рассуждать, решать проблемы и т. д.»[1].
Суть создания ИИ заключается в том, чтобы сформировать систему, которая смогла бы автономно работать, решая интеллектуальные задачи по подобию когнитивных процессов у человека. Разработка данной системы основана на таких дисциплинах, как математика, компьютерные науки, биология, физиология, психология, лингвистика и др.
Основой ИИ являются алгоритмы, которые транслируются в компьютерный код, содержащий инструкции для быстрого анализа и преобразования данных в выводы, информацию или другие выходные данные.
В настоящее время в России ИИ определяется как комплекс технологических решений, позволяющих имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые как минимум с результатами интеллектуальной деятельности человека [Указ…, 2019].
Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение, в том числе то, в котором используются методы машинного обучения, процессы и сервисы по обработке данных и поиску решений.
Система ИИ (artificial intelligence system) – программное обеспечение, в котором используются технологические решения ИИ.
Для понимания сути ИИ также важен ряд понятий и терминов, применяемых при описании технологий: данные, набор данных, большие данные (big data), аппаратное обеспечение, вычислительная система, база знаний (значение данных терминов см. в глоссарии, расположенном в конце учебного пособия).
Вычислительная система – предназначенный для решения задач и обработки данных (в том числе вычислений) программно-аппаратный комплекс или несколько взаимосвязанных комплексов, образующих единую инфраструктуру с ИИ, в отличие от программирования без ИИ может ответить не только на конкретные, но и на общие вопросы. Также возможна быстрая и простая модификация программы, в том числе частичная, не приводящая к изменению ее структуры.
Экспертная система – технология ИИ, позволяющая на основе базы знаний воспроизвести модель поведения экспертов в определенной области знаний, сократить время и трудозатраты пользователя на решение типовых задач. Характерными чертами экспертной системы являются:
– четкая ограниченность предметной области;
– способность принимать решения в условиях неопределенности;
– способность объяснять ход и результат решения понятным для пользователя способом;
– четкое разделение данных и механизмов вывода;
– способность пополнять базу данных;
– ориентация на решение неформализованных задач;
– отсутствие гарантий нахождения оптимального решения с возможностью учиться на ошибках;
– также то, что результат выдается в виде конкретных рекомендаций, не уступающих решениям лучших специалистов в конкретной области знаний;
– алгоритм решения не описывается заранее, а строится самой экспертной системой.
Сильнейшей стороной технологий ИИ стала способность к обучению.
Машинное обучение (machine learning, ML) – это использование определенных признаков при выявлении шаблонов для анализа конкретной ситуации. Машина может «учиться» (обучение по прецедентам (индуктивное обучение)) и применять эту информацию в будущих подобных сценариях. Этот инструмент прогнозирования можно, например, применять динамически для клинических решений, чтобы персонализировать уход за пациентом, а не следовать статическому алгоритму. Модели улучшаются, обучаясь на представленных наборах данных. Машинное обучение использует определенное количество признаков и требует участия человека.
Машинное обучение развилось в широко известное глубокое обучение (deep learning) (в настоящее время считается одним из видов машинного обучения), состоящее из алгоритмов для создания искусственной нейронной сети (artificial neural network, ANN), которая затем может обучаться, в том числе самостоятельно классифицировать данные, и принимать решения самостоятельно, подобно человеческому мозгу. Такое обучение основано на использовании многоуровневых моделей для постепенного извлечения признаков из большого объема данных.
Искусственная нейронная сеть – сеть элементов простейшей обработки, соединенных взвешенными связями с регулируемыми весами, в которой каждый элемент производит значение, применяя к своим входным значениям нелинейную функцию, и передает его другим элементам или представляет его в виде выходного значения.
Сверточная нейронная сеть (convolutional neural network, CNN) – это тип алгоритма глубокого обучения, применяемого для обработки изображений, имитирующего поведение взаимосвязанных нейронов человеческого мозга. CNN состоит из нескольких слоев, которые анализируют входное изображение для распознавания шаблонов и создания определенных фильтров. Окончательный результат достигается за счет объединения всех функций полностью подключенных слоев. Сейчас доступно несколько алгоритмов CNN, включая Le-NET, AlexNet, VGG, GoogLeNet и ResNet.
Различные варианты нейронных сетей в виде упрощенных схем, позволяющих понять основные принципы их функционирования, показаны на рис. 1.
Рис. 1. Примеры нейронных сетей. Источник: [Van Veen F., Leijnen S. The Neural Network Zoo. 2019. https://www.asimovinstitute.org/neural-network-zoo (дата обращения: 09.09.2023)].
В настоящее время существуют различные типы и алгоритмы машинного обучения (рис. 2).
Рис. 2. Концепции ИИ и МО. Источник: [Machine Learning-enabled Medical Devices…, 2021].
Существует много алгоритмов машинного обучения, отличающихся возможностями и ограничениями. К принципиальным характеристикам, присущим тому или иному алгоритму ИИ, можно отнести [Глизница и др., 2022]:
1. Интерпретируемость – возможность установить основания принятого алгоритмом решения, открыть «черный ящик». Возможность объяснить решение, предлагаемое алгоритмом, значительно облегчает внедрение методов в медицинскую практику.
2. Устойчивость к мультиколлинеарности – корреляционной связи между независимыми переменными, которая негативно сказывается на времени обучения и точности результата. В частности, учет избыточного числа переменных из медицинской карты приводит к формированию слишком сложной модели с несущественными признаками заболевания (эффект переобучения), не способной к обобщению.
3. Возможность выбора переменных, позволяющая снизить эффект мультиколлинеарности. Например, если алгоритм учел в построенной математической модели и национальность, и расовую принадлежность пациента, то возможность вручную исключить один из параметров, не редактируя набор данных, значительно облегчит работу с системой.
К основным подходам машинного обучения можно отнести следующие:
– контролируемое машинное обучение (обучение с учителем, supervised machine learning), когда алгоритм ИИ наблюдает набор размеченных данных и обучается функции, позволяющей предсказывать аннотацию для новых входных данных;
– неконтролируемое машинное обучение (обучение без учителя, unsupervised machine learning), когда алгоритм распознает паттерны (структуру) в неразмеченных данных, выявляя скрытые закономерности.
Под разметкой данных (data labeling) понимается этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие их тип (классификация), и (или) осуществляется интерпретация данных для решения конкретной задачи.
Такие популярные алгоритмы глубокого обучения, как сверточные нейронные сети, глубокие сети доверия, рекуррентные нейронные сети и другие, лежат в основе услуг многих технологических гигантов.
В настоящее время перспективным направлением является построение алгоритмов ИИ на основе наиболее биологически достоверных моделей (выполнение нейроморфных вычислений, максимально приближенных к работе человеческого мозга). Спайковая нейронная сеть (spiking neural network, SNN) является одним из основных «кандидатов» для преодоления ограничений нейронных вычислений и эффективного использования алгоритма машинного обучения в реальных приложениях. Концепция вдохновлена механизмами взаимодействия между нейронами, основанными на передаче информации при помощи электрических импульсов, дискретных пространственно-временных сигналов (спайков). Спайковые нейронные сети построены на основе биологических методов обработки информации, где разреженные во времени асинхронные сигналы передаются и обрабатываются массово-параллельным образом. Они демонстрируют низкое энергопотребление и высокую скорость обработки информации [Taherkhani et al., 2020].
Принято также деление ИИ на слабый и сильный. Термин «сильный ИИ» впервые предложен в 1980 г. [Searle, 1980]. Теория сильного ИИ предполагает, что компьютеры могут становиться «разумными» в том смысле, в котором человеческий разум – это разум. Сильный ИИ постоянно занимается самообучением, не уступает человеку по интеллектуальным способностям, обладает самосознанием, может обрабатывать чувственную информацию [Малышева, Касимов, 2016].
Слабый ИИ не обладает такими возможностями.
В настоящее время деление на сильный и слабый ИИ является в определенной мере теоретическим, так как существующие технологии ИИ пока достаточно узкие по сравнению с человеческим разумом.
В последние годы активно обсуждается концепция гибридного интеллекта как интеграция человеческих способностей (естественного интеллекта) и потенциала алгоритмов ИИ.
В РФ к технологиям ИИ, т. е. технологиям, основанным на использовании ИИ, отнесены [Указ…, 2019]:
а) компьютерное зрение (CV) – процесс получения компьютером информации и ее понимание из серии изображений или видео;
б) обработка естественного языка (NLP) – извлечение данных из человеческой речи и принятие решений на основе этой информации;
в) распознавание и синтез речи;
г) интеллектуальная поддержка принятия решений;
д) перспективные методы ИИ.
При этом перспективными методами ИИ в настоящее время считаются методы, направленные на создание принципиально новой научно-технической продукции, в том числе в целях разработки универсального (сильного) ИИ. К перспективным методам ИИ относятся: автономное решение различных задач, автоматический дизайн физических объектов, автоматическое машинное обучение, алгоритмы решения задач на основе данных с частичной разметкой и (или) незначительных объемов данных, обработка информации на основе новых типов вычислительных систем, интерпретируемая обработка данных.
§ 2. История развития технологий искусственного интеллекта
Как технологическое явление ИИ берет свое начало в 1956 г., когда в Университете Дартмута (США) прошла рабочая конференция с участием таких ученых, как Джон Маккарти, Марвин Минский (Marvin Minsky), Клод Шеннон (Claude Shannon), Алан Тьюринг, которые были названы основателями сферы искусственного разума[2].
В последующие годы развитие ИИ неразрывно связано с созданием роботов. В 1966 г. в Стэнфордском научно-исследовательском институте был разработан Shakey – «первый электронный человек», первый мобильный робот, способный интерпретировать инструкции. Вместо того чтобы выполнять одношаговые команды, Shakey мог обрабатывать более сложные инструкции и выполнять соответствующие действия. Создание Shakey стало важной вехой для робототехники и ИИ [Kaul et al., 2020].
На смену экспертным системам, описывающим алгоритм действий по выбору решения в зависимости от конкретных условий, пришло машинное обучение, благодаря которому информационные системы самостоятельно формируют правила и находят решение на основе анализа зависимостей, используя исходные наборы данных. Нахождение решений без предварительного составления человеком их возможного перечня позволило говорить о настоящем прорыве в развитии ИИ.
Наиболее активно в прикладном смысле ИИ стал развиваться в 1990-е годы. Тогда, например, были созданы программы, которые позволили машине выигрывать у человека. В 1996 г. программа Deep Blue Chess обыграла гроссмейстера и чемпиона мира Гарри Каспарова[3].
Появление мощных графических процессоров и рост вычислительной мощности современных компьютеров, развитие облачных вычислений, взрывной рост больших данных позволили выполнять машинное обучение с высокой точностью.
В 2007 г. IBM создала открытую систему ответов на вопросы Watson, занявшую первое место в телевизионном игровом шоу Jeopardy в 2011 г. (в ситуациях конкуренции системы с людьми). В отличие от традиционных систем, которые использовали либо прямое рассуждение (следуя правилам от данных к выводам) и обратное (следуя правилам от выводов к данным), либо созданные вручную правила «если… то», эта технология, называемая DeepQA, применяла обработку естественного языка и различные поиски для анализа неструктурированного контента для получения вероятных ответов. Система оказалась доступна, проще в обслуживании и более рентабельна [Kaul et al., 2020].
В 2016 г. разработанная Google программа AlphaGo (технология машинного обучения DeepMind) одержала победу над Ли Седолем, чемпионом мира по игре в го. Успех программы стал толчком для того, чтобы в марте 2016 г. ее создатели заключили соглашение с Национальной службой здравоохранения Великобритании для изучения возможностей применения ИИ при осуществлении анализа медицинских данных [Отбеткина, 2022, с. 851].
В январе 2017 г. программа Libratus, разработанная в Университете Карнеги – Меллона, победила в 20-дневном покерном турнире «Brains Vs. Artifcial Intelligence: Upping the Ante»[4], что, безусловно, свидетельствует о качественном скачке в объемах производственных мощностей ИИ.
В настоящее время в мире происходит ускоренное внедрение технологий на основе ИИ в различные отрасли экономики и сферы общественных отношений, что, как ожидается, приведет к росту мировой экономики в 2024 г. не менее чем на 1 трлн долл. США.
Ускоренное внедрение технологий на основе ИИ обусловлено следующими факторами:
а) общий (сквозной) характер применения прикладных технологических решений;
б) высокая степень влияния технологий на основе ИИ на результативность деятельности организаций и человека, в том числе связанной с принятием управленческих решений;
в) высокая доступность инструментов (в том числе программ для ЭВМ с открытым кодом) для разработки технологий на основе ИИ;
г) потребность в обработке больших объемов данных, создаваемых как человеком, так и техническими устройствами, для повышения эффективности экономической и иной деятельности.
В 2018 г. мировой рынок технологических решений, разработанных на основе ИИ, составил 21,5 млрд долл. США и, по прогнозам экспертов, к 2024 г. достигнет почти 140 млрд долл. США [Указ…, 2019].
Наиболее популярными для внедрения ИИ считаются отрасли рекламы, маркетинга, торговли, банковского дела, страхования, промышленности, военного дела. Однако довольно быстро технологии ИИ добрались и до медицины. Стремительное развитие технологий на основе ИИ сопровождается существенным ростом как государственных, так и частных инвестиций в их развитие, а также в разработку прикладных технологических решений. По оценкам международных экспертов, инвестиции в такие технологии выросли с 2020 по 2021 г. более чем в два раза, составив около 67 млрд долл. США[5]. При этом интерес инвесторов к рынку технологий ИИ в здравоохранении – один из самых высоких (рис. 3).
Рис. 3. Рост инвестиций в технологии ИИ. Источник: [State of Al 2021 Report/ CBINSIGHTS. March 9. 2022. https://www.cbinsights.com/research/report/ai-trends-2021/(дата обращения: 22.10.2022), 2022].
Ведущие мировые технологические гиганты (Facebook[6], Google, Amazon, Apple, Microsof) вкладывают огромные денежные средства в разработку технологий ИИ для применения в своей бизнес-нише.
В России ИИ также активно развивается. Разработанные технологические решения на основе ИИ (например, компьютерное зрение и обработка естественного языка) уже сейчас обладают значительной коммерческой привлекательностью и высоким экспортным потенциалом на мировом рынке.
§ 3. Наборы данных для обучения и тестирования алгоритмов искусственного интеллекта
Разработка любой системы ИИ базируется на обработке и использовании определенного набора данных. Чем больше данных обработает алгоритм ИИ, тем более точно и корректно он сможет формулировать выводы на их основе. На этапах тестирования и эксплуатации системы структура и свойства набора данных также играют ключевую роль.
Подготовка набора данных включает определенные процедуры (рис. 4).
Рис. 4. Процесс подготовки набора данных для обучения и тестирования систем ИИ. Источник: [Национальный стандарт РФ ГОСТ Ρ 59921.5…].
Подробнее рассмотрим основные процедуры. Задачи подготовки набора данных должны быть определены проблемой, целью создания системы ИИ, должны включать определение предметной области и выбор методов обработки данных. Например, в случае контролируемого машинного обучения алгоритм ИИ наблюдает набор размеченных данных и обучается функции, позволяющей предсказывать аннотацию для новых входных данных. Возможными типами задач контролируемого машинного обучения являются классификация и регрессия (аппроксимация и предсказание значения непрерывных параметров какого-либо объекта). При регрессии аннотация может принимать любое действительное значение, не ограничиваясь конечным набором категорий как при классификации.
В случае неконтролируемого машинного обучения алгоритм распознает паттерны (структуру) в неразмеченных данных. Возможными типами задач неконтролируемого машинного обучения являются кластеризация (группировка экземпляров данных в кластеры со сходными характеристиками) и детекция аномалий (идентификация редких экземпляров данных, существенно отличающихся от остальных).
Подход к формированию набора данных определяется необходимостью валидации системы ИИ.
Аналитическая валидация (analytical validation) – подтверждение способности системы ИИ точно, воспроизводимо и надежно генерировать предполагаемые технические результаты вычислений из входных данных.
В этом случае необходимо представление данных: синдромов, заболеваний, исходов, отражающее максимальную вариативность (то есть и частые, и редкие случаи представлены в одинаковом объеме). Набор данных для аналитической валидации должен быть подготовлен для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку системы ИИ медицинского исследования при наличии функции автоматического расчета времени и т. д.), точность интерпретации исследований с учетом функциональных возможностей системы ИИ, повторяемость, воспроизводимость.
Возможно включение исследований с нарушением технологии (внешние помехи, артефакты, неверное наложение электродов/датчиков, нарушение последовательности регистрации, укладки пациента). Такие исследования должны быть помечены должным образом. Для снижения систематической ошибки следует использовать данные из разных источников (например, из разных медицинских организаций) и разные модели оборудования.
Клиническая валидация (clinical validation) – подтверждение способности системы ИИ выдавать клинически значимые выходные данные, связанные с ее целевым использованием в рамках установленного изготовителем функционального назначения.
В этом случае необходимо представление данных согласно частоте их встречаемости, заболеваемости, распространенности в популяции. При проведении клинической валидации следует использовать верифицированный набор данных. Характеристики наборов данных (размерность, разреженность, баланс, распределение классов и др.) должны подбираться в соответствии с задачей.
Под размерностью понимается количество атрибутов, которые имеют объекты в наборе данных (например, значение артериального давления, масса тела пациента, уровень холестерина и др.). Наборы данных с высокой размерностью (с большим количеством атрибутов) выдвигают повышенные требования к алгоритмам системы ИИ, допустимому размеру таких наборов, а также к вычислительным ресурсам для их обработки. В зависимости от поставленной цели и дизайна исследования допустимо обоснованное снижение размерности набора данных, в частности, за счет кластеризации данных либо группировки взаимосвязанных по какому-либо признаку атрибутов в объединенные категории.
Высокий уровень разреженности (отсутствия) данных способен существенно осложнить для системы ИИ задачу поиска и категоризации объектов интереса, что нужно учитывать в зависимости от поставленной задачи.
Сбалансированный набор данных должен содержать одинаковое количество примеров различных категорий (классов) объектов интереса. В случае бинарной классификации это может соответствовать распределению 50/50 для случаев «патология/норма».
Важным этапом подготовки данных является деидентификация (обезличивание). Должны быть удалены любые персональные данные. В случае необходимости возможно их изменение, например замена даты рождения на возраст.
Подготовленные наборы данных могут быть структурированы посредством выделения признаков в соответствии с поставленной задачей. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.
Фильтрация набора данных позволяет исключить данные, не соответствующие заданным параметрам (например, смазанные изображения), повысив их качество.
Существенную роль в подготовке данных играет разметка. Выделяется три вида разметки: ретроспективная, проспективная разметка, верификация [Национальный стандарт РФ ГОСТ Р 59921.5…].
Ретроспективная разметка представляет собой сбор элементов согласно указанным метаданным, перечень которых выбирают в соответствии с поставленной целью. Такую разметку проводят путем выгрузки данных из информационной системы. Ретроспективная разметка не предполагает выполнение манипуляций или какой-либо обработки элементов. Для каждого элемента набора данных устанавливают соответствие с информацией (диагноз, результаты лабораторного исследования и др.). К примеру, ретроспективная разметка пациентов с подтвержденной новой коронавирусной инфекцией предполагает следующий перечень метаданных: идентификационный номер, дата рождения, дата выполнения рентгенологического исследования, результаты теста на полимеразную цепную реакцию.
Проспективная разметка представляет собой сбор элементов в соответствии с поставленной целью, а также проведение дополнительных манипуляций с элементами (постановка меток начала и окончания события, меток обнаружения признаков, обозначений патологий и т. п.). Для проведения такой разметки помимо технических специалистов привлекаются лица, обладающие специальными знаниями, например медицинскими. Разметка проводится путем ручного аннотирования содержания данных или их частей, которое может быть выполнено в графической или текстовой форме либо при их комбинации.
Верификация данных может обеспечиваться:
– внесением дополнительных сведений в набор данных, подготовленный при проспективной разметке (например, дополнение результатами повторных исследований);
– слепым анализом набора данных экспертами с достижением заданного уровня согласованности их решений.
Основные критерии отнесения к верифицированному набору данных:
– данные получены из реальной практики (не допускается получение синтезированных данных, например ЭКГ от генератора физиологических сигналов);
– данные получены в «сыром виде» – без применения фильтров и математических средств постобработки;
– структура набора данных соответствует поставленной цели его формирования (обучение, аналитическая, клиническая валидация);
– количество наблюдений (исследований) достаточно для достижения статистической значимости результата;
– разметка проведена с использованием тезауруса (кодированной библиотеки типовых формулировок, соответствующих рекомендации ассоциации специалистов в данной области по ГОСТ 7.24, ГОСТ 7.25[7]).
В ходе первичной разметки отмечаются все целевые структуры в подготовленном наборе данных. Специалисты, проводящие разметку, должны быть компетентны в области конкретных типов данных (изображения, текстовые или сигнальные (ЭКГ, ЭЭГ, спирометрия), количественные (ЧСС, артериальное давление, спирометрия), бинарные данные (да/нет)). Экспертная разметка осуществляется специалистами с большим опытом работы (не менее трех лет) в областях, соответствующих решаемым задачам.
На всех этапах жизненного цикла системы ИИ важно обеспечить хранение верифицированного набора данных и доступ к нему. В решении этой задачи ключевую роль играют метаданные (metadata) – информация о ресурсе.
Метаданные применяют для классификации, упорядочения и описания. Они составляются для улучшения возможностей поиска, обеспечения доступа к данным, их совместимости и повторного использования.
Метаданные бывают трех типов:
– описательные (служат для обнаружения, сбора или группирования данных по общим для них характеристикам);
– структурные (определяют состав или организацию набора данных);
– административные (используются для управления базой данных).
Выбор зависит от типа данных. Например, метаданные для хранения верифицированного набора медицинских изображений могут включать:
1. Тип изображения:
– вид исследования (например, компьютерная томография);
– разрешение;
– общее число изображений и по сериям.
2. Число исследований.
3. Источники исследований:
– оборудование;
– типы оборудования;
– медицинскую организацию.
4. Параметры сканирования изображений.
5. Параметры хранения изображений:
– формат данных;
– уровень и тип сжатия данных.
6. Аннотацию (разметку):
– тип;
– что и как описано;
– привлеченную экспертную группу.
7. Контекст.
8. Как определена и промаркирована истинная разметка.
9. Связанные данные:
– демографические;
– клинические;
– лабораторные;
– геномные;
– временны́е;
– принимаемые препараты (лекарства);
– другие.
10. Временной диапазон сбора изображений (дата и время исследования).
11. Использование данных (какое программное обеспечение использовать для просмотра данных).
12. Кому принадлежат данные.
13. Кто ответственен за данные.
14. Допустимое использование.
15. Назначение набора данных.
16. Информацию об одобрении комитета по этике.
17. Информацию о деидентификации набора данных.
18. Информацию о проведенном контроле качества набора данных.
19. Параметры доступа:
– доступность;
– цену и лицензионные соглашения.
20. Распределение случаев (если применимо):
– процент «норма/патология» (код МКБ);
– данные патологии: число исследований с каждой патологией.
Данные необходимо передавать в локальное хранилище (при одноцентровом исследовании) либо во внешнее хранилище данных (в случае многоцентрового исследования). Хранение данных может быть организовано на локальном сервере или при облачном хранении. При этом доступность и безопасность обеспечиваются на лучшем уровне при использовании локального сервера. В то же время при облачном хранении возможны совместное использование данных и резервное копирование.
Статистические и научные данные, включая обезличенные данные, полученные посредством удаления идентифицирующих сведений из персональной информации (например, медицинской), должны быть защищены.
Необходимо установить стандартные процедуры доступа к набору данных для третьих лиц, закрепленные в документе о политике по защите информации. При организации доступа следует подписывать соглашение с организацией, формирующей наборы данных.
Важно отметить, что в медицине количество собираемых данных, пригодных для анализа системами ИИ, стремительно растет благодаря развитию новых технологий их получения и хранения (носимые устройства, электронные медицинские записи; генетическая информация, полученная путем секвенирования генома, и т. д.).
Тестовые задания
1. Обязательным признаком ИИ является…
A. Развитая нейронная сеть.
B. Использование возможностей, которые мы традиционно связываем с человеческим разумом.
C. Компьютерное зрение.
D. Высокая скорость обработки информации.
2. ИИ как комплекс технологических решений НЕ включает в себя…
A. Информационно-коммуникационную инфраструктуру.
B. Полностью автономный характер работы.
C. Программное обеспечение.
D. Процессы и сервисы по обработке данных и поиску решений.
3. Экспертная система как вид технологии ИИ характеризуется… (Выберите все подходящие варианты ответа.)
A. Четкой ограниченностью предметной области.
B. Способностью полностью заменить человека по своему функционалу.
C. Способностью объяснять ход и результат решения понятным для пользователя способом.
D. Наиболее быстрым из всех видов технологий ИИ принятием решений.
4. Какими факторами обусловлено ускоренное внедрение технологий на основе ИИ? (Выберите все подходящие варианты ответа.)
A. Полностью выработанным международным интегрированным правовым регулированием в области ИИ.
B. Высокой степенью влияния технологий на основе ИИ на результативность деятельности человека.
C. Высокой доступностью инструментов для разработки технологий на основе ИИ.
D. Потребностью в обработке больших объемов данных.
5. Какие признаки характеризуют сильный ИИ? (Выберите все подходящие варианты ответа.)
A. Постоянное самообучение.
B. Способность работать только по заранее заданным алгоритмам без возможности самостоятельно усваивать информацию из внешних источников.
C. Обладание компьютерным «самосознанием».
D. Способность к обработке потенциально бесконечного количества данных.
6. Передовые технологии ИИ по механизму копируют работу следующей составляющей человеческого организма…
A. Кровеносной системы.
B. Иммунной системы.
C. Мышц.
D. Нейронных связей.
7. Сверточная нейронная сеть разработана специально для распознавания…
A. Пиксельных изображений.
B. Звуковой информации.
C. Математических алгоритмов.
D. Больших символьных текстовых данных.
8. Перспективные методы ИИ – это…
A. Технологии и технологические решения, в которых ИИ используется в качестве обязательного элемента, включая робототехнику и управление беспилотным транспортом.
B. Предназначенный для решения задач и обработки данных (в том числе вычислений) программно-аппаратный комплекс или несколько взаимосвязанных комплексов, образующих единую инфраструктуру.
C. Методы, направленные на создание принципиально новой научно-технической продукции, в том числе в целях разработки универсального (сильного) ИИ.
D. Конфигурация, состав и принципы взаимодействия (включая обмен данными) элементов вычислительной системы.
9. Какие типы функций может выполнять ИИ?
A. Распознавание и синтез речи.
B. Интеллектуальную поддержку принятия решений.
C. Обработку визуальной информации с помощью компьютерного зрения.
D. Все перечисленные.
10. Набор данных – это…
A. Система взаимосвязанных технических устройств, предназначенных для ввода (вывода), обработки и хранения данных.
B. Совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства Российской Федерации об информации, информационных технологиях и о защите информации и необходимых для разработки программного обеспечения на основе ИИ.
C. Набор алгоритмов, предназначенных для разработки технологических решений на основе ИИ, описанных с использованием языков программирования и размещенных в сети Интернет.
D. Технологии и технологические решения, в которых ИИ используется в качестве обязательного элемента, включая робототехнику и управление беспилотным транспортом.
Задачи для самостоятельного решения
Задача 1. История ИИ началась с древних мифов, историй и слухов об искусственных существах, созданных искусными мастерами и наделенных интеллектом или сознанием. Например, в греческой мифологии описан Талос, великан из бронзы, который охранял остров Крит. Он бросал валуны в корабли захватчиков и ежедневно совершал три круга по периметру острова. Аргонавты победили Талоса, удалив единственную пробку возле его ступни, что привело к вытеканию из корпуса великана жизненно важного ихора.
Прообраз ИИ был сформирован в искусстве и литературе. Представление о машинах с человекоподобным интеллектом восходит, по крайней мере, к роману Сэмюэля Батлера (Samuel Butler) «Эревон» (1872). Многие научно-фантастические рассказы описывают различные последствия создания искусственного интеллекта, в том числе восстания роботов. Среди наиболее известных – фильм Стэнли Кубрика (Stanley Kubrick) «2001: Космическая одиссея» с его смертоносным бортовым компьютером HAL 9000. HAL контрастирует с R2-D2 в «Звездных войнах» Джорджа Лукаса (1977) и роботом ВАЛЛ-И в одноименном фильме Эндрю Стэнтона (2008).
В 2019 г. футурист и директор института «Будущее сегодня» при Нью-Йоркском университете Эми Уэбб (Amy Webb) опубликовала книгу «Большая девятка» (Te Big Nine), в которой рассмотрела возможное влияние ИИ и девяти технологических гигантов (Google, Microsof, Amazon, Alibaba и др.) на будущее человечества. Вместо того чтобы оценивать «характер» систем ИИ, Уэбб критически смотрит на людей, стоящих за ними.
В ее идеальном сценарии технологические компании работают друг с другом и обществом для решения глобальных проблем. Например, с помощью высокотехнологичной медицины избавляют мир от инфекционных заболеваний (гриппа и других). В то же время в «прагматичных» сценариях, рассматриваемых Эми Уэбб, бизнес уклоняется от ответственности перед обществом и будущим в пользу прибыли. Автор предсказывает появление цифровых кастовых систем, в которых доступ к личным данным граждан будет заблокирован операционными системами технологических гигантов. Также через 50 лет, когда численность населения мира превысит 10 миллиардов, появится сильный ИИ. Китай, учитывая, что китайские технологические компании, входящие в девятку, контролируются правительством, создаст систему для уничтожения своих противников и получит все, что осталось от мировых ресурсов.
Вопросы:
1. Попробуйте сформировать собственное представление о том, как мог бы измениться мир с развитием технологий на основе ИИ через несколько столетий.
2. Как вы думаете, возможна ли ситуация, когда ИИ полностью заменит человека? В каких сферах?
Задача 2. В начале ноября 2018 г. аналитическая компания Forrester опубликовала два исследования в сфере ИИ – «Прогноз на 2019 год: автоматизация» и «Прогноз на 2019 год: искусственный интеллект». По мнению экспертов, компании переоценили ИИ и разочаруются в нем через год.