Прежде всего хорошо изучите ваших воспитанников, ибо вы решительно их не знаете.
Жан-Жак Руссо, «Эмиль, или О воспитании» (1762)
Странный и удивительный факт: мы изучили каждый сантиметр человеческого тела, составили каталог всех животных, населяющих нашу планету, дали описание и придумали название каждой травинке, но веками довольствовались эмпирическим подходом к психологии, как будто она менее важна, чем искусство лекаря, животновода или фермера.
Жан Пиаже, «Современная педагогика» (1949)
Если мы не знаем, как мы учимся, откуда нам знать, как преподавать?
Л. Рафаэль Райф, ректор Массачусетского технологического института (23 марта 2017)
Stanislas Dehaene
HOW WE LEARN
Copyright © 2020 by Stanislas Dehaene. All rights reserved
Научный редактор
И. Захаров,
старший научный сотрудник лаборатории возрастной психогенетики Психологического института РАО
© Чечина А.А., перевод на русский язык, 2020
© Оформление. ООО «Издательство «Эксмо», 2021
«Каждая книга известного французского психофизиолога Станисласа Деана – это событие. Не стала исключением и эта. В ней рассматриваются важнейшие вопросы когнитивной нейронауки: как происходит научение, как мы приобретаем новые знания, чем работа мозга во время обучения отличается от работы компьютера? Несмотря на столь сложную тему, книга написана чрезвычайно ярким и доступным языком, при этом в ней полностью сохранена научная точность и аккуратность при изложении фактов и теорий. Важно отметить, что Станислас Деан не просто перечисляет те или иные факты по теме, но и предлагает собственную оригинальную гипотезу «нейронного рециклинга», позволяющую совершенно по-новому взглянуть на многие, казалось бы давно известные наблюдения. Думаю, что я непременно буду рекомендовать эту книгу своим студентам».
Станислав Козловский,
доцент кафедры психофизиологии факультета
психологии МГУ имени М.В. Ломоносова
Введение
В сентябре 2009 года я познакомился с одним удивительным ребенком. Именно он заставил меня в корне пересмотреть мои представления о научении. Я был в огромном белом здании, вдохновленном архитектурой Оскара Нимейера[1], – Неврологическом реабилитационном центре имени Сары Кубичек в Бразилии, с которым моя лаборатория сотрудничала уже около десяти лет. Директор, Лючиа Брага, отвела меня к одному из пациентов – семилетнему мальчику Фелипе, который пролежал на больничной койке больше половины своей жизни. В возрасте четырех лет его ранили на улице – к сожалению, это не такое уж редкое событие в Бразилии. Шальная пуля повредила спинной мозг и уничтожила зрительные центры в головном мозге. В результате малыш полностью утратил подвижность и ослеп. Чтобы ему было легче дышать, врачи проделали в его трахее – у самого основания шеи – небольшое отверстие. Вот уже три года Фелипе жил в больничной палате, запертый в тюрьме собственного неподвижного тела.
Помню, как, идя по коридору, я мысленно приготовился увидеть несчастного, искалеченного ребенка. А потом я увидел… Фелипе, такого же очаровательного маленького мальчика, как и все семилетние дети: разговорчивого, жизнерадостного и любознательного. Он свободно говорил на английском языке и задал мне несколько каверзных вопросов о французских словах. Оказывается, ему всегда нравились языки, и он никогда не упускал возможности пополнить свой словарный запас (малыш владел тремя языками: португальским, английским и испанским). Хотя Фелипе был слеп и прикован к постели, он нашел спасение в воображении и сочинял чудесные истории. Персонал больницы активно поддерживал его увлечение и всячески старался ему помочь. Через несколько месяцев Фелипе научился диктовать свои рассказы помощнику, а позже стал записывать их самостоятельно – с помощью специальной клавиатуры, подключенной к компьютеру и звуковой карте. Педиатры и логопеды по очереди дежурили у детской кроватки, превращая его сочинения в настоящие тактильные книги с рельефными иллюстрациями. Я видел, как он гордо перелистывает их пальчиками, используя те крохи осязания, которые у него остались. Его истории повествуют о героях и героинях, горах и озерах, которые он никогда не увидит, но о которых мечтает, как любой маленький мальчик.
Встреча с Фелипе глубоко тронула меня, а также убедила внимательнее присмотреться к тому, что, вероятно, следует считать величайшим талантом нашего мозга: способности учиться. Фелипе – ребенок, само существование которого бросает вызов нейронауке. Как когнитивные способности нашего мозга умудряются противостоять столь радикальному изменению среды? Почему мы с Фелипе можем мыслить схожим образом, хотя наш сенсорный опыт в корне различен? Как разные люди приходят к одним и тем же понятиям, почти независимо от того, как и когда происходит их усвоение?
Многие нейробиологи – убежденные эмпирики: вслед за английским философом эпохи Просвещения Джоном Локком (1632–1704) они настаивают, что мозг черпает все свои знания из внешнего мира. С этой точки зрения главным свойством корковых нейронных сетей[2] должна быть пластичность, возможность адаптироваться к входным сигналам. И действительно, нервные клетки обладают поразительной способностью регулировать свои синапсы в ответ на поступающие импульсы. Однако будь это главным драйвером работы мозга, мой маленький Фелипе, лишенный постоянного притока зрительных и моторных сигналов, неизбежно стал бы весьма ограниченной личностью. Каким же чудом ему удалось развить совершенно нормальные когнитивные способности?
Случай Фелипе отнюдь не уникален. Всем известна история Хелен Келлер (1880–1968) и Мари Эртен (1885–1921): первая потеряла зрение и слух в младенчестве, вторая родилась глухой и слепой. Тем не менее спустя годы мучительной социальной изоляции обе освоили язык жестов и в конце концов стали блестящими мыслителями и писательницами1. На страницах этой книги мы познакомимся со многими людьми, которые, я надеюсь, радикально изменят и ваши взгляды на научение. Один из них – выдающийся математик Эммануэль Жиру, потерявший зрение в одиннадцать лет. Перефразируя слова Лиса из «Маленького принца» Антуана де Сент-Экзюпери (1943), Жиру уверенно заявляет: «В геометрии самого главного глазами не увидишь. Зорок один лишь разум». Но как этот слепой человек вообще ориентируется в абстрактных пространствах алгебраической геометрии и так легко манипулирует плоскостями, сферами и объемами, хотя даже не видит их? В ходе исследований мы выясним, что Эммануэль использует те же самые нейронные сети, что и другие математики, но его зрительная кора, вместо того чтобы оставаться неактивной, переквалифицировалась на решение задач.
Я также познакомлю вас с Нико – молодым художником, который, посетив музей Мармоттан в Париже, создал отличную копию знаменитой картины Моне «Впечатление. Восходящее солнце» (см. цветную иллюстрацию 1). Что же в этом такого исключительного, спросите вы. Ничего, лишь тот факт, что у Нико всего одно полушарие, левое, – правое было почти целиком удалено в возрасте трех лет! В итоге мозг Нико втиснул все свои таланты в оставшуюся половину: не только речь, письмо и чтение, как у обычных людей, но и рисование, которое обычно считается функцией правого полушария, а также компьютерные науки и даже фехтование на инвалидных колясках – вид спорта, в котором Нико получил звание чемпиона Испании. Забудьте все, что вам говорили о разделении обязанностей между полушариями: жизнь Нико доказывает, что любой человек без правого полушария может стать креативным и талантливым художником! Нейропластичность воистину творит чудеса.
Мы посетим печально известные детские дома Бухареста, где дети с рождения не получали практически никакого внимания – однако же годы спустя школьный опыт некоторых из них (преимущественно усыновленных до года или двух) оказался близок к нормальному.
Все эти примеры иллюстрируют необычайную гибкость человеческого мозга: даже такие тяжелые травмы, как слепота, потеря полушария и социальная изоляция, не могут лишить нас возможности учиться. Речь, чтение, математика, художественное творчество – все эти уникальные таланты человека, которыми не обладает ни один другой примат, успешно противостоят обширным повреждениям, включая удаление целого полушария, потерю зрения или утрату двигательных навыков. Поскольку научение – жизненно важный процесс, человеческий мозг наделен невероятной пластичностью – способностью к самоизменению, приспособлению. Тем не менее в некоторых случаях процесс научения буквально останавливается и не приводит к позитивным изменениям. Возьмем чистую алексию, неспособность прочесть ни единого слова. Я лично обследовал нескольких таких взрослых: все они прекрасно умели читать, но после инсульта, затронувшего крошечную область их мозга, утратили способность расшифровывать даже такие простые слова, как «дом» или «кот». Помню, среди них была умнейшая женщина – преданная поклонница французской газеты Le Monde. Она говорила на трех языках и была глубоко опечалена тем фактом, что отныне для нее любая газетная страница выглядит как китайская грамота. Несмотря на последствия перенесенного инсульта, женщина решила во что бы то ни стало научиться читать заново. И все же спустя два года усиленных тренировок ее навыки чтения по-прежнему остались на уровне детского сада: ей требовалось несколько секунд, чтобы прочесть одно слово, буква за буквой, и она спотыкалась на каждом слове. Почему она не могла научиться? И почему некоторые дети, страдающие дислексией, дискалькулией или диспраксией, не в состоянии овладеть навыками чтения, счета или письма, хотя другим они даются так легко?
Пластичность мозга капризна. Иногда она действительно позволяет преодолеть огромные трудности. А иногда дети и взрослые – умные и в высшей степени мотивированные – сохраняют мучительные нарушения на всю жизнь. Зависит ли это от конкретных нейронных сетей? Снижается ли пластичность с возрастом? Можно ли ее восстановить? Какие законы ею управляют? Чем обусловлена поразительная эффективность мозга с рождения и на протяжении всего детства? Какие алгоритмы позволяют нашим нейронным сетям формировать представления о мире? Поможет ли понимание принципов их действия учиться быстрее и лучше? Могут ли они вдохновить нас на создание более «умных» машин, искусственного интеллекта, который будет имитировать работу человеческого мозга или даже превзойдет его? На эти и другие вопросы я попытаюсь дать ответ в данной книге. В ее основу положен междисциплинарный подход: во всех наших рассуждениях мы прежде всего будем опираться на последние научные открытия в самых разных областях знаний: в когнитивистике, нейробиологии, в сфере искусственного интеллекта и педагогики.
Зачем учиться?
Почему мы вообще должны учиться? Сам факт того, что мы наделены способностью получать знания, вызывает вопросы. Разве не было бы лучше, если бы дети могли говорить и думать с самого первого дня, подобно Афине, которая, согласно легенде, появилась на свет из головы Зевса уже взрослой, в полном вооружении и, едва «роды» закончились, испустила боевой клич? Почему мы не рождаемся уже подготовленными, с предварительно загруженными поведенческими программами и знаниями, необходимыми для выживания? Разве в дарвиновской борьбе за жизнь у животного, которое рождается зрелым и обладает более обширными знаниями, чем другие, не больше шансов победить и распространить свои гены? Зачем эволюции понадобилось изобретать научение?
Я отвечу так: предварительное программирование мозга и невозможно, и нежелательно. Невозможно? Но почему? Хотя бы потому, что для подробного кодирования всех наших знаний человеческой ДНК просто не хватило бы емкости. Наши двадцать три пары хромосом содержат три миллиарда пар «букв» A, C, G, T – молекул аденина, цитозина, гуанина и тимина. Сколько информации они несут? Информация измеряется в битах, которые могут иметь два значения: 1 или 0. Поскольку каждая из четырех букв генома кодирует два бита (мы можем записать их как 00, 01, 10 и 11), наша ДНК содержит в общей сложности шесть миллиардов битов. Однако, как вы помните, в современных компьютерах мы считаем информацию байтами – последовательностями из восьми битов. Следовательно, человеческий геном можно свести примерно к 750 мегабайтам. Это емкость старомодного компакт-диска или небольшого USB-накопителя! И это при том, что в своих расчетах мы не учитывали многочисленные повторения, которыми изобилует наша ДНК.
Из столь скромного объема информации, унаследованного нами спустя миллионы лет эволюции, наш геном, изначально ограниченный одной-единственной оплодотворенной яйцеклеткой, выстраивает весь план организма – каждую молекулу каждой клетки в печени, почках, мышцах и, конечно же, в мозге: восемьдесят шесть миллиардов нейронов, тысячу триллионов связей… Как же ему это удается? Если предположить, что каждое из наших нервных соединений кодирует только один бит (хотя это явное преуменьшение), емкость нашего мозга должна составлять около ста терабайт (или 1015 битов). Иными словами, его емкость в сто тысяч раз больше емкости нашего генома. Возникает парадокс: фантастический дворец, который представляет собой наш мозг, содержит в сто тысяч раз больше деталей, чем чертежи архитектора, которые используются для его постройки! Я вижу только одно объяснение: структурный каркас дворца возводится в соответствии с указаниями архитектора (генома), а детали находятся в ведении руководителя проекта, который корректирует план в зависимости от местности (окружающей среды). Поскольку с этой точки зрения предварительно описать человеческий мозг во всей его полноте невозможно, на помощь генам приходит научение.
Данная метафора, однако, не объясняет, почему научение столь распространено в животном мире. Даже простые организмы, вообще не имеющие коры головного мозга (например, дождевые черви, дрозофилы и морские огурцы), усваивают многие из присущих им форм поведения в результате научения. Рассмотрим маленького червячка под названием нематода, или C. elegans. За последние двадцать лет это миллиметровое животное стало настоящей лабораторной звездой: дело в том, что его строение в основном определяется генетически и может быть проанализировано вплоть до мельчайших подробностей. Большинство особей имеют ровно 959 клеток, включая 302 нейрона, все связи которых хорошо изучены. И все же нематоды учатся2. Первоначально исследователи рассматривали это существо как своего рода робота, который только и умеет, что плавать взад-вперед, однако позже было установлено, что ему доступны по крайней мере два вида научения: привыкание (габитуация) и ассоциация. Габитуация относится к способности организма адаптироваться к повторяющемуся стимулу (например, к молекуле в воде, в которой живет животное) и постепенно переставать реагировать на него. Ассоциация, напротив, состоит в обнаружении и запоминании аспектов окружающей среды, служащих надежными предикторами источника пищи или опасности. Нематода – чемпион ассоциации: она, например, может вспомнить, какие вкусы, запахи или температуры ранее были связаны с пищей (бактерии) или с молекулами репеллента (запах чеснока), и использовать эту информацию для выбора оптимального маршрута движения.
При таком небольшом количестве нейронов поведение червя вполне можно было бы запрограммировать заранее. Но это не так. Причина в том, что способность приспосабливаться к специфической среде, в которой животное родилось, крайне полезна и даже необходима для его выживания. Даже два генетически идентичных организма необязательно окажутся в одной и той же экосистеме. В случае нематоды способность оперативно корректировать свое поведение в зависимости от плотности, химического состава и температуры места, в котором она очутилась, позволяет ей выбирать оптимальный курс действий. В более общем смысле всякое животное должно быстро адаптироваться к непредсказуемым условиям текущего окружения. Естественный отбор – чрезвычайно эффективный алгоритм, открытый Дарвином, – безусловно, содействует адаптации каждого организма к своей экологической нише, но делает это с ужасающе низкой скоростью. Целые поколения будут обречены на смерть, прежде чем некая полезная мутация увеличит шансы вида на выживание. Способность учиться, напротив, работает гораздо быстрее: она может изменить поведение в течение нескольких минут, что является самой квинтэссенцией научения – привить навык максимально быстро адаптироваться к непредсказуемым условиям.
Вот почему учиться так важно. В ходе эволюции животные, которые обладали даже зачаточной способностью к научению, имели больше шансов выжить, чем те, чье поведение было фиксировано, а потому чаще могли передать свой геном (уже включающий генетически управляемые алгоритмы научения) следующему поколению. Таким образом, естественный отбор благоприятствовал развитию способности к научению. Эволюционный алгоритм помог сделать важное открытие: возможность быстро менять определенные параметры тела, чтобы приспособиться к изменчивым условиям окружающей среды, будет только на пользу.
Естественно, некоторые аспекты физического мира неизменны: сила тяжести действует повсюду, а скорость распространения света и звука не меняется в одночасье. Именно поэтому нам не нужно учиться отращивать уши, глаза или внутренние лабиринты, которые в рамках вестибулярной системы отслеживают ускорение нашего тела: все эти свойства заложены в нас генетически. Другие параметры – расстояние между глазами, вес и длина конечностей, высота голоса и прочее – варьируются, а потому мозг вынужден приспосабливаться к ним. Как мы увидим далее, человеческий мозг есть результат компромисса. Наша долгая эволюционная история наделила нас, с одной стороны, множеством врожденных нейронных связей (кодирующих все общие интуитивные категории, на которые мы делим мир: образы, звуки, движения, объекты, животные, люди), а с другой стороны – неким сложным алгоритмом научения, позволяющим нам совершенствовать эти навыки на основе жизненного опыта.
Homo docens
Если бы меня попросили описать исключительные таланты нашего вида одним словом, я бы ответил: «Научение». Мы не просто Homo sapiens, мы Homo docens[3] – вид, который учит себя сам. Большая часть наших знаний о мире не задана генами; мы извлекаем их из внешнего мира или получаем от тех, кто нас окружает. Ни одно другое животное не смогло столь радикально поменять свою экологическую нишу. Мы перебрались из африканской саванны в пустыни, горы, на острова и полярные ледники; мы жили в пещерах, строили города и даже побывали в космосе – и все это за несколько тысяч лет. Благодаря чему? Благодаря способности учиться. От освоения огня и изготовления каменных орудий до сельского хозяйства, научных изысканий и расщепления атома: история человечества – это история постоянного самообновления. В основе всех этих достижений лежит один секрет – экстраординарная способность нашего мозга формулировать гипотезы и выбирать те из них, которые лучше всего согласуются с внешним окружением.
Умение учиться – триумф нашего вида. Миллиарды параметров нашего мозга способны адаптироваться к нашей среде, нашему языку, нашей культуре, нашим обычаям и нашей пище. Эти параметры выбраны не случайно: в ходе эволюции дарвиновский алгоритм установил, какие пути необходимо задать предварительно, а какие должны окончательно сформироваться под влиянием внешнего мира. У нашего вида вклад научения особенно велик – хотя бы потому, что детство у человека длится гораздо дольше, чем у других млекопитающих. Поскольку мы обладаем уникальной способностью к речи и математике, наше учебное устройство легко ориентируется в обширных пространствах гипотез и их потенциально бесконечном множестве комбинаций, пусть даже все они уходят своими корнями в фиксированный и неизменный фундамент, унаследованный нами от предков.
Не так давно человечество обнаружило, что оно может еще больше развить эту замечательную способность с помощью одного института – школы. Педагогика – исключительная привилегия нашего вида: ни одно другое животное не занимается активным обучением своих детенышей, выделяя определенное время для наблюдения за их успехами, трудностями и ошибками[4]. Изобретение школы – института, систематизирующего неформальное образование, существующее во всех человеческих обществах, – значительно увеличило потенциал нашего мозга. Мы убедились, что можем воспользоваться высочайшей пластичностью детского мозга и внедрить в него максимум информации и умений. На протяжении веков наша школьная система совершенствовалась, и сегодня она охватывает период от пятнадцати лет и более. Доступнее стало и высшее образование. Университеты – это подлинные нейроперерабатывающие заводы, в которых наш мозг обретает и оттачивает свои главные таланты.
Образование – основной акселератор мозга. Неудивительно, что оно занимает первые строчки в перечне государственных расходов: без него сети корковых нейронов остались бы алмазами неограненными. Самой сложностью нашего общества мы обязаны тому положительному влиянию, которое образование оказывает на кору головного мозга: это чтение, письмо, арифметика, алгебра, музыка, чувство времени и пространства, улучшение памяти… Например, вы знали, что кратковременная память у грамотного человека, количество слогов, которое он может повторить, почти вдвое больше, чем у взрослого, который никогда не ходил в школу и остался неграмотным? А что IQ повышается на несколько единиц с каждым дополнительным годом обучения?
Научение научению
Образование приумножает и без того немалые возможности нашего мозга – но может ли он функционировать еще лучше? В школе и на работе мы постоянно задействуем алгоритмы научения, но делаем это интуитивно, не обращая внимания на то, как именно протекает данный процесс. Никто никогда не объяснял нам правила, согласно которым мозг запоминает и понимает или, наоборот, забывает и ошибается. Это печально, ибо сегодня человечество обладает весьма обширными научными знаниями по этому вопросу. На веб-сайте, созданном британским фондом British Education Endowment Foundation (EEF)3, перечислены наиболее эффективные педагогические вмешательства; одну из первых строк в этом рейтинге занимает обучение метакогнитивным процессам (метапознание – знание возможностей и ограничений собственного мозга). Умение учиться – пожалуй, самый важный фактор академической успеваемости.
К счастью, теперь мы многое знаем о том, как работает научение. Тридцать лет исследований на стыке компьютерных наук, нейробиологии и когнитивной психологии позволили нам более или менее прояснить алгоритмы, которые использует наш мозг, выявить задействованные сети нейронов, установить факторы, которые модулируют их производительность, а также разобраться, почему у людей они особенно эффективны. Все эти вопросы мы обсудим по очереди. Надеюсь, когда вы закроете эту книгу, вы будете гораздо лучше понимать, что именно происходит в вашей голове во время научения. На мой взгляд, крайне важно, чтобы каждый ребенок и каждый взрослый осознавал весь потенциал собственного мозга и, конечно же, его ограничения. Систематически препарируя наши ментальные алгоритмы и мозговые механизмы, современная когнитивистика придает новый смысл знаменитому сократовскому изречению «Познай самого себя». Сегодня речь идет уже не о простой интроспекции, но о понимании тонкой нейрональной механики, генерирующей наши мысли, и ее использовании в соответствии с нашими потребностями, целями и жела- ниями.
Новая наука о научении, безусловно, особенно актуальна для всех работников системы образования: прежде всего учителей и методистов. Я убежден: правильно преподавать, не обладая – будь то имплицитно или эксплицитно – ментальной моделью того, что происходит в умах учеников, невозможно. Какими интуитивными представлениями они наделены изначально? Какие шаги необходимо предпринять, чтобы двигаться вперед? Какие факторы могут помочь им развить свои навыки?
Хотя когнитивная нейробиология не располагает точными ответами на все вопросы, сегодня мы знаем, что все дети появляются на свет с одинаковой архитектурой мозга – мозга Homo sapiens, кардинально отличающегося от мозга других человекообразных обезьян. Разумеется, я не утверждаю, что мозг одного человека есть точная копия мозга другого: в силу причуд нашего генома и особенностей раннего развития нам присущи разные «таланты» и разная скорость научения. Но несмотря на эти – весьма незначительные – отличия, базовая схема одинакова у всех, равно как и организация алгоритмов научения. По этой причине существуют фундаментальные принципы, которым обязан следовать всякий хороший педагог. Так, все маленькие дети обладают общим набором абстрактных представлений в сферах языка, арифметики, логики и теории вероятностей, обеспечивающим фундамент для дальнейшего обучения. Кроме того, все учащиеся извлекают пользу из сосредоточенного внимания, активного вовлечения, обратной связи и ночной консолидации памяти. Эти факторы я называю «четырьмя столпами» научения: как мы убедимся, именно они лежат в основе универсального алгоритма научения, которым пользуются и взрослые, и дети.
Вместе с тем человеческому мозгу свойственны индивидуальные вариации. В крайних случаях они могут носить патологический характер. В настоящее время реальность таких нарушений развития, как дислексия, дискалькулия, диспраксия и расстройства внимания, уже не вызывает сомнений. К счастью, благодаря лучшему пониманию архитектуры, порождающей данные отклонения, мы обнаружили, что существуют простые стратегии их диагностики и компенсации. Посему одной из целей данной книги я вижу распространение этих научных знаний с тем, чтобы каждый учитель и каждый родитель мог выбрать оптимальную тактику обучения. Хотя дети сильно отличаются друг от друга по содержанию своих знаний, все они пользуются одними и теми же алгоритмами научения. Следовательно, педагогические приемы, успешно внедряемые в работе со всеми детьми, будут эффективны и для детей с нарушениями обучаемости – только применять их следует с большим вниманием, терпением, систематичностью и толерантностью к ошибкам.
Последнее особенно важно: хотя обратная связь по ошибкам необходима, многие дети со временем не только теряют уверенность в себе, но и утрачивают всякое любопытство. Проблема в том, что их зачастую наказывают за ошибки, а не помогают исправиться. В школах по всему миру обратная связь синонимична наказанию и стигматизации (в одной из глав мы подробно поговорим о том, какую роль играют в этой путанице школьные отметки). Отрицательные эмоции снижают учебный потенциал мозга, в то время как безопасная среда, не вызывающая чувства страха, наоборот, содействует восстановлению нейропластичности. Любой прогресс в образовании возможен только в том случае, если мы одновременно учитываем и эмоциональные, и познавательные аспекты нашего мозга – в современной когнитивной нейронауке оба считаются ключевыми элементами успешного научения.
Человек и машина
Сегодня перед человеческим интеллектом встает новая проблема: с недавних пор мы больше не являемся единственными чемпионами по способности учиться. Во всех областях знаний алгоритмы машинного обучения бросают вызов уникальному статусу нашего вида. Благодаря им современные смартфоны умеют распознавать лица и голоса, транскрибировать речь, переводить с одного языка на другой, управлять различными устройствами и даже играть в шахматы или го намного лучше, чем мы. Машинное обучение превратилось в многомиллиардную индустрию, черпающую вдохновение из организации и функционирования нашей собственной нервной системы. Но как работают эти искусственные алгоритмы? Помогут ли их принципы понять, что такое научение? Способны ли они уже сейчас имитировать работу живого мозга или им еще предстоит пройти долгий путь?
Хотя последние достижения в области информационных технологий завораживают, их ограничения очевидны. Классические алгоритмы глубокого обучения копируют лишь малую часть функционирования нашего мозга. По моему убеждению, эта часть соответствует первым стадиям сенсорной обработки, первым двумстам или тремстам миллисекундам, в течение которых наш мозг работает бессознательно. Данный тип обработки никоим образом не следует считать поверхностным: за долю секунды человеческий мозг может распознать лицо или слово, поместить его в контекст, понять и даже интегрировать в небольшое предложение… Проблема в том, что это сугубо восходящий процесс, не предполагающий каких-либо серьезных размышлений. Только на последующих стадиях обработки информации – более медленных и сознательных – наш мозг задействует все свои способности к рассуждению, умозаключению и анализу. Как с точки зрения логики, так и с точки зрения гибкости живой мозг значительно превосходит все современные машины. Даже самые продвинутые компьютерные архитектуры и те уступают человеческому младенцу в способности создавать абстрактные модели мира.
Даже в пределах своей основной специализации – например, в области быстрого распознавания форм – существующие алгоритмы гораздо менее эффективны, чем наш мозг. Современные компьютеры требуют миллионов, если не миллиардов, обучающих попыток. В самом деле, машинное обучение стало чуть ли не синонимом больших данных: в отсутствие гигантских объемов информации алгоритмы практически не способны извлечь абстрактные знания, которые можно перенести на новые ситуации. Другими словами, они не используют данные оптимальным образом.
В этом состязании младенческий мозг одерживает победу без труда: чтобы выучить новое слово, малышам достаточно одного или двух повторений. Их мозг выжимает максимум из минимума данных – умение, которое по-прежнему ускользает от компьютеров. Нейрональные алгоритмы научения умудряются извлечь суть из малейшего наблюдения. Если ученые желают добиться такой же производительности в машинах, им следует черпать вдохновение из механизмов, которые интегрировала в наш мозг сама эволюция. Это может быть внимание, которое позволяет нам отбирать информацию и усиливать релевантные сигналы, или, например, сон – алгоритм, посредством которого наш мозг синтезирует усвоенное в течение дня. Новые машины с такими свойствами уже появились, и их производительность неуклонно растет – в ближайшем будущем они, безусловно, составят серьезную конкуренцию нашему мозгу.
Согласно одной из новых теорий, причина, по которой человеческий мозг до сих пор превосходит машины, заключается в том, что он действует, как ученый-статистик. Постоянно вычисляя вероятности, он оптимизирует свою способность к научению. Судя по всему, в процессе эволюции наш мозг приобрел сложные алгоритмы, которые беспрерывно оценивают его знания и сопряженную с ними неуверенность (неопределенность). Такое систематическое внимание к вероятностям является в математическом смысле наилучшим способом в полной мере использовать каждую единицу инфор- мации4.
Недавние эксперименты подтверждают эту гипотезу. Даже младенцы понимают вероятности: по всей видимости, они с рождения встроены в их нейронные сети. Дети ведут себя как маленькие ученые: их мозг изобилует гипотезами, которые напоминают научные теории и проверяются на опыте. Способность оперировать вероятностями, по большей части бессознательно, вписана в саму логику нашего научения. Она позволяет любому из нас постепенно отвергать ложные гипотезы и сохранять только те теории, которые согласуются с данными. В отличие от других видов животных люди используют это чувство вероятностей для построения научных теорий о внешнем мире. Только мы – представители Homo sapiens – систематически генерируем абстрактные символические мысли и регулярно оцениваем их правдоподобие на основе новых наблюдений.
Инновационные компьютерные алгоритмы, учитывающие этот новый подход к научению, называются «байесовскими» – в честь преподобного Томаса Байеса (1702–1761), который сформулировал отдельные элементы этой теории еще в XVIII веке. Я предполагаю, что байесовские алгоритмы произведут настоящую революцию в машинном обучении: уже сегодня они способны извлекать абстрактную информацию не хуже любого ученого.
Наше путешествие в современную науку о научении состоит из трех частей.
Первая часть под названием «Что такое научение?» начинается с определения того, что значит для человека или животного – и для любого алгоритма или машины – учиться новому. Идея проста: учиться – значит последовательно формировать как в искусственных, так и в естественных нейронных сетях внутреннюю модель внешнего мира. Гуляя по незнакомому городу, я составляю его мысленную карту – миниатюрную модель улиц и переулков. Точно так же ребенок, который учится кататься на велосипеде, формирует подсознательную симуляцию того, как движения ног, нажимающих на педали, и рук, поворачивающих руль, влияют на устойчивость велосипеда. Аналогичным образом компьютерный алгоритм, который учится распознавать лица, собирает шаблонные модели возможных форм глаз, носов, ртов и их комбинаций.
Но как мы создаем правильную ментальную модель? Как мы увидим далее, ум учащегося можно уподобить гигантской машине с миллионами регулируемых параметров; настройки этих параметров в совокупности и определяют то, чему мы научились (например, где скорее всего будут находиться улицы на нашей ментальной карте окрестностей).
В головном мозге параметры – это синапсы, связи между нейронами, сила которых варьируется; в большинстве современных компьютеров параметры – это регулируемые веса или вероятности, определяющие силу каждой приемлемой гипотезы. Таким образом, научение – как в мозге, так и в машинах – требует поиска оптимального сочетания параметров, которые вместе определяют ментальную модель во всех ее подробностях. В этом смысле научение – проблема поиска; чтобы лучше понять, как научение работает в человеческом мозге, необходимо изучить, как алгоритмы обучения работают в современных компьютерах.
Сравнивая компьютерные алгоритмы с алгоритмами мозга in silico[5] и in vivo[6], мы постепенно получим более четкое представление о том, что означает научение на уровне мозга. Конечно, математикам и специалистам в области вычислительных систем не удалось разработать алгоритмы обучения, столь же мощные, как человеческий мозг, – пока. Тем не менее они все больше склоняются к теории оптимального алгоритма обучения, который должна использовать любая система, если она стремится к максимальной эффективности. Согласно этой теории, лучший ученик действует, как ученый, рационально использующий вероятности и статистику. Возникает новая модель: модель мозга как статистика, при которой корковые области мозга обрабатывают данные о вероятностях событий. Данная теория подчеркивает четкое разделение труда между наследственностью и средой: гены создают обширные пространства априорных гипотез, из которых впоследствии среда выбирает те, которые наилучшим образом описывают внешний мир. Иными словами, набор гипотез задан генетически, но их отбор зависит от опыта.
Согласуется ли эта теория с тем, как на самом деле работает мозг? И как научение реализуется в биологических нейронных сетях? Какие изменения происходят в нашем мозге, когда мы приобретаем новую компетенцию? Во второй части книги, «Как учится наш мозг», мы обратимся к психологии и нейробиологии. Особое внимание будет уделено младенцам – подлинным и непревзойденным самообучающимся машинам. Согласно новейшим исследованиям, они действительно ведут себя как юные специалисты по статистике. Их поразительная интуиция в сферах языка, геометрии, чисел и статистики подтверждает: младенцы могут быть чем угодно, но только не «чистым листом», tabula rasa[7]. При рождении детский мозг уже организован, он проецирует гипотезы на внешний мир с самого первого дня. Кроме того, дети обладают значительным запасом пластичности, которая отражается в беспрерывных изменениях синапсов. В пределах этой статистической машины наследственность и среда не противостоят друг другу – напротив, они действуют сообща. Результатом является структурированная, но пластичная система с уникальной способностью к самовосстановлению после травм и переориентации уже существующих нейронных сетей на овладение навыками, не предусмотренными эволюцией, – например, чтением или математикой.
В третьей части книги, «Четыре столпа научения», я подробно расскажу о некоторых хитростях, которые делают наш мозг самым эффективным самообучающимся устройством, известным на сегодняшний день. В значительной степени нашу способность к научению модулируют четыре основных механизма. Первый – это внимание, система нейронных сетей, которые отбирают, усиливают и передают сигналы, считающиеся нами релевантными, тем самым усиливая их воздействие в нашей памяти в сто раз. Второй столп – активное вовлечение: пассивный организм почти ничему не научится, ибо научение требует активного генерирования гипотез, мотивации и любопытства. Третий столп – обратная связь: всякий раз, когда реальность не совпадает с нашими ожиданиями, в нашем мозге распространяются сигналы ошибки. Они корректируют имеющиеся ментальные модели, исключают непригодные гипотезы и стабилизируют наиболее точные. Наконец, четвертый столп – это консолидация: периодически наш мозг компилирует (собирает воедино) то, что он усвоил, и переносит это в долговременную память, тем самым высвобождая нейронные ресурсы для дальнейшего научения. Важную роль в этом процессе консолидации играет повторение. Мозг активен даже во сне; во время сна он в ускоренном темпе воспроизводит свои прошлые состояния и перекодирует знания, приобретенные в течение дня.
Эти четыре столпа универсальны: младенцы, дети и взрослые всех возрастов используют их каждый раз, когда задействуют свою способность к научению. Вот почему все мы должны научиться владеть ими – именно так мы сможем научиться учиться. В заключении мы обсудим практические последствия этих научных открытий. Изменить наши подходы к научению и обучению в школе, дома или на работе вовсе не так сложно, как кажется. Простые рекомендации касательно игр, любознательности, социализации, концентрации и сна помогут еще больше развить то, что и так является величайшим талантом нашего мозга, – способность учиться.
Часть I
Что такое научение?
По сути, интеллект можно рассматривать как процесс преобразования неструктурированной информации в полезные и актуальные знания.
Демис Хассабис, исследователь искусственного интеллекта, основатель компании DeepMind (2017)
Что такое научение? Во многих языках это слово имеет тот же корень, что и латинский глагол apprehendere («схватывать»): apprehending в английском, apprendre во французском, aprender в испанском и португальском. И действительно, научиться – значит уловить некий фрагмент реальности и перенести его в мозг. В когнитивных науках принято считать, что научение состоит в формировании внутренней модели мира. В процессе научения первичные данные, которые улавливают наши органы чувств, превращаются в более или менее абстрактные идеи, пригодные для повторного использования в новом контексте, – малые модели реальности.
Ниже мы узнаем, что обо всем этом говорит когнитивистика и наука об искусственном интеллекте. Как возникают такие внутренние модели в мозге и машинах? Как меняется репрезентация (представление) информации, когда мы учимся? Что происходит на уровне, общем для любого организма – будь то человек, животное или компьютер? Обсудив различные инженерные хитрости, позволяющие машинам учиться, мы получим более четкое представление о той невероятной работе, которую проделывает мозг всякого ребенка, когда он учится видеть, говорить и писать. Как ни странно, детский мозг сохраняет преимущество: несмотря на все технические и научные достижения, современные алгоритмы машинного обучения копируют лишь малую часть способностей человеческого мозга. Разобравшись, где заканчивается машинное обучение и в чем мозг ребенка превосходит даже самый мощный компьютер, мы точно определим, что значит «научение».
Глава 1
Семь определений научения
Что значит «научение»? Мое первое и самое общее определение таково: научиться – значит сформировать внутреннюю модель внешнего мира.
Вы можете этого не осознавать, но ваш мозг хранит тысячи таких моделей. Образно говоря, они похожи на миниатюрные муляжи, более или менее точно повторяющие реальность. Например, у всех нас есть ментальная карта района и дома, в котором мы живем, – достаточно закрыть глаза и мысленно представить их в мельчайших подробностях. Разумеется, никто из нас не родился с этой картой – мы приобрели ее посредством научения.
Богатство и разнообразие наших ментальных моделей, по большей части бессознательных, поражает воображение. Так, у любого англоговорящего читателя имеется обширная ментальная модель английского языка; благодаря ей он понимает слова, которые сейчас читает, и может догадаться, что слово plastovski – не английское, слова swoon и wistful – точно английские, а слово dragostan – возможно[8]. Помимо языковой модели, мозг содержит и несколько моделей тела, которые он постоянно использует для коррекции положения конечностей при движении и для поддержания равновесия. Другие ментальные модели кодируют наши знания о физических объектах и взаимодействии с ними: вы знаете, как держать ручку, писать или ездить на велосипеде. Третьи описывают близких нам людей: у каждого человека имеется огромный ментальный каталог его родственников и знакомых, в котором задокументированы их внешность, голоса, вкусы и причуды.
Эти ментальные модели способны генерировать гиперреалистичные симуляции окружающей нас вселенной. Вы замечали, что иногда ваш мозг устраивает самые настоящие виртуальные реалити-шоу, в которых вы ходите, танцуете, посещаете новые места, ведете интересные беседы или испытываете сильные эмоции? Конечно, я говорю о снах! Кажется невероятным, но все мысли, которые приходят к нам в сновидениях, есть не что иное, как продукт неконтролируемой работы внутренних моделей мира.
Впрочем, мы «изобретаем» реальность не только во сне: бодрствуя, наш мозг постоянно проецирует гипотезы и интерпретативные системы на внешний мир. Это происходит потому, что каждое изображение, попадающее на сетчатку глаза, неоднозначно. Например, всякий раз, когда мы видим тарелку, ее изображение подобно бесконечному количеству эллипсов. Почему же мы видим тарелку круглой, хотя органы чувств говорят нам, что она овальная? Все дело в дополнительных данных, которые поставляет наш мозг: он знает, что круглая форма – наиболее вероятная интерпретация. За кулисами сенсорные области непрерывно вычисляют вероятности, и в сознание попадает только наиболее вероятная модель. Именно проекции мозга в конечном счете придают смысл потоку данных, поступающему от органов чувств. В отсутствие внутренних моделей необработанные сенсорные данные остались бы бессмысленными.
В процессе научения наш мозг захватывает фрагмент реальности, который он ранее упустил, и использует его для построения новой модели мира. Такие модели могут отражать как внешнюю реальность, так и внутреннюю: первые формируются, когда мы изучаем историю, ботанику или карту города; вторые – когда мы учимся координировать движения во время игры на скрипке. В обоих случаях мозг интернализирует (т.е. встраивает внутрь) некий новый аспект реальности: фактически, чтобы усвоить неизвестный материал, он соответствующим образом перенастраивает свои нейронные сети.
Такие изменения, безусловно, не совершаются наугад. Научение – это прежде всего способность приспосабливаться к внешнему миру и способность исправлять ошибки. Но откуда мозг «знает», как обновить внутреннюю модель, если, скажем, он заблудился и не может найти свой дом, упал с велосипеда, проиграл партию в шахматы или неправильно написал слово «экстаз»? Рассмотрим семь ключевых идей, которые лежат в основе современных алгоритмов машинного обучения и которые применимы и к человеческому мозгу, – семь различных определений того, что значит «научение».
Научение – это регулировка параметров ментальной модели
Иногда корректировка ментальной модели не представляет сложностей. Вообразите, что вы видите некий предмет и протягиваете к нему руку. Что происходит? Еще в XVII веке Рене Декарт (1596–1650) предположил, что наша нервная система должна содержать особые нейронные сети, преобразующие зрительные сигналы в мышечные команды (см. рисунок ниже). Вы можете убедиться в этом сами: попробуйте схватить предмет, надев очки другого человека, желательно близорукого. Еще лучше, если вам удастся раздобыть призматические очки, смещающие видимое изображение на дюжину градусов влево5. Естественно, первая попытка закончится провалом: из-за призм вы протянете руку не в сторону самого предмета, а гораздо правее. Путем последовательных проб и ошибок вы скорректируете свои движения и впредь будете брать левее. С каждым разом ваши движения будут все более и более точными – это ваш мозг учится компенсировать смещение. Но если снять очки и попробовать снова, вы с удивлением обнаружите, что ваша рука тянется не туда. Вы взяли слишком далеко в левую сторону!
Что такое научение? Учиться – значит корректировать параметры внутренней модели. Например, чтобы научиться указывать на предмет пальцем, необходимо устранить смещение видимого изображения: каждая ошибка несет в себе полезную информацию, позволяющую сократить разрыв. В искусственных нейронных сетях применяется та же логика, хотя число возможных регулировок значительно больше. Распознавание рукописного знака требует тонкой настройки миллионов связей. Опять же, каждая ошибка – в данном случае это неверный выходной сигнал «8» – может быть использована для корректировки параметров соединений, что позволяет улучшить производительность в следующем испытании.
Что же произошло? Всего за несколько минут ваш мозг скорректировал внутреннюю модель зрения. Параметр этой модели, отвечающий за несоответствие между видимым изображением и положением вашего тела, был установлен на новое значение. Во время процесса корректировки методом проб и ошибок ваш мозг делает то, что делает всякий охотник, регулирующий оптический прицел своего ружья: он совершает пробный выстрел и на основании результатов сдвигает видоискатель в нужном направлении. Данный тип научения протекает быстро: достаточно нескольких попыток, чтобы компенсировать смещение видимых объектов. Однако новые параметры несовместимы со старыми – отсюда систематическая ошибка, которая возникает всякий раз, когда мы снимаем призмы и возвращаемся к нормальному зрению.
Бесспорно, данный вид научения является весьма специфичным, поскольку требует корректировки только одного параметра (угла обзора). Обычно научение носит гораздо более сложный характер и предполагает регулировку десятков, сотен и даже тысяч миллионов параметров (каждого синапса в соответствующей сети нейронов). Тем не менее сам принцип остается неизменным: все сводится к поиску тех настроек внутренней модели, которые наилучшим образом отвечают состоянию внешнего мира.
Представим младенца, который недавно родился в Токио. В течение следующих двух-трех лет его внутренняя речевая модель должна будет адаптироваться к особенностям именно японского языка. Мозг этого малыша подобен машине с миллионами настроек на каждом уровне. Некоторые из этих настроек – например, на слуховом уровне – определяют, какой набор согласных и гласных используется в японском языке и какие правила позволяют их комбинировать. Ребенку, родившемуся в японской семье, предстоит узнать, какие фонемы составляют японские слова и где следует проводить границы между звуками. Один из параметров, в частности, касается различий между звуками [р] и [л]. Во многих языках между ними существует разительный контраст, но только не в японском: японцы не видят разницы между «ложей» и «рожей». Следовательно, каждый ребенок обязан отрегулировать целый набор параметров, которые в совокупности определяют, какие категории речевых звуков релевантны для его родного языка.
Похожая процедура научения повторяется на каждом уровне – от звуковых паттернов до лексики, грамматики и смыслового содержания. Мозг организован в виде иерархии моделей реальности, вложенных одна в другую наподобие матрешки. Учиться – значит использовать поступающие данные для корректировки параметров на каждом уровне этой иерархии. Рассмотрим пример высокого уровня: усвоение грамматических правил. Еще одна ключевая особенность японского языка заключается в порядке слов. В каноническом предложении с подлежащим, сказуемым и дополнением сначала идет подлежащее, затем сказуемое и, наконец, дополнение: «Джон + ест + яблоко». В японском языке, наоборот, сначала стоит подлежащее, затем дополнение – и только потом глагол: «Джон + яблоко + ест»[9]. Примечательно, что тот же порядок характерен для предлогов (которые фактически становятся послелогами), притяжательных местоимений и многих других частей речи. Например, безобидная фраза «Мой дядя мечтает работать в Бостоне» превращается в изречение, достойное Йоды из «Звездных войн»: «Дядя мой Бостоне в работать мечтает».
Любопытно, но все эти инверсии имеют нечто общее. Лингвисты считают, что они обусловлены одним-единственным параметром – так называемой «позицией вершины». В английском, русском и других языках определяющее слово конструкции – ее вершина – обычно стоит на первом месте (в Париже, мой дядя, хочет жить), а в японском – на последнем (Париже в, дядя мой, жить хочет). Этот бинарный параметр отличает многие языки, даже те, которые не связаны исторически (язык навахо, например, подчиняется тем же правилам, что и японский). Таким образом, чтобы овладеть родным языком – скажем, английским или японским, – ребенок должен соответствующим образом настроить параметр «позиция вершины» в своей внутренней языковой модели («до» или «после»).
Научение – это использование комбинаторного взрыва
Неужели овладение речью действительно сводится к заданию каких-то там параметров? В это трудно поверить – но лишь потому, что мы не в состоянии представить то огромное поле возможностей, которое открывается перед нами с увеличением количества параметров, поддающихся регулировке. Это так называемый «комбинаторный взрыв» – экспоненциальный рост возможностей, возникающий при объединении даже небольшого их числа. Предположим, что грамматика мировых языков может быть описана примерно 50 бинарными параметрами, как это постулируют некоторые лингвисты. В итоге мы получаем 250 комбинаций – более миллиона миллиардов возможных языков, или 1 с пятнадцатью нулями! Синтаксические правила трех тысяч реально существующих языков легко вписываются в это гигантское пространство. Однако наш мозг содержит не пятьдесят регулируемых параметров, а гораздо больше – восемьдесят шесть миллиардов нейронов, каждый из которых образует около десяти тысяч синаптических контактов, причем сила этих связей может варьироваться. Выходит, пространство ментальных представлений практически бесконечно.
Человеческие языки активно используют эти комбинации на всех уровнях. Рассмотрим, например, ментальный лексикон: набор слов, которые мы знаем и модель которых постоянно носим в своей голове. Так, любой англоговорящий взрослый свободно владеет примерно 50 тысячами слов с самыми разнообразными значениями[10]. На первый взгляд это гигантский словарный запас, но человек умудряется приобрести его примерно за десять лет. Все потому, что мы можем разложить учебную задачу на составляющие. Учитывая, что эти пятьдесят тысяч слов в среднем состоят из двух слогов, каждый из которых состоит примерно из трех фонем, выбранных из сорока четырех фонем, существующих в английском языке, двоичное кодирование всех этих слов дает менее двух миллионов элементарных двоичных вариантов («битов» со значением 0 или 1). Другими словами, весь словарный запас взрослого человека уместился бы в небольшой 250-килобайтный компьютерный файл (каждый байт состоит из 8 битов).
Ментальный лексикон можно ужать еще сильнее, если принять во внимание большую избыточность языка. Любые шесть букв, выбранные наугад, например xfdrga, не всегда образуют английское слово. Настоящие слова состоят из слогов, объединенных согласно строгим правилам. Это верно на всех уровнях: предложения – это правильные сочетания слов, слова – это правильные сочетания слогов, а слоги – это правильные сочетания фонем. Комбинации эти многочисленны (человек выбирает из нескольких десятков или сотен элементов), но в конечном счете ограничены (допускаются только определенные комбинации). Фактически овладение языком – это обнаружение параметров, управляющих возможными комбинациями на всех уровнях.
Вкратце, человеческий мозг разбивает задачу научения на подзадачи, создавая иерархическую, многоуровневую модель. Особенно это очевидно в случае языка, включающего несколько уровней, или ярусов, – от элементарных звуков до целых предложений и даже полноценных бесед. Тот же принцип иерархической декомпозиции реализован во всех сенсорных системах. Некоторые участки мозга улавливают низкоуровневые паттерны: они видят мир сквозь крошечное пространственно-временное окно и анализируют мельчайшие закономерности. Например, в первичной зрительной коре каждый нейрон анализирует лишь очень небольшую область сетчатки. Он смотрит на мир через маленькое отверстие и, следовательно, обнаруживает только низкоуровневые закономерности – например, наличие движущейся наклонной линии. Миллионы нейронов выполняют одну и ту же работу в разных точках сетчатки; их выходы становятся входами следующего уровня, который обнаруживает «закономерности в закономерностях» и так далее. На каждом уровне область анализа расширяется: мозг ищет более масштабные закономерности как во времени, так и в пространстве. Именно эта иерархия позволяет нам обнаруживать сложные объекты или понятия: линию, палец, кисть, руку, человеческое тело… Нет, подождите, вообще-то тела два! Два человека стоят лицом друг к другу и пожимают руки… Да это же первая встреча Трампа и Макрона!
Научение – это минимизация ошибок
Вычислительные алгоритмы, которые мы называем «искусственными нейронными сетями», построены по принципу иерархической организации коры головного мозга. Подобно коре, они содержат последовательные слои, каждый из которых пытается обнаружить более сложные закономерности, чем предыдущий. Поскольку эти слои организуют поступающие данные на все более и более глубоких уровнях, такие сети часто называют «глубокими» (или «глубинными»). Каждый слой сам по себе способен обнаружить лишь простейшие элементы внешней реальности (в таких случаях математики говорят о линейном разделении, то есть каждый нейрон может разделить имеющиеся данные только на две категории, А и Б, проведя через них прямую линию). Тем не менее, если собрать множество таких слоев, можно получить чрезвычайно мощное обучаемое устройство, способное обнаруживать сложные структуры и приспосабливаться к самым разнообразным задачам. Современные искусственные нейронные сети, использующие преимущества новейших компьютерных микросхем, относятся к глубоким в том смысле, что содержат десятки последовательных слоев. Чем дальше от входа находится слой, тем выше его «проницательность» и способность идентифицировать абстрактные свойства.
Возьмем алгоритм LeNet, созданный французским пионером искусственных нейросетей Яном Лекуном (см. цветную иллюстрацию 2)6. Уже в 1990-х годах эта сеть добилась замечательных результатов в распознавании рукописных знаков. Многие годы канадская почта использовала ее для автоматической обработки почтовых индексов. Как она работает? На входе алгоритм получает изображение символа в виде пикселей, а на выходе предлагает одну из возможных интерпретаций десяти цифр или двадцати шести букв. Искусственная сеть состоит из иерархии простых процессоров, которые немного напоминают нейроны и образуют последовательные слои. Первые слои подключены непосредственно к изображению: в них применяются простые фильтры, распознающие линии и фрагменты кривых. Процессоры высоких уровней содержат более мощные и сложные фильтры и могут научиться распознавать крупные части изображений: изгиб цифры 2, замкнутую петлю буквы O, параллельные линии буквы Z. Искусственные нейроны выходного слоя реагируют на символ независимо от его положения, шрифта или регистра. Все эти свойства не навязаны программистом: они вытекают из миллионов связей, которые соединяют процессоры. Эти связи, однажды отрегулированные автоматизированным алгоритмом, определяют фильтр, который каждый нейрон применяет к поступающим сигналам; именно эти настройки объясняют, почему один нейрон реагирует на цифру 2, а другой – на цифру 3.
Но как же настраиваются эти миллионы связей? Точно так же, как наш мозг, когда мы надеваем призматические очки! Всякий раз, когда сеть дает предварительный ответ, ей сообщают, правильный он или нет. Если ответ неправильный, сеть корректирует соответствующие параметры, дабы избежать ошибки в следующий раз. Каждый неправильный ответ несет в себе ценную информацию. Как и в случае с призматическими очками (слишком большое смещение вправо или влево), характер ошибки подсказывает системе, что именно нужно было сделать, чтобы решить задачу правильно. Вернувшись к источнику ошибки, машина определяет оптимальные параметры, которые впредь позволят ее избежать.
Вернемся к охотнику, которому нужно отрегулировать оптический прицел своего ружья. Процедура обучения элементарна. Охотник стреляет и обнаруживает, что взял на пять сантиметров правее. Теперь он располагает важной информацией как об амплитуде (пять сантиметров), так и о характере ошибки (смещение вправо). Эти сведения дают ему возможность скорректировать следующий выстрел. Если охотник умный, он быстро сообразит, как исправить ситуацию: если пуля отклонилась вправо, необходимо сдвинуть прицел чуть влево. А если он не настолько проницателен, он может выбрать другую мишень и проверить, что произойдет, если прицелиться правее. Таким образом, путем проб и ошибок охотник рано или поздно обнаружит, какие именно манипуляции с прицелом уменьшают отклонение пули от намеченной цели.
Меняя положение прицела, наш храбрый охотник применяет алгоритм научения, хотя сам этого не осознает. Он имплицитно вычисляет то, что математики называют «производной» системы, или ее градиентом, и использует «метод градиентного спуска». Иными словами, охотник учится смещать видоискатель ружья в направлении, уменьшающем вероятность ошибки.
Несмотря на миллионы входов, выходов и регулируемых параметров, большинство искусственных нейросетей, используемых в современном искусственном интеллекте, действуют точно так же, как наш охотник: они анализируют свои ошибки и на их основе корректируют свое внутреннее состояние в направлении, которое должно эти ошибки уменьшить. Во многих случаях такое обучение строго контролируется. Мы сообщаем сети, какой именно ответ она должна была выдать на выходе («Это 1, а не 7»), и точно знаем, в каком направлении необходимо корректировать параметры, если они привели к ошибке (математические вычисления позволяют определить, какие именно связи следует модифицировать, если в ответ на изображение цифры 1 сеть слишком часто дает на выходе 7). На языке машинного обучения это называется «обучением с учителем» (поскольку некто знает правильный ответ, который должна дать система) и «обратным распространением ошибки» (поскольку сигналы об ошибке отправляются обратно в сеть для изменения ее параметров). Процедура проста: я пробую ответить, мне сообщают правильный ответ, я определяю свою ошибку и корректирую параметры, чтобы впредь этой ошибки не совершать. На каждом этапе я делаю лишь небольшие поправки в нужном направлении. Вот почему такое обучение может протекать крайне медленно: в ходе овладения сложным видом деятельности вроде игры в Tetris данный цикл необходимо повторить тысячи, миллионы, даже миллиарды раз. Это и неудивительно: в пространстве с множеством регулируемых параметров поиски оптимальных настроек для каждой гайки и болта могут занять некоторое время.
Данный принцип постепенной коррекции ошибки был реализован уже в самых первых искусственных нейросетях, созданных в 1980-х годах. Достижения в области вычислительной техники позволили распространить эту идею на гигантские нейронные сети, включающие сотни миллионов регулируемых соединений. Эти глубокие нейросети состоят из последовательностей этапов, каждый из которых адаптируется к текущей задаче. Например, на цветной иллюстрации 4 представлена система GoogLeNet на основе архитектуры LeNet. Последняя была предложена Яном Лекуном и выиграла один из самых престижных международных конкурсов по распознаванию образов. Анализируя миллиарды изображений, система научилась распределять их на тысячи различных категорий: лица, пейзажи, лодки, автомобили, собаки, насекомые, цветы, дорожные знаки и так далее. Каждый уровень ее иерархии настроен на некий важный аспект реальности: например, нейроны низших уровней избирательно реагируют на линии и текстуры. Чем выше уровень, тем больше нейронов учится реагировать на сложные признаки: геометрические фигуры (круги, кривые, звезды), части объектов (карман брюк, ручку автомобильной двери, пару глаз) и даже целые объекты (здания, лица, пауков)7.
Стараясь минимизировать ошибки, алгоритм градиентного спуска обнаружил, что эти формы лучше всего подходят для классификации образов. Однако, если бы та же самая сеть получала на входе отрывки из книг или нотные листы, она бы настроилась иначе и научилась распознавать буквы, ноты или любые другие фигуры, распространенные в новой среде. Например, на цветной иллюстрации 3 показано, как сеть такого типа самоорганизуется для распознавания тысяч рукописных цифр8. На самом низком уровне данные смешаны: одни изображения внешне похожи, но представляют собой разные цифры (скажем, 3 и 8); другие, наоборот, выглядят по-разному, но в действительности обозначают одно и то же (цифру 8, например, каждый пишет по-своему – у кого-то верхний контур замкнут, у кого-то не замкнут и т.д.). На каждом этапе степень абстракции возрастает, пока все варианты одного и того же знака не будут сгруппированы вместе. Посредством процедуры сокращения ошибок искусственная сеть обнаруживает иерархию признаков, наиболее важных для распознавания рукописных цифр. Примечательно, что само по себе исправление ошибок позволяет обнаружить целый ряд подсказок, облегчающих решение поставленной задачи.
Концепция обучения путем обратного распространения ошибки лежит в основе многих современных компьютерных приложений. Это рабочая лошадка, благодаря которой смартфон умеет распознавать ваш голос, а умный автомобиль – «видеть» пешеходов и дорожные знаки. Весьма вероятно, что наш мозг тоже использует ту или иную ее версию. Впрочем, метод обратного распространения ошибки может принимать разные формы. За последние тридцать лет в области искусственного интеллекта достигнут невероятный прогресс; исследователи обнаружили множество приемов, облегчающих обучение. Ниже мы рассмотрим их более подробно – оказывается, они многое могут рассказать о нас самих и о том, как мы учимся.
Научение – это исследование пространства возможностей
Одна из проблем, связанных с описанной выше процедурой коррекции ошибок, заключается в том, что система может зациклиться на неоптимальных параметрах. Представьте мяч для гольфа, который всегда катится под уклон. Допустим, прямо сейчас он движется по склону холма. Если в какой-то момент он попадет в ямку или в углубление, то уже никогда не достигнет его подножия – низшей точки ландшафта, абсолютного оптимума. Нечто подобное может случиться и с алгоритмом градиентного спуска, который иногда застревает в точке «локального минимума». «Локальный минимум» – своеобразный колодец в пространстве параметров, ловушка, из которой нельзя выбраться. Как только это происходит, обучение останавливается, ибо все последующие изменения кажутся контрпродуктивными: любое из них лишь увеличивает частоту ошибок. Система чувствует, что научилась всему, чему могла, и слепо игнорирует настройки высшего уровня, хотя те могут находиться всего в нескольких шагах в пространстве параметров. Алгоритм градиентного спуска не «видит» их, ибо отказывается подняться наверх, чтобы опуститься еще ниже. Близорукий, он отваживается отойти только на небольшое расстояние от начальной точки, а потому может не заметить лучшие, но удаленные конфигурации.
Это кажется вам слишком абстрактным? Представим конкретную ситуацию: вы идете за покупками на рынок, где хотите купить продукты подешевле. Вы минуете первого продавца (цены у него явно завышены), обходите второго (у него слишком дорого) и, наконец, останавливаетесь около третьего. У третьего продавца товар гораздо дешевле, чем у двух предыдущих. Но кто поручится, что в конце прохода или, возможно, в соседнем городе цены не окажутся еще ниже? Иначе говоря, понятия «лучшая местная цена» и «глобальный минимум» не всегда означают одно и то же.
На такой случай у специалистов в области вычислительной техники припасен целый арсенал хитроумных приемов. Большинство состоит в том, чтобы ввести в поиск лучших параметров элемент случайности. Идея проста: вместо того чтобы двигаться на рынке по одному-единственному проходу, разумнее выбрать более хаотичный маршрут; вместо того чтобы позволить мячу для гольфа спокойно катиться вниз по склону, следует придать ему ускорение, тем самым уменьшив вероятность того, что он застрянет в ямке. Иногда алгоритмы стохастического поиска пробуют удаленные и частично случайные настройки: если лучшее решение находится в пределах досягаемости, шансы рано или поздно найти его достаточно велики. На практике ввести некоторую степень случайности можно самыми разными способами: задавая или обновляя параметры хаотичным образом, внося разнообразие в порядок примеров, добавляя шум к данным или используя только случайный набор связей. Все это повышает надежность обучения.
Некоторые алгоритмы машинного обучения черпают вдохновение из дарвиновского алгоритма, который управляет эволюцией видов: в ходе оптимизации параметров они вводят мутации ранее обнаруженных решений. Как и в биологии, скорость этих мутаций должна тщательно контролироваться; это позволяет машине исследовать новые решения, не тратя слишком много времени на разного рода «авантюры».
В основе другого алгоритма лежит отжиг – один из видов термической обработки, которым издавна пользовались кузнецы и ремесленники для оптимизации свойств металла. Метод отжига позволяет получить исключительно прочный клинок и состоит в многократном нагревании сплава при постепенно понижающихся температурах. Это повышает вероятность того, что атомы займут правильное положение. Недавно суть этого процесса была успешно перенесена в информатику: алгоритм имитации отжига вносит случайные изменения в параметры при постепенном понижении виртуальной «температуры». Вероятность случайного события высока в начале, а затем начинает снижаться, пока система не достигает оптимальной конфигурации.
Ученые обнаружили, что все эти приемы чрезвычайно эффективны – а значит, не исключено, что в ходе эволюции некоторые из них были «встроены» в наш мозг. Случайный поиск, стохастическое любопытство и зашумленные нейроны – все это играет важную роль в научении у Homo sapiens. И в игре «камень, ножницы, бумага», и в джазовой импровизации, и в анализе возможных решений математической задачи случайность есть один из важнейших компонентов решения. Как мы увидим ниже, всякий раз, когда дети переходят в режим обучения – то есть когда они играют, – они исследуют десятки возможностей, причем зачастую делают это беспорядочно, наобум. Ночью их мозг продолжает жонглировать идеями, пока не натыкается на ту, которая лучше всего объясняет пережитое в течение дня. В третьей части этой книги мы еще вернемся к полуслучайному алгоритму, который отвечает за ненасытное любопытство детей – и тех счастливых взрослых, которым удалось сохранить ум ребенка.
Научение – это оптимизация функции вознаграждения
Помните систему LeNet Лекуна, которая распознает формы цифр? Чтобы этот тип искусственной нейросети мог учиться, его необходимо обеспечить правильными ответами. Иными словами, сеть должна знать, какой из десяти возможных цифр соответствует каждое введенное изображение. Для исправления ошибок система должна вычислить разницу между своим и правильным ответами. Данная процедура получила название «обучения с учителем»: некто вне системы знает решение и пытается научить машину. Метод достаточно эффективный, однако следует отметить, что ситуация, в которой правильный ответ известен заранее, – большая редкость. Когда дети учатся ходить, никто не говорит им, какие именно мышцы нужно сокращать; их просто поощряют пробовать снова и снова, пока они не перестают падать. Другими словами, малыши учатся исключительно на основе оценки результата: я упал или же мне удалось наконец пересечь комнату.
С той же проблемой «обучения без учителя» сталкивается и искусственный интеллект. Например, когда машина учится играть в видеоигру, перед ней ставят одну-единственную задачу – набрать максимальное количество очков. Никто не говорит ей, какие именно действия необходимо для этого предпринять. Как же быть? Как машине самостоятельно найти эффективный и быстрый способ достичь поставленной цели?
«Очень просто», – сказали ученые и придумали так называемое «обучение с подкреплением», в рамках которого мы не сообщаем системе никаких подробностей о том, что она должна делать (этого никто не знает!), но определяем «награду» – например, в виде количества очков9. Что еще хуже, машина может узнавать это количество с задержкой, уже после совершения тех или иных действий. Обучение на основе отложенного подкрепления – принцип, на базе которого DeepMind, дочерняя компания Google, построила машину, способную играть в шахматы, шашки и го. В конце партии система получает один-единственный сигнал, свидетельствующий о выигрыше или проигрыше. Во время самой игры обратная связь отсутствует – засчитывается лишь окончательная победа над соперником. Как же тогда машине определить, что нужно делать? И, если уж на то пошло, как она может оценить свои действия, если известен только исход игры?
Ученые нашли хитрое решение. Они программируют машину так, чтобы она делала сразу две вещи: действовала и одновременно оценивала собственный прогресс. Одна половина системы, так называемый «критик», учится предсказывать конечный результат. Цель этой сети искусственных нейронов заключается в том, чтобы как можно точнее оценить состояние игры и предсказать ее исход: я выигрываю или проигрываю? Благодаря «внутреннему критику» система способна оценивать свои действия в любой момент времени, а не только в конце. На основании этой оценки другая половина машины, «актор» (собственно, «исполнитель»), корректирует свое поведение: пожалуй, мне не стоит делать то-то и то-то – «критик» считает, что это увеличит мои шансы на проигрыш.
Испытание за испытанием «актор» и «критик» работают в тандеме: один учится выбирать наиболее эффективные действия, другой – как можно точнее оценивать их последствия. Спустя некоторое время – в отличие от того парня из анекдота, который падает с небоскреба и на лету восклицает: «Пока все хорошо!» – сеть «актор – критик» обретает невероятную прозорливость: способность предсказывать, какие партии скорее всего будут выиграны, а какие неизбежно закончатся катастрофой.
Комбинация «актор – критик» – одна из самых эффективных стратегий современного искусственного интеллекта. При поддержке иерархической нейронной сети она буквально творит чудеса. Еще в 1980-х годах эта система выиграла чемпионат мира по нардам, а недавно позволила DeepMind создать многофункциональную нейронную сеть, способную играть в разного рода видеоигры вроде Super Mario или Tetris10. Достаточно задать пиксели изображения в качестве входных данных, возможные действия в качестве выходных данных и очки в качестве функции вознаграждения. Всему остальному машина научится сама. Играя в Tetris, она обнаружит, что на экране отображаются разные фигуры, что падающая фигура важнее остальных, что те или иные действия могут изменить ее ориентацию и положение в пространстве и так далее, – а затем выработает оптимальную тактику. В Super Mario изменения входных данных и вознаграждений учат машину обращать внимание на совершенно иные параметры: какие пиксели образуют тело Марио, как он движется, где находятся враги, как выглядят стены, двери, ловушки, бонусы… и как себя вести рядом с ними. Регулируя свои настройки – то есть миллионы связей, соединяющих слои, – сеть может адаптироваться ко всем типам игр и научиться распознавать формы Tetris, Pac-Man