Peter Coveney, Roger Highfield
Virtual You. How Building Your Digital Twin Will Revolutionize Medicine and Change Your Life
Издание опубликовано с согласия и при поддержке The Curious Minds Agency, Louisa Pritchard Associates и The Van Lear Agency LLC
© 2023 by Peter Coveney and Roger Highfield
© 2023 by Princeton University Press
© Кедрова М. В., перевод на русский язык, 2024
© Издание на русском языке. ООО «Издательская Группа «Азбука-Аттикус», 2024
КоЛибри®
Вступительное слово
ВЕНКИ РАМАКРИШНАН
Физик Ричард Фейнман однажды сказал: «Чего не могу воссоздать, того не понимаю». Можно дополнить: «Чего не могу точно смоделировать, того не понимаю». Мы уверены, что понимаем, как самолеты летают и как ведут себя во время турбулентности или отказа двигателя, поскольку авиасимулятор может точно предсказать, что произойдет. Пилоты регулярно отрабатывают как обычные, так и непредвиденные ситуации, используя симуляторы и получая опыт, который могут так и не применить при управлении реальным самолетом.
Каковы перспективы моделирования себя на компьютере? На первый взгляд, это звучит скорее как научная фантастика, чем реальность. Однако в этой области был достигнут значительный прогресс. Данная книга знакомит с первыми шагами на пути к созданию собственного цифрового двойника и с трудностями в достижении этой цели, что само по себе является увлекательным путешествием.
Одна из ключевых тем книги – стремление видеть в биологии столько же теории, сколько и в физике. В 1976 г., сразу после аспирантуры, когда я ушел из физики, чтобы переквалифицироваться в биолога, я сразу заметил разницу. В физике, как и в химии, существовала высокоразвитая теория, которая помогала направлять и даже предсказывать эксперименты и поведение. Так, исходя из теоретических соображений, удалось изобрести транзисторы и лазеры и синтезировать совершенно новые соединения. В результате даже был построен ускоритель стоимостью в несколько миллиардов долларов для поиска теоретически предсказанного бозона Хиггса. Теория далека от совершенства. Например, не существует хорошей теории высокотемпературной сверхпроводимости, и мы не можем предсказать детальное сверхпроводящее поведение смеси металлов.
Биология в 1970-х гг., напротив, казалась в основном наблюдательной и эмпирической. У нее была одна всеобъемлющая теория – о естественном отборе, действующем как движущая сила эволюции всей жизни. Хотя эта теория обладала огромной объяснительной силой, ей не хватало детальной предсказательной силы. В биологии также было то, что я назвал бы локальными теориями или моделями: понимание того, как импульс распространяется по нерву, как работают различные биологические моторы или как человек реагирует на дозу адреналина. Но чего не было, так это всеобъемлющей способности предсказывать на основе набора начальных условий, как система (даже такая базовая единица, как клетка) будет вести себя с течением времени при произвольном наборе условий.
Проблема заключается в том, что количество факторов, участвующих в поддержании жизни, невероятно огромно. На каком-то базовом уровне существует наш геном, последовательность которого с большой помпой была раскрыта в начале этого столетия с перспективой вступить в новую эру биологии. Геном состоит из десятков тысяч генов, экспрессирующихся в разной степени и в разное время. Более того, экспрессия генов модулируется химическими метками на ДНК или связанными с ней белками, которые сохраняются при делении клеток, что является предметом эпигенетики. Наконец, экспрессия генов и их функции в клетке являются результатом их взаимодействия друг с другом и окружающей средой с образованием гигантской сети. Таким образом, любые надежды на возможность предсказывать на основе генов, зная их последовательность, оказались пустыми. Если это так даже для одной клетки, можно себе представить, насколько сложно теоретически предсказать будущее органа, не говоря уже о целом человеке.
Последние 20 лет биологическая революция XX в. дополнялась революцией в области вычислений и данных. Теперь у нас есть огромные объемы данных. Вместо одной последовательности человеческого генома мы имеем сотни тысяч, а также обширные последовательности геномов огромного числа видов. У нас есть карты транскриптомов, которые сообщают нам, какие гены экспрессируются (процесс, посредством которого информация, закодированная в гене, приводится в действие), в каких клетках и когда, и у нас есть карты интерактомов, отображающие взаимодействие между тысячами генов. Наряду с этим мы располагаем масштабными сведениями о физиологии и заболеваниях человека. У нас есть данные о личных характеристиках здоровья миллионов людей. Анализ и интерпретация всех этих данных находятся за пределами возможностей любого отдельного человека или даже группы. Но в то же время стремительно развивается наука о данных. Вычислительные методы, позволяющие связывать большие наборы данных и понимать их, постоянно совершенствуются.
Позволят ли эти достижения, в сочетании с активным развитием теории, в конечном итоге смоделировать форму жизни? В данной книге утверждается, что сочетание этих разработок даст нам возможность достичь амбициозной цели моделирования практически каждого органа и процесса в теле человека. Когда это будет сделано, мы сможем задавать следующие вопросы. Как этот человек отреагирует на конкретное лечение? В какой момент у него может развиться тяжелая болезнь? Можно ли предотвратить это, приняв меры на раннем этапе, и если да, то какие действия могут помочь? Как иммунная система одного человека отреагирует на инфекцию по сравнению с иммунной системой другого?
В книге описан прогресс практически во всех областях компьютерной биомедицины: от молекул и клеток до органов и человека. Когда я читал ее, у меня сложилось впечатление, что есть области, где цифровая симуляция – виртуальная копия реальности – уже почти существует. Одни цели кажутся достижимыми, но есть и такие, которые во многом напоминают научную фантастику. Да, в принципе, со временем их можно достичь, но практические трудности кажутся бесконечными и в настоящее время непреодолимыми. Ученые спорят о том, какие идеи – чистая фантазия, а какие – взгляд в наше будущее. Сами Ковени и Хайфилд проводят черту у цифрового сознания.
Те из нас, кто настроен более скептически, должны помнить, что у новых технологий есть две почти универсальные характеристики. Во-первых, на начальных этапах они обычно не работают должным образом, а их применение кажется очень узким и ограниченным. В результате, казалось бы, резкой трансформации (на самом деле являющейся результатом десятилетий работы) они внезапно становятся повсеместными и воспринимаются как нечто само собой разумеющееся. Мы увидели это на примере интернета, который в течение первых двух десятилетий был прерогативой горстки ученых в академических кругах и правительственных лабораториях, прежде чем стал константой в нашей жизни. Вторая особенность, на которую указал Рой Амара, заключается в том, что, когда дело доходит до прогнозирования эффекта и силы новой технологии, мы склонны переоценивать краткосрочную перспективу и недооценивать долгосрочную. Это часто приводит к большой шумихе, сменяемой неизбежным разочарованием, за которым в конечном итоге следует успех. Например, выстрелившая в 1970-х и 1980-х гг. идея искусственного интеллекта десятилетиями нас разочаровывала, но сегодня эта область невероятно успешна. Возможно, мы наблюдаем ту же ситуацию с беспилотными автомобилями.
Будет ли так же с идеей виртуальных людей – остается предметом споров, но в этой книге Ковени и Хайфилд предлагают нам увлекательный отчет об усилиях ученых по всему миру, которые сейчас работают ради достижения этой необычной цели.
В 2009 г. Венки Рамакришнан получил Нобелевскую премию за исследования рибосомы – молекулярной машины, превращающей гены в плоть и кровь.
Введение
Представьте себе виртуального человека, состоящего не из плоти и костей, а из битов и байтов, и не просто человека, а виртуальную версию вас, точную во всем, от биения сердца до букв ДНК-кода.
ПРЕМЬЕРА ФИЛЬМА «МУЗЕЙ НАУКИ», ЛОНДОН
В стенах часовни XIX в. на окраине Барселоны начинает биться сердце. Оно не настоящее, а виртуальная копия того, что бьется в груди пациента. Благодаря миллиардам уравнений и 100 миллионам участков смоделированных клеток цифровой двойник бьется со скоростью около одного удара в час, тестируя методы лечения – от лекарств до имплантатов.
Несмотря на то, что часовня Торре Жирона была секуляризирована десятилетия назад, над входом до сих пор красуется крест. В архитектуре романтизма чувствуется высшая сила и цель. Когда солнечный свет струится сквозь витражные окна, вы предстаете перед огромной комнатой из стекла и стали, внутри которой стоят три ряда черных шкафов, усеянных зелеными огнями.
Это MareNostrum (римское название Средиземного моря), суперкомпьютер в кампусе Политехнического университета Каталонии, который Питер Ковени и коллеги со всей Европы используют для моделирования электрических, химических и механических процессов в человеческом организме. На вид симуляции не отличить от настоящих, будь то трепещущее сердце или наполняющееся воздухом легкое. Однако гораздо важнее то, что эти виртуальные органы ведут себя как настоящие.
Чтобы показать ошеломляющий диапазон и потенциал виртуальных исследований человека, мы использовали MareNostrum для создания фильма с помощью моделирования, запущенного на других суперкомпьютерах, в частности SuperMUC-NG в Германии (суффикс MUC относится к коду близлежащего аэропорта Мюнхена). Работая с международной командой, мы хотели, чтобы фильм «Виртуальные люди» продемонстрировал, куда наши усилия по созданию тела in silico[1] могут привести медицину.
Рисунок 1. Кадр из фильма «Виртуальные люди» (CompBioMed и Суперкомпьютерный центр Барселоны)
В сентябре 2017 мы провели премьеру в огромном кинотеатре IMAX Музея науки в Лондоне, вместе с Фернандо Куккетти и Гильермо Марино, нашими коллегами из Суперкомпьютерного центра Барселоны. Несмотря на то, что мы работали над фильмом несколько месяцев, мы все равно затаили дыхание, увидев бьющееся виртуальное сердце размером с четыре двухэтажных автобуса.
SuperMUC-NG и MareNostrum 4 – две из примерно нескольких сотен огромных вычислительных машин, разбросанных по всему миру. Эти машины используются для моделирования космоса, понимания закономерностей природы и решения основных задач, стоящих перед нашим обществом, таких как изучение изменения климата, разработка низкоуглеродных источников энергии и моделирование распространения виртуальных пандемий.
Подобно великим средневековым соборам, воздвигнутым архитекторами, каменщиками, геометрами и епископами, чтобы дать человечеству представление о бесконечности, суперкомпьютеры – это соборы информационной эпохи, где новые миры и даже целые вселенные бесконечного разнообразия могут быть смоделированы внутри великих двигателей логики, алгоритмов и информации.
Они также могут воссоздать внутренние миры человеческого тела, и не любого или «среднего» тела, а тела конкретного человека: от тканей и органов до молекулярных машин, работающих внутри клеток, их составных белков и ДНК. Конечная цель этой работы – запечатлеть на компьютере жизненные ритмы, закономерности и нарушения, причем не просто какой-то среднестатистической жизни, а одного конкретного тела и одной конкретной жизни – вашей[2].
Рисунок 2. Суперкомпьютер MareNostrum (wikimedia commons: Gemmaribasmaspoch. cc-BY-SA-4.0)
На премьере к нам присоединились коллеги, разработавшие виртуальные сердца, артерии и вены, а также скелет и его мускулатуру. На великолепном экране IMAX в Музее науки переполненная аудитория увидела будущее, когда лекарства можно будет разрабатывать с учетом индивидуальных потребностей каждого пациента, когда мы сможем визуализировать движение мутировавшего белка в организме, отследить турбулентный поток частиц лекарства глубоко в легких, изучить волны клеток крови через мозг и смоделировать давление и напряжение, оказываемые на ослабленные кости.
Расцвет цифровых двойников
В технике виртуальные копии известны как цифровые двойники. Эту концепцию обычно приписывают статье Джона Викерса и Майкла Гривза из Мичиганского университета от 2002 г.[3], в которой говорилось о «модели зеркальных пространств». НАСА ввело термин «цифровой двойник» в 2010 г.[4] и применило к космическим кораблям[5]. Однако истоки двойников можно найти гораздо раньше. Многие в качестве яркого примера ссылаются на лунную программу «Аполлон»: наземные симуляторы использовались в качестве аналоговых двойников космических кораблей. Этот подход был использован в 1970 г., чтобы помочь успешно вернуть трех астронавтов злополучной миссии «Аполлон-13» после взрыва в 200 000 милях от Земли[6].
Сегодня цифровые двойники хорошо зарекомендовали себя. Многие промышленные процессы и машины слишком сложны для понимания одним мозгом, поэтому эксперименты с цифровыми двойниками облегчают изучение и понимание их поведения[7]. Уроки, извлеченные таким образом, преобразуют будущее производства и, ускоряя автоматизацию, меняют будущее труда. Цифровые копии машин и даже целых заводов помогают предвидеть препятствия, совершенствовать конструкции и предотвращать ошибки еще до их возникновения.
Цифровые двойники используются для оптимизации цепочек поставок и планировки магазинов. General Electric использовала двойника для повышения эффективности на алюминиевом заводе в Индии; двойник маршрута предполагаемой железнодорожной линии на северо-западе Англии – в виде 18 миллиардов точек данных, собранных дронами, – был создан, чтобы помочь управлять этим огромным транспортным проектом; «фабрика будущего» в Австралии отточила виртуальную копию роботизированной рабочей станции, прежде чем создать настоящую; инженеры используют цифровые двойники, чтобы оценить срок службы реактивного двигателя и способы его эффективного обслуживания. Цифровые двойники использовались для создания ветряных турбин, нефтяных вышек, автомобилей, реактивных двигателей, самолетов, космических кораблей и многого другого. Некоторые считают, что цифровые двойники городов являются ключом к будущему городскому планированию.
Цифровые двойники появляются и в медицине благодаря революции данных в биологии. Одним из легионов людей, анализирующих данные о здоровье, является Лерой Худ из Института системной биологии в Сиэтле. Один из самых влиятельных современных биотехнологов, Худ десятилетиями работал на передовых позициях в области медицины, инженерии и генетики, начиная с первой встречи по программе генома человека в 1985 г. В 2015 г. он запустил проект, собравший множество данных о 5000 пациентах за пять лет. Все их данные хранились в том, что Худ называет «облаками личного здоровья»[8]. Анализ облака пациента может выявить характерные сигналы того, что Худ называет «пред-предболезнью», которые врачи могут использовать, чтобы предвидеть проблему, а затем вмешаться для поддержания здоровья.
Худ говорит о «научном благополучии», которое «использует личные, плотные, динамические облака данных для количественной оценки и определения здоровья, а также выявления отклонений от состояния здоровья в сторону болезни». Живое воплощение его подхода, 82-летний мужчина, был в отличной форме («Я не планирую выходить на пенсию»), когда мы говорили с ним о его видении будущего «4П», где лечение будет прогнозирующим, профилактическим, персонализированным и партиципаторным. Моделирование тела поможет вступить в это будущее, выявив закономерности в данных пациента.
В действительности, конечно, мы обходимся неполным пониманием и неполными данными. Но, как показали достижения в области прогнозирования погоды, эти недостатки можно преодолеть и сделать полезные прогнозы. Мы прошли долгий путь с 1922 г., когда британский математик Льюис Фрай Ричардсон (1881–1953) в замечательной книге «Прогноз погоды с помощью численного метода» (Weather Prediction by Numerical Process) изложил идею фантастической фабрики прогнозов, где тысячи человеческих «компьютеров», использующих логарифмические линейки и калькуляторы, координируются «дирижером». Ричардсон размышлял: «Возможно ли будет когда-нибудь в туманном будущем проводить вычисления быстрее, чем меняется погода?» Но даже он признал, что фабрика прогнозов была всего лишь мечтой.
Столетие спустя его необыкновенное видение стало реальностью. Суперкомпьютеры могут делать прогнозы на несколько дней вперед с достаточной точностью, постоянно обновляя сложные компьютерные модели данными с орбитальных спутников, буев, самолетов, кораблей и метеостанций.
Типичная модель прогнозирования опирается на систему уравнений, позволяющую моделировать: будет идти дождь или сиять солнце. Существует уравнение для импульса, плотности и температуры в каждой из трех фаз воды (пар, жидкость и твердое состояние), а также, возможно, для других химических переменных, таких как озон, который поглощает вредное ультрафиолетовое излучение. Во второй главе мы объясняем, почему эти нелинейные дифференциальные уравнения, особенно уравнения в частных производных, управляют климатической системой. В целом, чтобы смоделировать планету с разрешением, составляющим в настоящее время около 60 км, требуются миллиарды уравнений[9]. Модель должна учитывать постоянно меняющиеся термодинамические, радиационные и химические процессы, действующие в масштабах от сотен метров до тысяч километров и от секунд до недель[10]. Это представляет собой проявление силы моделирования, которое, как утверждают некоторые, уже приближается к сложности, необходимой для моделирования человеческого мозга.
Благодаря потоку биомедицинских данных, доступных сегодня, а также все более мощной теории и расчетам, мы считаем, что в биологии моделирование произведет революцию так же, как и в метеорологии. Американский метеоролог Кливленд Эббе (1838–1916) однажды заявил, что прогресс в его области зависит от «посвящения в эту науку физиков и математиков»[11]. Вторя его видению прогнозирования из 1895 г., мы с нетерпением ждем того дня, когда будет недостаточно знать, что кто-то нездоров, – мы хотим иметь возможность понять, заболеет ли он в будущем и почему, чтобы мы могли его вылечить.
Оптимизм в отношении потенциала цифровых двойников в медицине подкрепляется нашей нынешней способностью прогнозировать погоду, которая поразила бы Эббе. Мы воспринимаем ежедневные прогнозы как нечто само собой разумеющееся, но этот подвиг на стезе предсказания поистине выдающийся. Маркус Коверт из Стэнфордского университета, разработавший виртуальные клетки, заметил: «Прогнозирование таких бедствий, как ураган «Сэнди», за десять дней до выхода на берег – с соответствующей эвакуацией сотен жителей, спасающей как жизни, так и имущество, – возможно, стоит причислить к величайшим техническим триумфам в истории человечества»[12].
Что касается прогнозов климата, разрабатываются планы по созданию «цифрового двойника» Земли, который будет моделировать атмосферу, океан, ледники и сушу с разрешением в 1 км, предоставляя прогнозы рисков наводнений, засух и пожаров, а также океанских вихрей, которые перемещают тепло и углерод по планете. Эта европейская модель (Destination Earth) объединит другие данные, такие как использование энергии, структуру дорожного движения и перемещения людей (отслеживаемые с помощью мобильных телефонов), чтобы показать, как изменение климата повлияет на общество и как общество может изменить его траекторию во времени, которое некоторые уже называют антропоценом – геологической эпохой, когда человеческая деятельность оказывает значительное влияние на нашу планету[13].
Подробности создания цифрового двойника планеты Земля ошеломляют. Возьмем, к примеру, облака. Они состоят из воды, которая также является основным компонентом человеческого тела (около 68 %)[14]. Однако, в отличие от нас, облака кажутся простыми – огромные шлейфы капель воды или кристаллов льда, плывущие по небу. Их формирование имеет решающее значение для нашей способности предсказывать погоду, важно для нашего понимания последствий глобального потепления и занимает центральное место в спорных схемах сдерживания изменения климата с помощью геоинженерии[15].
От пучков кучевых облаков причудливых форм до огромных серых пластов – облака являются прекрасным примером того, как сложность может возникнуть из простоты – капель воды, переносимых воздушными потоками в результате конвекции. Когда эти капли конденсируются внутри облаков, выделяется немного тепла, что поддерживает облака в воздухе. На больших высотах, где температура падает значительно ниже нуля, капли превращаются в кристаллы льда, придавая облакам тонкий, перистый вид.
Внутри облака процессы наименьшего масштаба управляют образованием капель. Но, хотя эти особенности и взаимодействия микроскопичны, они имеют крупномасштабные макроскопические эффекты. Чем меньше и многочисленнее капельки, тем сильнее рассеивается свет. На уровне микрометров турбулентность ускоряет образование облаков и вызывает ливни[16]. Крупномасштабные движения воздуха могут создать обширные облачные системы, которые могут охватить весь континент. Отражая свет в космос, облака могут охлаждать поверхность Земли, поэтому некоторые считают, что их следует взращивать, чтобы помочь обуздать безудержное глобальное потепление[17].
По существу, все законы, лежащие в основе формирования облаков, известны, поэтому мы должны быть в состоянии представить, как они развиваются, с помощью известных математических уравнений. Мы надеемся добиться того же для виртуальных людей, вплоть до последней молекулы воды. Это кажется настоящей фантастикой, но оптимизм по поводу способности математики описать теплый, сложный и динамичный мир тела, существует не первое столетие. Английский врач Уильям Гарвей (1578–1657) в своей демонстрации кровообращения опирался на расчеты[18], а в 1865 г. французский физиолог Клод Бернар (1813–1878) заявил, что «применение математики к природным явлениям является целью всей науки»[19].
Наша способность создать виртуальную копию человека зависит от описания тела языком математики. Несмотря на то что работа еще продолжается, уравнения, написанные с использованием математического анализа и выражающие скорость изменений, уже могут отображать сложные процессы, открытые молекулярными биологами, клеточными биологами и многими другими представителями биологических наук. Эти математические выражения – обычные дифференциальные уравнения и уравнения в частных производных – могут в любой момент описать, как меняется кровяное давление в зависимости от того, где в организме вы проводите измерения, или движение электрического импульса, проносящегося по нейрону в мозге, или насколько быстро вирус проникает в дыхательные пути человека.
Чтобы заставить эти уравнения работать, все, что нужно для начала расчетов, – это граничные условия для рассматриваемой задачи. Под условиями может подразумеваться состояние нейрона или инфицированной клетки в данный момент или в различные промежутки времени, скорость их изменения в различные моменты времени или верхний и нижний пределы данной величины. Эти условия привязывают математику к реальности, поэтому мы можем делать прогнозы о теле или «медицинские прогнозы» по аналогии с погодой.
Но хотя мы признаем, что законы природы универсальны, в ключевом и практическом смысле науки о жизни, – под которыми мы подразумеваем биологию и медицину, – весьма отличаются от физических наук – физики и химии, – которые мы используем для описания облаков. Они более эмпиричны, больше зависят от измерений и экспериментов и до сегодняшнего дня меньше всего зависели от теоретического понимания.
Теория (то есть математическое представление законов природы) в медицине и биологии играет меньшую роль. Даже теория эволюции Дарвина – Уоллеса, которую некоторые считают величайшей научной теорией из всех, не допускает математического описания. Может показаться шокирующим, но реальность такова: хотя с XIX в., когда Грегор Мендель изучал горох, были сделаны основные предсказания о закономерностях наследования, ход эволюции невозможно предсказать каким-либо количественным способом[20].
Некоторые влиятельные фигуры слишком хорошо осведомлены об этом недостатке. Пол Нерс, директор Института Фрэнсиса Крика в Лондоне и бывший помощник редактора Journal of Theoretical Biology, рассказал нам, как ему надоело читать статьи, в которых умные технологии используются для проведения измерений, но «почти не приводят к каким-либо значимым выводам»[21]. В обзорной статье для журнала Nature он процитировал Сиднея Бреннера (1927–2019), своего старого друга и коллегу-нобелевца: «Мы тонем в море данных и жаждем знаний»[22]. Нерс жаловался, что важностью теории и принципами жизни пренебрегают в пользу зубрежки фактов, установок и информации. В биологии «есть идеи, так почему же мы о них не говорим?»
Однако биология, как и остальная наука, несомненно, подчиняется законам природы. Конечно, существуют области запретные по моральным и этическим соображениям, основанным на человеческих аргументах, но есть абсолютно все основания полагать, что мы должны быть в состоянии понять конкретный научный аспект того, как работает организм, и выразить это понимание в математической форме. Чтобы создать виртуального человека, биологии нужно выйти за рамки нынешнего использования теории для проведения апостериорных рационализаций после самих исследований и перейти к использованию теории для руководства экспериментами и прогнозирования.
Объединяя науку
Наука балканизирована. Идея разделения академических исследователей на племена восходит к Древней Греции, где жили Сократ (ок. 469–399 гг. до н. э.), его ученик Платон (ок. 428–347 гг. до н. э.) и, в свою очередь, ученик Платона Аристотель (384–322 гг. до н. э.)[23]. Однако через несколько десятилетий Тимон из Флиунта (ок. 320–230 гг. до н. э.) жаловался на ссоры «книжных монастырей» в Александрийском музее. К XVI в. Фрэнсис Бэкон (1561–1626) и другие философы оплакивали раскол человеческого знания.
К середине XIX в. дисциплинарные границы укоренились, каждая обладала своими обычаями, языком, потоками финансирования, учреждениями и практикой. В «Виртуальный ты» мы намерены показать, что сегодняшние исследования – больше, чем просто набор разрозненных усилий. Это грандиозная и взаимодополняющая мозаика данных, моделей, механизмов и технологий. Проступает общая картина того, как работает человеческое тело.
Поскольку не существует единственно верного восприятия человеческого тела, важна каждая точка зрения из каждой дисциплины. Они дополняют друг друга, и, если последовательно объединять их, могут возникнуть новые замечательные идеи. Если мы посмотрим, например, на великую революцию в молекулярной биологии, произошедшую в 1950-х гг., когда физики и химики занялись биологией, а биологи использовали методы, разработанные физиками, то увидим, что этот жизненно важный атомный взгляд на белки, ферменты и другие молекулы живых существ прекрасно дополняет существующие представления о наследственности и эволюции, создавая мощную унификацию знаний, известную как совпадение индуктивных обобщений.
Простая идея, лежащая в основе этой книги, заключается в том, что конвергенция многих отраслей науки – данных о пациентах, теории, алгоритмов, искусственного интеллекта и мощных компьютеров – ведет медицину в новом направлении, количественном и прогнозирующем. Мы покажем, как математика может охватить необычайный спектр процессов, происходящих в живых существах, взвесим разработки в области аппаратного и программного обеспечения, а затем покажем, как человеческое тело можно изобразить in silico, держа в руках цифровое зеркало, отражающее наше возможное будущее.
Эта история основана на междисциплинарных идеях, которые мы изложили в наших предыдущих книгах The Arrow of Time[24] и Frontiers of Complexity[25]. В первой мы обсуждали, как решить глубокую проблему, лежащую в основе науки: время представляется по-разному во многих теориях и масштабах, от микроскопического до макроскопического. В последней мы показали, как сложность математики, физики, биологии, химии и даже социальных наук меняет не только наше представление о Вселенной, но и сами предположения, лежащие в основе традиционной науки, и насколько важны компьютеры, если нам предстоит изучить и понять эту сложность. Нигде это не является более актуальным, чем в попытках создать виртуального человека. В «Виртуальный ты» мы объединяем эти идеи в широкий спектр исследований, как исторических, так и современных.
Виртуальный ты
Это первый отчет глобальной кампании по созданию виртуального человека, ориентированный на широкого читателя. За последние два десятилетия сотни миллионов долларов были потрачены на работу в рамках таких инициатив, как международный проект «Физиом»[26], «Цифровой двойник онкологического пациента» в США[27], европейский «Виртуальный физиологический человек»[28], проект «Человеческий мозг»[29] и еще один общеевропейский проект, возглавляемый Университетским колледжем Лондона, в который мы оба вносим свой вклад, – «Вычислительная биомедицина», или сокращенно CompBioMed.
Все объединяет одна цель. Как было заявлено на одном из семинаров, состоявшемся в Токио: «Пришло время начать грандиозный проект. В течение следующих 30 лет будет создана всеобъемлющая, основанная на молекулах, многомасштабная вычислительная модель человека («виртуальный человек»), способная с разумной степенью точности моделировать и прогнозировать последствия большинства отклонений, имеющих отношение к здравоохранению»[30]. Видение было обнародовано более десяти лет назад – в феврале 2008 г., – и это будущее быстро приближается.
На следующих страницах мы отправим вас в фантастическое путешествие по телу, его системам органов, клеткам и тканям, а также по деформируемым белковым машинам, которые всем управляют. Мы надеемся убедить вас, что в ближайшие десятилетия виртуальные двойники клеток, органов и популяции виртуальных людей будут формировать здравоохранение. Этот организующий принцип медицины XXI в. впервые позволит врачам предвидеть и предсказывать, что вас ждет, включая эффекты предлагаемых методов лечения. Это резко контрастирует с сегодняшним подходом, при котором врачи, по сути, действуют с оглядкой на то, что случилось с похожими (хотя и неидентичными) пациентами в аналогичных (хотя и неидентичных) обстоятельствах.
В долгосрочной перспективе виртуальные клетки, органы и люди – наряду с популяциями виртуальных людей – помогут превратить нынешнее поколение универсальной медицины в медицину, по-настоящему персонализированную. Ваш цифровой двойник поможет понять, какие формы питания, физических упражнений и образа жизни обеспечат вам самое здоровое будущее. В конечном счете появление цифровых двойников может проложить путь к методам улучшения вашего тела и будущего. Как мы обсудим в заключительной главе, виртуальные люди будут держать зеркало, чтобы отразить лучшую версию вас.
Первые четыре главы посвящены фундаментальным шагам, необходимым для создания цифрового двойника: сбору разнообразных данных о теле (глава первая); разработке теории, чтобы разобраться во всех этих данных (глава вторая), использованию математики, чтобы понять фундаментальные ограничения моделирования, использованию компьютеров, чтобы вдохнуть жизнь в математическое понимание человеческого тела (глава третья); объединению естественного и искусственного интеллекта для интерпретации данных и формирования нашего понимания (глава четвертая).
В главах с пятой по восьмую мы показываем последствия этих шагов и начинаем создавать цифрового двойника – от виртуальных инфекций (глава пятая) до клеток, органов, метаболизма и тел. Попутно, в шестой главе, мы встречаемся с пятым шагом, необходимым для создания виртуального человека. Можем ли мы объединить различные математические модели разных физических процессов, происходящих в разных областях пространства и времени внутри тела? Мы можем, и возможность настраивать виртуальное сердце так, чтобы оно соответствовало сердцу пациента, является одним из выдающихся примеров (глава седьмая), наряду с моделированием тела и его систем органов (глава восьмая). В девятой главе мы обсуждаем «Виртуального тебя 2.0», когда следующее поколение компьютеров преодолеет недостатки нынешнего поколения «классических» цифровых компьютеров.
В последней главе мы рассматриваем множество возможностей, а также этические и моральные проблемы, которые создадут виртуальные люди. Цифровые двойники бросят вызов тому, что мы подразумеваем под такими простыми терминами, как, например, «здоровый». Действительно ли вы здоровы, если ваш цифровой двойник предсказывает, что без лечения или изменения образа жизни вы не проживете свою потенциальную продолжительность жизни? Вы можете чувствовать себя «хорошо», но действительно ли вы здоровы, если моделирование предполагает, что вам суждено провести в доме престарелых на десять лет дольше, чем необходимо? Если виртуальный человек может стать субстратом человеческой мысли, как мы будем относиться к нашей цифровой копии? Наконец, в приложении мы рассматриваем провокационный вопрос, возникающий при использовании компьютеров для моделирования мира: возможно ли воссоздать фундаментальную физику космоса с помощью простых алгоритмов?
Рисунок 3. Виртуальный анатомический близнец. Одна из подробных анатомических моделей высокого разрешения, созданных на основе данных магнитно-резонансной томографии добровольцев (IT’IS Foundation)
Итак, переходим к первой из наших основополагающих глав. Она ставит самый главный вопрос: если мы хотим создать цифровых двойников, насколько хорошо нам нужно знать самих себя? Чтобы создать виртуального человека, нам необходимо понять, какого рода данные и какого объема достаточно для анимации цифрового двойника с помощью компьютера.
Как однажды заметил Аристотель, познание себя есть начало всякой мудрости.
Глава 1
Мерило себя
«Искусство Картографии достигло у них в Империи такого совершенства, что Карта одной-единственной Провинции занимала целый Город, а карта Империи – целую Провинцию. Со временем эти Несоразмерные Карты нашли неудовлетворительными, и Коллегия Картографов создала Карту Империи, которая была форматом в Империю и совпадала с ней до единой точки».
ХОРХЕ ЛУИС БОРХЕС, «О СТРОГОЙ НАУКЕ»[31][32]
Чтобы создать виртуальную версию тела, первым делом нужно собрать достаточно личных данных. Существует множество потенциальных источников для получения этих данных: ультразвуковое сканирование сердца и других внутренних органов или визуализация всего тела с использованием рентгеновских лучей или магнитно-резонансной томографии (МРТ). Вы можете использовать различные – омы, будь то детальная последовательность ДНК (геном), химические детали вашего метаболизма (метаболом) или весь набор белков (протеом). Ваши личные данные могут включать в себя и незнакомые характеристики (такие как особая форма важного фермента), и более рутинные измерения (например, артериальное давление), а также «цифровые биомаркеры», которые можно собирать с помощью носимого устройства, будь то телефон, часы или рубашка из «умного» текстиля, контролирующего потоотделение[33]. Способы можно перечислять почти бесконечно.
Но сколько и какие именно данные нам нужны? Один из ответов можно найти в рассказе аргентинского эссеиста Хорхе Луиса Борхеса, процитированном выше. В этом кратчайшем из рассказов Борхес рисует в воображении время, когда наука картографии стала настолько точной, что достаточной считалась только карта того же масштаба, что и сама империя. Пусть в эпоху интернета подробнейшие карты и могут уместиться на экране смартфона, действительно ли нам необходимо дублировать на них каждый камешек в асфальтовом покрытии, чтобы не разбиться на дороге?
В какой степени науке необходимо представить человеческое тело, чтобы понять его? Когда дело доходит до создания виртуального человека, должны ли мы, как Суарес Миранда, фиксировать все 7 000 000 000 000 000 000 000 000 000 (7 октиллионов) атомов в теле, не говоря уже обо всех деталях еще большего скопления простых частиц – вращающихся протонов, нейтронов и электронов, – которые составляют каждый из атомов? Решая, сколько данных нам нужно, чтобы сделать первый шаг к созданию цифрового двойника, сможем ли мы не утонуть в данных, избежать проклятия гильдии картографов?
Есть и другие вопросы, которые следует рассмотреть. Мы ищем данные, которые можно измерить где угодно, с использованием одного оборудования, в одинаковых условиях и по одним и тем же протоколам. Даже разные люди, использующие разное оборудование, должны прийти к схожим результатам в одинаковых условиях[34]. Нам необходимо собирать эти данные эффективным и современным способом: науку всегда подстегивает разработка новых инструментов, таких как микроскопы, секвенаторы и сканеры. Существуют также проблемы с курированием, хранением и защитой данных. И, конечно же, возникают практические вопросы по обработке всех этих данных: даже самый мощный компьютер, который появится в ближайшие десятилетия, не сможет смоделировать молекулярный уровень человеческого тела, который, по оценкам, состоит из примерно от 20 000 000 000 000 000 000 000 000 до 1 000 000 000 000 000 000 000 000 000 молекул.
Мерило себя
Интуитивно кажется разумным предположить, что, чтобы создать виртуальную версию, нам нужно знать о вас все, что только можно. Но измерить состояние всех молекулярных ингредиентов (не говоря уже обо всех составляющих вас атомах) – непростая задача. Сколько же данных будет достаточно? Хватит ли знания, что ваше тело состоит примерно из 20 000 генов? Или что в нем трудится замечательный коллектив из 37,2 триллиона клеток[35]? Или что ваш мозг весит 3 фунта и требует около 20 Вт энергии? Или что молекулы в вашем теле представляют собой различные смеси из примерно 60 атомов разных видов (элементов), включая 25 г магния, содержащегося в костях и мышцах, 1,6 мг кобальта, содержащегося в витамине B12, 4 мг селена и 96 г хлора[36]? Или что нужно около 1011 бит (100 000 000 000 бит), чтобы выразить сканирование вашего тела длиной до 1 мм? Или что понадобится 1032 бит (единица, за которой следуют 32 нуля) информации, чтобы описать ваше тело с атомарным разрешением?
Данные не равнозначны. Особенно показательные данные включают «эмерджентные» свойства, которые отражают коллективное поведение большого числа микроскопических составляющих, где сумма качественно отличается от поведения частей. Свою первую книгу мы начали с австрийского физика Людвига Больцмана (1844–1906), продемонстрировавшего, как свойства жидкостей и газов возникают из поведения составляющих их молекул, что помогло открыть область, которую сегодня называют статистической механикой. Питер Слоот, который работает с Питером в Амстердамском университете, описывает эмерджентность с точки зрения взаимодействующих элементов, адаптирующихся к среде, которую сами помогают создать[37]. Пол Нерс определяет эмерджентность как взаимодополняемость: высокие уровни биологического описания (например, уровень клетки) ограничивают события, которые происходят на низких уровнях (например, среди молекул жизни). «В результате, – сказал он нам, – вы никогда не сможете построить жизнь просто снизу вверх»[38].
Из множества примеров в биологии, где целое больше суммы частей, наиболее яркими являются сама жизнь и сознание. Хотя мозг может быть счастливым, его нейроны не ограничены эмоциями. Точно так же бактерия жива, а составляющие ее молекулы – нет. Даже если бы мы знали все молекулярные детали организма, вплоть до последнего атома, мы не могли бы сказать, что это и есть рецепт живого существа.
Следствием эмерджентности является то, что переносить знание обо всем с одного уровня описания (октиллионы атомов, составляющих тело) на другой (например, одна клетка) – непрактично, не нужно и все равно недостаточно. И если бы мы попытались смоделировать движения сердца, начав с атомного уровня, мы бы обнаружили, что моделирование может занять целую вечность, даже с использованием самых мощных компьютеров. Нет смысла создавать идеальную – в редукционистском смысле – модель сердца вплоть до последнего атома, если одно виртуальное сердцебиение этой модели занимает тысячелетия.
Наука о сложности также говорит нам, что видеть каждую деталь не нужно[39]. Мы интуитивно знаем это, потому что медицина иногда концентрируется на элементарных вопросах, таких как уровень натрия или железа, но диагностика обычно фокусируется на высоких уровнях описания: от рентгена костей до артериального давления и частоты сердечных сокращений. Чтобы понять науку о человеке, нам нужно гораздо меньшее количество данных с низких (то есть наименьших) уровней, чем кажется. Более того, сосредоточив внимание на каждом листике, ветке и дереве, мы легко можем упустить лес.
Хотя наши знания о том, как работает человеческое тело, зависят от понимания его составных частей, очень важно осознавать, как все эти части работают вместе, если мы хотим ухватить его эмерджентные свойства. Даже если мы поймем роль ДНК в клетке (в настоящее время мы понимаем лишь небольшую часть ее функций) и функцию этой клетки в органе, это не означает, что мы сможем выяснить физиологию организма, поскольку на каждую клетку влияет активность клеток других тканей, органов и систем органов. Когда речь идет о патогенах, таких как вирусы, нам также необходимо понимать их перемещение между организмами, как при пандемии. А еще есть способы, которыми организмы взаимодействуют друг с другом, будь то вирус в хозяине, человек в деревне или избирательный округ в обществе, которое само по себе является огромным субъектом. Роджер Хайфилд является соавтором целой книги Supercooperators о том, как и почему люди являются видом, наиболее склонным к сотрудничеству[40].
И даже если не брать это в расчет, на все уровни организации влияют окружающая среда, диета и образ жизни: воздействие солнечного света, стресс, фастфуд и физические упражнения. С самых первых дней моделирования физиологии человека мы обнаружили доказательства «нисходящей причинности», то есть того, как воздействие на высокие уровни организации тела может изменить способ использования генов в клетках. Мы можем быть носителями генов, повышающих риск развития диабета 2-го типа, но если мы соблюдаем здоровую диету и достаточно занимаемся спортом, болезнь может не развиться. Точно так же кто-то может нести гены, которые снижают риск развития рака легких, но постоянное курение все равно имеет катастрофические последствия. Биология человека – это больше чем просто сумма природы и воспитания.
От порядка к хаосу
Появление новых организованных атрибутов и структур из взаимодействующей системы клеток, тканей и органов в данной среде – светлая сторона теории сложности. Однако существует и темная сторона в форме так называемого динамического хаоса. Он накладывает еще одно ограничение на то, в какой степени мы можем превратить данные о человеческом теле в его понимание.
Динамический хаос – не то же самое, что случайность. На самом деле это тонкая форма порядка, освобожденная от оков периодичности и предсказуемости. Хаос может возникнуть из обманчиво простых на вид уравнений, содержащих ключевой ингредиент – нелинейность, когда изменение результата не пропорционально изменению входных данных. Примеров нелинейности предостаточно: от скачка температуры, вызывающего отключение котла, до воя, возникающего, когда микрофон подносится слишком близко к источнику звука. Нелинейность может привести к хаосу, когда точное поведение невозможно предсказать в долгосрочной перспективе.
Хаос является обычным явлением: от непредсказуемых колебаний маятника до капризов погоды[41]. Хаос таится и внутри тела. Проблема динамического хаоса заключается в том, что, если вы не вводите данные с бесконечной точностью (что невозможно), эти сложные нелинейные взаимодействия делают невозможными точные долгосрочные прогнозы. Таким образом, хотя вам не обязательно знать все о теле, чтобы его смоделировать, когда нам придется формулировать прогнозы с точки зрения вероятностей, небольшие изменения в данных могут привести к большим, непредсказуемым результатам.
Инструментальные данные
Чтобы определить, в какой степени мы хотим охватить всю сложность человеческого тела и сделать первый шаг к виртуальному двойнику, нам нужно думать о данных как об инструменте, а не о репрезентации. По той же причине карты различаются в деталях в зависимости от цели их применения: путешественнику необходимо видеть каждое поле и тропинку, а пилоту самолета нужна карта местности, аэропортов, воздушных пространств и маяков. Точно так же уровень детализации, который нам необходим, чтобы сделать первый шаг к созданию виртуального человека, зависит от того, какие задачи мы хотим решить.
Простого измерения, например, температуры может быть достаточно, чтобы выяснить, подхватил ли ребенок инфекцию. Но у пожилых людей нам могут потребоваться более подробные данные о том, как они реагируют на инфекцию, чтобы понять, что происходит. Например, когда речь идет о серьезной инфекции мочевыводящих путей, первым признаком проблемы может быть спутанность сознания, а не повышение температуры. И если нужно понять, какая инфекция вызывает проблему, требуются дополнительные данные, такие как генетический состав инфицирующего организма.
Данные действительно полезны, когда основаны на научном методе – самом мощном способе обеспечить рациональное понимание того, как работает организм. Он опирается на теорию; в противном случае наука была бы не более чем каталогизацией воспроизводимых наблюдений. Как мы упоминали во введении, уравнения типичной теории представляют работу природы более экономично, чем огромные хранилища необработанных данных. Теория помогает нам раскрыть принципы и законы, которые объясняют, как и почему тело работает именно так. Нам еще предстоит сказать об этом в следующей главе, где мы обсудим второй шаг к виртуальному человеку. Однако прежде всего необходимо найти способы сбора данных из тела.
Краткая история анатомии
«Так многое в прогрессе зависит от взаимодействия методов, открытий и новых идей, вероятно, именно в таком нисходящем порядке». Когда лауреат Нобелевской премии Сидней Бреннер сделал это замечание в марте 1980 г. на симпозиуме, организованном Институтом Фридриха Мишера в Базеле, Швейцария, он с нетерпением ждал следующего десятилетия в биологии[42]. Как предсказывал Бреннер, развитие виртуального человека было обусловлено новыми технологиями и продолжает зависеть от большего количества новых данных. Когда дело доходит до структур тела, целый ряд методов раскрывает беспрецедентные детали.
Рисунок 4. Портрет Везалия из его книги De Humani Corporis Fabrica (1543) (автор Ян ван Калькар)
Перечислять их можно бесконечно, за века появилось множество замечательных способов рассмотрения тела. Одним из примеров является публикация в 1543 г. De Humani Corporis Fabrica («О строении человеческого тела») Андреаса Везалия – выдающегося 700-страничного труда (1514–1564), в котором представлено более 200 гравюр на дереве, основанных на вскрытиях человеческого тела.
Чтобы расширить знания о диссекции и традиционной анатомии, был разработан широкий спектр методов. «Микрография», первая важная работа по микроскопии, была опубликована в 1665 г. В этом новаторском научном бестселлере Роберт Гук (1635–1703) раскрыл микроскопическую структуру пробки. Он показал стенки, окружающие пустые пространства, и назвал эти структуры клетками. Сегодня с помощью технологий микроскопии можно рассмотреть детали клеток вплоть до атомного масштаба[43].
Нам больше не нужно изучать тело только с помощью видимого света. В 1895 г. немецкий физик Вильгельм Рентген (1845–1923) открыл невидимый вид лучей, названный рентгеновским излучением или рентгеновскими лучами. В то Рождество он написал 10-страничную статью, в которой описал, как рентгеновские лучи могут сделать кости видимыми. Эти раскрывающие лучи также позволят изучить молекулярный механизм клеток с помощью метода, называемого дифракцией рентгеновских лучей. Сегодня существует множество других методов, позволяющих заглянуть внутрь живого тела: от терагерцового излучения до ультразвука. Мы даже можем использовать антивещество в виде позитронов (антиэлектронов) для изучения метаболизма.
В организме есть электрическая система, и о ней тоже нам нужны данные. В то время как по проводам электричество движется со скоростью около 1 мм/с (хотя связанная с ним электромагнитная волна распространяется примерно со скоростью света, 300 000 км/с), сигналы в нашем теле движутся со скоростью 0,08 км/с, или около 290 км/ч. Внутри нас электричество переносится более крупными и сложными ионами, а не проворными электронами (заряженными субатомными частицами), которые питают наши дома.
Исследования того, как импульсы распространяются по нервам, восходят к разработке метода «зажима напряжения» в 1930-х и 1940-х гг. биофизиком Кеннетом Коулом (1900–1984) из США вместе с Аланом Ходжкином (1914–1998) и Эндрю Хаксли (1917–2012) из Великобритании, которые нашли способ проводить измерения, продевая электроды в гигантский аксон – нервную клетку – кальмара.
Рисунок 5. Клеточная структура пробки, представленная Робертом Гуком, «Микрография» (1665)
Еще лучшее понимание «проводки» тела стало возможным благодаря технике, которая позволяет регистрировать мизерные электрические токи силой около пикоампера (миллионная миллионной доли ампера), которые проходят через одиночный ионный канал, одну молекулу или комплекс молекул, позволяющий ионам проникать через мембрану клетки. В 1976 г. немецкие клеточные физиологи Эрвин Неер и Берт Закман сообщили, как это сделать с помощью крошечного, но простого устройства, называемого локально-изолирующим электродом.
Они использовали кончик чрезвычайно тонкой стеклянной пипетки, чтобы прикоснуться к крошечному участку внешней мембраны клетки, который, по счастливой случайности, содержал единственный ионный канал. Небольшое всасывание обеспечивало герметичное уплотнение, так что ионы могли течь только из канала в пипетку. Используя чувствительный электрод, они смогли зафиксировать крошечные изменения тока, когда ионы проходили через зажатый канал. За это замечательное открытие в 1991 г. Неер и Закман получили Нобелевскую премию.
Но данные, которые привлекли наибольшее внимание в последние годы, связаны с чтением генетического кода человека. За это мы можем поблагодарить британца Фредерика Сэнгера (1918–2013), одного из величайших новаторов в молекулярной биологии: «Из трех основных видов деятельности, связанных с научными исследованиями – мышлением, разговорами и действиями, я предпочитаю последний и, вероятно, именно он у меня лучше всего получается»[44]. Он был прав. Став первым, кто раскрыл структуру белка (это оказался инсулин), Сэнгер в середине 1970-х разработал методы секвенирования ДНК, за что во второй раз стал лауреатом Нобелевской премии.
Со времени новаторской работы Сэнгера стоимость секвенирования человеческого генома (генетического кода в ДНК человека) резко упала – с миллиардов долларов до сотен. Одной из причин является появление секвенирования «следующего поколения» – прорыва, который сравнивают с переходом от самолета братьев Райт к современному Боингу.
В 1997 г. химики Кембриджского университета Шанкар Баласубраманиан и Дэвид Кленерман начали разрабатывать свой метод, согласно которому образец ДНК делится на фрагменты, которые иммобилизуются на поверхности чипа и локально амплифицируются. Затем каждый фрагмент декодируется, вплоть до «буквы» генетического кода (нуклеотида – подробнее позже), с использованием флуоресцентно окрашенных букв, добавленных ферментом. Обнаружив цветные буквы, включенные в каждую позицию чипа, и повторив этот цикл сотни раз, можно прочитать последовательность каждого фрагмента ДНК[45].
Рисунок 6. Метод локальной фиксации потенциала. Адаптировано из книги Александра Д. Рейеса «Прорывной метод, который стал жизненно важным для нейробиологии» (A Breakthrough Method that Became Vital to neuroscience). (Nature, 2019)
Еще одно достижение в области секвенирования нового поколения относится к 1970-м гг., когда Стив Хладки и Денис Хейдон из Кембриджа зафиксировали поток тока через одиночный ионный канал в искусственной мембране. Поскольку ДНК является заряженной молекулой, она также может пройти через этот открытый канал и при прохождении вызывает колебания тока, соответствующие генетической последовательности. Последующее развитие коммерческого «нанопорового секвенирования» компанией Oxford Nanopore Technologies (в частности, ее основателем Хэганом Бэйли) можно проследить до исследований 1980-х гг., когда впервые было обнаружено движение ДНК через поровые белки[46].
Используя новую технологию секвенирования, можно считывать значительно более длинные участки ДНК, чем ранее, поэтому в 2021 г. международная группа из 30 учреждений – Консорциум Telomere-to-Telomere (T2T) – опубликовала первый «длинно читаемый» геном[47]. Это было важное открытие, поскольку исторический проект последовательностей человеческой ДНК, опубликованный в июне 2000 г., пропускал целых 15 % генома: более ранние технологии секвенирования параллельно считывали код миллионов фрагментов ДНК, каждый из которых был относительно небольшим и содержал до 300 букв кода. В результате они не могли справиться с повторяющимися участками кода ДНК, скрывающимися в геноме, особенно с центромерами – защемленными частями хромосом, которые играют ключевую роль в делении клеток. Сквозная последовательность 2021 г., основанная на длинном чтении от 10 000 до 100 000 букв, выявила 115 новых генов, кодирующих белки, и, вероятно, содержит множество областей, которые играют роль в регуляции генов и других функциях.
Рисунок 7. Как ДНК, проходящая через канал нанопоры, генерирует сигнал (дизайн – Ёритака Харазоно. TogoTV. cc BY 4.0)
Код жизни
Два десятилетия назад, когда на горизонте появились детали всего генетического кода человека, вопрос о том, какие данные необходимы для определения человеческого существа, имел соблазнительно простой ответ. Детали сложной структуры тела, казалось, заключены в ДНК – самом известном биологическом носителе информации. В начале этого столетия общественность была убеждена, что понимание кода ознаменует эру персонализированной медицины.
Биологи знали, что человеческий геном является чрезвычайно важным ресурсом, и в этом не может быть никаких сомнений. Копия находится в каждой из ста триллионов ваших клеток (за исключением красных кровяных клеток – они разрушают свою ДНК, чтобы переносить как можно больше кислорода, оставаясь при этом достаточно маленькими, чтобы проходить через капилляры). Подобно томам вашей «библиотеки», ДНК упакована в коробки, известные как хромосомы. Обычно в клетках человека имеется 46 хромосом. Если взять самую большую хромосому (вторую), то ДНК, содержащаяся в ней, в развернутом виде будет иметь размер более 8 сантиметров[48].
Используя рентгеновские лучи для изучения скрученной спиральной ДНК в каждом из этих пучков, можно понять, как она передает данные. Внутри двойной спирали ДНК находится лестница закодированной информации, где каждая «ступенька» состоит из двух химических единиц, называемых нуклеотидными основаниями. Эти единицы бывают четырех типов: аденин А, тимин Т, гуанин G и цитозин С. Из-за своей формы и химических свойств основания всегда образуют пары внутри ступени одинаковым образом: C соединяется только с G, а A соединяется только с T. В наших 46 хромосомах шесть миллиардов таких букв.
Вот почему двойная спираль также хранит секрет того, как клетки могут передавать свои инструкции после деления: если разделить нити двойной спирали, ступеньки лестницы разделятся на взаимодополняющие основания. Каждая полученная цепь может действовать как шаблон для копирования исходной партнерской цепи и сохранять информацию о том, как создавать белки, которые строят тело и управляют им (с помощью множества механизмов коррекции клеточных ошибок).
Порядок, в котором появляются основания, описывает код жизни аналогично буквам в этом предложении, только сообщения, которые они несут, содержат инструкции по созданию белка – одного из строительных блоков клеток – посредством вмешательства родственной генетической молекулы, называемой РНК. Информация в генах записана в трехбуквенном коде, причем тройка букв ДНК – кодон – отвечает за определенную аминокислоту, которая при соединении с цепочкой других аминокислот сворачивается в белок – один из блоков, которые строят ваши клетки и управляют ими.
Несмотря на то, что существует всего 20 различных аминокислот, для создания вас клетки вашего тела используют огромное количество комбинаций из таких разных белков, как гемоглобин (красный пигмент, который переносит кислород в вашей крови), инсулин (сигнальная молекула, которая сыграла главную роль в Нобелевской премии Сэнгера), или фермент АТФ-синтаза (преобразующая энергию молекулярная машина, примерно в 200 000 раз меньше булавочной головки, вращающаяся со скоростью 60 раз в секунду, производя энергетическую валюту нашего тела – молекулу под названием АТФ).
Всего, как говорилось ранее, в организме насчитывается около 37,2 триллиона клеток, и, хотя они (за парой исключений, таких как эритроциты по ранее упомянутым причинам) содержат всю информацию ДНК человека, каждый вид клетки во взрослом организме зависит от использования только определенного подмножества генов в геноме. Таким образом, клетки могут специализироваться на одном типе: от нервных и мышечных до клеток, населяющих органы, например мозг и сердце. Неудивительно, что многие думают, будто человеческий геном содержит все ответы, когда дело касается биологии человека.
За гранью ДНК
Первым человеком, который узнал о своих собственных генетических данных – и их ограничениях – был пионер геномики и предприниматель Крейг Вентер[49], который в 2000 г. возглавил частную попытку создать первый черновой вариант последовательности генома человека. 4 сентября 2007 г. группа под руководством Сэма Леви из Института Дж. Крейга Вентера в Роквилле, штат Мэриленд, завершила чтение генетического кода Вентера, что ознаменовало публикацию первого полного (шесть миллиардов букв) генома отдельного человека[50].
Роджер редактировал автобиографию Вентера «Расшифрованная жизнь»[51] и помнит, что даже Вентер был удивлен тем, как мало его геном смог раскрыть. В то время никто не знал, как правильно читать геномы. Это одна из причин, почему в более позднем проекте под названием Human Longevity Inc. (HLI) Вентер, как и Лерой Худ и другие, не только собрал геномную информацию, но и связал ее с фенотипами: анатомией, физиологией и поведением пациентов, от когнитивных онлайн-тестов до эхокардиограммы и анализа походки[52].
С помощью HLI скрининг выявил широкий набор дополнительных рисков возрастных хронических заболеваний, связанных с преждевременной смертностью, и улучшил интерпретацию полногеномного анализа[53]. «В клинике мы каждый день спасаем жизнь по крайней мере одному человеку, обнаруживая серьезную опухоль, о которой он даже не подозревал», – сказал нам Вентер, приводя несколько убедительных, но анекдотических примеров. В его случае, когда обычные методы объявили его свободным от рака, скрининг HLI выявил рак простаты, который начал распространяться. У нобелевского лауреата Хэма Смита, давнего сотрудника Вентера, обнаружили серьезную опухоль легких. Эти своевременные диагнозы были поставлены не на основе генетики, а с помощью мощного МРТ-сканера мощностью 3 Тесла (примерно в 60 000 раз сильнее, чем магнитное поле Земли) с расширенным анализом изображений. Вентер рассказал нам, что в этом сканере «опухоли загораются, как лампочки»[54].
Фенотип (то есть наблюдаемые черты и характеристики тела, от цвета глаз до рака) очень далек от генотипа или генетического рецепта тела. Думать, что единственный вид данных, обнаруженный в геноме, может раскрыть суть человека, – все равно, что пытаться определить внешний вид, вкус и ощущение торта по рецепту. Некоторые вещи – фрукты и смородина – сразу понятны, но многие другие гораздо менее очевидны.
Хотя секвенирование человеческого генома ознаменовало конец почти столетних усилий по поиску генов, кодирующих белки, оно подчеркнуло, как мало мы знаем о регуляторных элементах, не кодирующих белки, но составляющих геном[55]. Из трех миллиардов букв ДНК в геноме человека только около 2 % кодируют белки, которые строят и поддерживают наше тело. Хотя последние два десятилетия стали золотым веком открытия генов, около 20 % человеческих генов с жизненно важными функциями остаются окутанными тайной (согласно исследованию неизвестного генома, проведенному Шоном Манро из Лаборатории молекулярной биологии в Кембридже и Мэтью Фриманом из Школы патологии Данна Оксфордского университета)[56]. Нам предстоит еще много работы, помимо понимания генов. Когда-то интроны были среди огромных участков человеческой ДНК (около 98 %), отбрасываемых, как бессмысленный мусор. Теперь мы знаем, что эти некодирующие области генома содержат важные регуляторные элементы, которые определяют, как контролируется экспрессия генов, но всего мы по-прежнему не понимаем[57].
Также огромный всплеск интереса к использованию генов в организме произошел в области, называемой эпигенетикой. Деление клеток на разные типы связано с особенностями экспрессии генов, а не с изменениями в самой ДНК. Питательная среда начинается с хромосомы – пучка ДНК в наших клетках. Хромосомы четко организованы, как и белки, которые с ними взаимодействуют, и эта организация, по-видимому, важна для использования генов[58]. Паттерны использования генов могут быть основаны на химических модификациях ДНК (например, украсив ген химическими фрагментами, называемыми метильными группами, вы его выключите), а также на гистонах – крошечных белках, которые прикрепляются к ДНК, как бусины на ожерелье, и играют роль в упаковке ДНК и регулировании способа активации генов. В результате связь между генотипом и фенотипом не является прямой.
От ДНК к белку
Истории ДНК могут быть запутанными. Традиционные генетические исследования искали вариант ДНК, связанный с определенным заболеванием. Иногда все просто: мутации в гене, ответственном за фактор свертывания крови, вызывают наследственное заболевание – гемофилию, которую иногда называют королевской болезнью, поскольку она широко распространена в европейских королевских семьях.
Однако зачастую эти корреляции рассказывают сложную историю. Когда дело доходит до распространенных заболеваний головного мозга, таких как шизофрения и болезнь Альцгеймера, огромный объем информации поступает в результате полногеномного поиска ассоциаций (GWAS), в котором исследователи стремятся сравнить генетические последовательности тысяч людей с определенным признаком. Хорошей новостью является то, что сотни геномных регионов могут быть связаны с риском развития заболевания головного мозга у человека. Но иногда это триумф данных над пониманием. Объяснение того, почему спектр генетических вариантов влияет на здоровье, остается сложной задачей[59]. Даже если мы действительно связываем варианты с заболеванием, исследования диабета, например, показали, что на генетику приходится только около 10 % различий, наблюдаемых при заболевании, а остальное зависит от образа жизни и питания[60].
Сопоставление данных о генотипе с фенотипом осложняется тем фактом, что количество наших генов значительно превосходит количество белков. Гены можно перетасовать и использовать разными способами. Способность каждого гена кодировать множество белков обусловлена процессом, известным как альтернативный сплайсинг, при котором биты кода, называемые интронами, соединяются, а оставшиеся части гена, известные как экзоны, при создании белка могут включаться или бездействовать. Теоретически из одного гена можно получить до 100 белков[61].
Даже при кодировании участков ДНК не существует прямого соответствия между линейным кодом ДНК и трехмерной формой белков в организме, что имеет решающее значение для их работы – например, для ускорения клеточной химической реакции. Для белка, содержащего всего 100 аминокислот, число альтернативных структур, которые он может принять в водной среде клетки, колеблется где-то между 2100 и 10100 возможных конформаций (форм). Изучение каждой из них заняло бы вечность, но этот одномерный код приобретает правильную трехмерную форму (что имеет решающее значение для его работы) с помощью различных видов поддержки.
Одним из способов принятия правильной формы является непрерывное движение молекул в клетках, вызванное тепловой энергией. Многие из жизненно важных компонентов живой клетки достаточно малы, чтобы подвергаться постоянным ударам моря окружающих молекул (броуновское движение), что может помочь белку принять наиболее стабильную форму, даже если количество возможных стабильных конфигураций варьируется от миллионов до триллионов[62]. Кроме того, существует множество механизмов точной настройки того, как организм интерпретирует генетические данные и превращает их в белки.
Некоторые из способов, помогающие белкам сворачиваться в наших клетках, можно найти в замечательной молекулярной машине, называемой рибосомой, состоящей из примерно полумиллиона атомов и размером около одной миллионной дюйма в поперечнике. Эта машина лежит в центре двух эпох жизни на Земле: одной – знакомой, а другой – окутанной тайной. Первая состоит из сегодняшних живых существ, основанных на ДНК, а вторая отражает самые первые существа, которые делились и, как предполагается, основывались на РНК – тонком, но гибком виде генетического материала, который не только хранит информацию, но, в отличие от ДНК, также может катализировать химические реакции. Действительно, рибосома – это рибозим, фермент, состоящий из РНК, свернутой в сложную структуру.
Загляните глубоко внутрь рибосомы, как это сделали структурные биологи, и вы увидите древнее ядро, которое превращало инструкции в белки для построения живых существ на протяжении большей части четырех миллиардов лет. Там вокруг центрального механизма РНК, чтобы отточить его работу, развилась белковая оболочка, различная в зависимости от существа: например, наши рибосомы почти в два раза больше, чем у насекомых, которые нас заражают.
Для работы рибосомы необходимы различные ингредиенты: во-первых, молекула матричной РНК, которая несет в себе инструкции по созданию белка из ДНК. Чтобы превратить этот код в белок, рибосома использует второй тип РНК – транспортную, которая несет в себе строительные блоки белков, называемые аминокислотами.
Сейчас мы знаем атомные детали того, как рибосома превращает данные ДНК в плоть и кости, благодаря получившим Нобелевскую премию рентгеновским исследованиям Венки Рамакришнана в Великобритании, Ады Йонат в Израиле и Томаса Стейца в США. Они обнаружили, что рибосома состоит из трех разных молекул РНК и более 50 различных белков, разделенных на два компонента (60S/40S в наших клетках и 50S/30S у бактерий). Один из них – «мозг», считывающий генетический код, а другой – большое «сердце», производящее белок (рис. 8). Они расходятся и объединяются по мере того, как молекулярные связи создаются и разрушаются, производя белки, которые строят тело и управляют им.