В 1953 году Джеймс Уотсон и Фрэнсис Крик опубликовали в журнале Nature двухстраничную статью с заголовком "Молекулярная структура дезоксирибонуклеиновых кислот". В статье коротенечко сообщалось, что ДНК - это двойная спираль, нити которой состоят из нуклеотидов, букв "генетического текста", и удерживаются вместе эфемерными водородными связями. Примерно тогда же стало понятно, как ДНК воспроизводит свои копии, и был сформулирован ключевой для всей биологии принцип - центральная догма* молекулярной биологии.
*Ее автор, один из первооткрывателей молекулярной структуры ДНК Фрэнсис Крик, объяснял выбор этого слова желанием подобрать звучное название.
Эта догма гласит: ДНК является средоточием генетической (наследственной) информации и может служить инструкцией - матрицей для синтеза своей ближайшей родственницы РНК, рибонуклеиновой кислоты. Последняя содержит информацию, которая используется для синтеза белков, а уже те самостоятельно принимаются за дело, выполняя огромное разнообразие работ в клетке. Вольный пересказ центральной догмы молекулярной биологии на сем окончен.
Появление этой догмы ознаменовало наступление "нового времени" в науке о живом. Но заметьте: что догма, что открытия 1950-х выхватили, словно лучом прожектора, только самый центральный, основополагающий сюжет с участием ДНК - кодирующие последовательности в генах. Все остальное первооткрыватели структуры чудо-молекулы пренебрежительно назвали "мусорной ДНК" (англ. Junk DNA), оставив без внимания.
В последующие десятилетия некодирующей "темной материи" не придавали особого значения. Но время шло, не стоял на месте и научный прогресс - ученые понемногу узнавали о разнообразии процессов, происходящих внутри ДНК и с ее участием. Немало удивительного удалось узнать и о геноме в целом. Например, что весь генетический код представляет собой длинный текст, который записан 4-буквенным алфавитом. Это так называемые нуклеотиды: аденин - A, тимин - T, гуанин - G и цитозин - C.
Не так давно, на рубеже тысячелетий, чтобы получить полную версию этого сакраментального "текста", был создан огромный международный консорциум "Геном человека". На протяжении более чем 10 лет исследователи из 20 научных центров США, Великобритании, Японии, Франции, Германии, Испании и Китая и нескольких частных компаний сплоченно работали и ежедневно докладывали о своих успехах.
В результате огромной работы к 2003 году этот написанный природой и прочитанный человеком опус был наконец опубликован. В последовательности из 3 миллиардов букв* было найдено около 20-25 тысяч фрагментов - генов, - в которых непосредственно закодирована наследственная информация.
*Для сравнения: в 4-томном романе "Война и мир" всего-навсего около 750 тысяч знаков, включая знаки препинания и пробелы. Если разбить ДНК на отрезки, равные по числу знаков томам "Войны и мира", получится, что геном человека - это 16 000 таких томов.
Средняя длина гена - около 25-27 тысяч пар нуклеотидов. Если посчитать долю знаков всех генов от объема общего текста, получится около 2%. Если вычесть некодирующие элементы внутри генов, и того меньше. Но если в категорию "мусора" попало 98% генома, значит, этот мусор для чего-то да нужен?
Для сравнения: в 4-томном романе "Война и мир" всего-навсего около 750 тысяч знаков, включая знаки препинания и пробелы. Если разбить ДНК на отрезки, равные по числу знаков томам "Войны и мира", получится, что геном человека - это 16 000 таких томов.Проект "Геном человека" подарил много новых инструментов для работы с ДНК. Историки науки даже называют 2003 год началом новой эры в биологии - постгеномной. Менее чем за два десятилетия в арсенале учёных появились методы, позволяющие распознавать отдельный нуклеотиды при протягивании молекулы ДНК через нанопору, - в ХХ веке о таком не помышляли даже фантасты. И потихоньку наука начала разбираться с завалами "мусора".
Что же представляет собой это "молчаливое большинство" нашего генома?
Безусловно, нельзя говорить о ненужности и бессмысленности 98% генетического материала. Эту хаотичную и слабо понятную сейчас массу можно назвать не мусором, а скорее свалкой сокровищ.
Некодирующие области могут выполнять разные функции или не выполнять никаких. Чтобы попасть в эту огромную категорию, участкам ДНК достаточно не хранить в себе информацию о структуре РНК или белка.
Компоненты человеческого генома
Кодирующие области 2%
Интроны 26%
ДНК-транспозоны 3%
LTR-ретротранспозоны 8%
LINEs 20%
SINEs 10%
Микросателлиты 3%
Другие типы 28%
Непосредственно внутри кодирующих областей встречаются интроны. Это такие участки ДНК, которые сидят внутри генов, но при этом ничего не кодируют. В дальнейшем интроны безжалостно вырезаются и выбрасываются из уже из РНК (этот процесс называется сплайсингом). Обилие подобных побочных продуктов производства РНК характерно для эукариот: у них для генома есть специальный контейнер, способный вместить сколь угодно много сора, - ядро. В человеческой ДНК на интроны приходится аж четверть текста. У бактерий такого контейнера нет, их геномы более компактные и рационализированные.
За границами кодирующих областей встречаются два типа крайне важных последовательностей: промоторы и терминаторы. Первые обозначают место, откуда надо начать считывание гена, вторые - конец. Рядом могут находиться энхансеры и сайленсеры - своеобразные тумблеры, позволяющие настроить активность считывания гена. Регуляторные участки ДНК - важный тип некодирующих последовательностей, ведь такая сложная машина, как организм, должна, во-первых, правильно собирать себя в процессе развития и, во-вторых, оперативно реагировать на изменения состояния - своего собственного и окружающей среды.
"Ааааааааааааааааааааааааааааааааааааааааааааааааааа", - повторяет Владимир Сорокин несколько страниц в своем дебютном романе "Норма", используя бессмысленный повтор как средство художественной выразительности. TTTTTTTTTTTTTTTTTTTTT или GCAGCAGCAGCAGCAGCAGCAGCA, - вторит ему ДНК. На такие последовательности приходится около 1,5 миллиарда знаков из 3-миллиардного текста нашего генома. Почему бессмысленные повторы занимают столько места? Или, раз это место им отведено, они что-то да значат? Учёные считают, что повторяющиеся последовательности - это горячие точки эволюции: с ними связаны быстрые и неожиданные изменения генома. Исследования показали, что не все повторы одинаковы, их можно разделить на два больших типа: прямые и диспергированные, причём в каждом по несколько разновидностей.
Диспергированные повторы, в отличие от прямых, не идут впритык друг за другом, а перемежаются с другими участками ДНК. По большей части диспергированные повторы - это транспозоны, последовательности-анархисты, способные скакать с места на место, то есть перемещаться по геному. Свободолюбивое поведение делает транспозоны важной движущей силой эволюции: они перемешивают и прочее население генома, вмешиваясь в работу генов.
Некоторые транспозоны - ретротранспозоны - могут не только скакать по геному, но и плодиться в нём. Их название отражает не художественные пристрастия, а механизм, который эти мобильные генетические элементы используют для передвижения по ДНК. Корень "ретро-" по аналогии с ретровирусами намекает на переход в форму РНК. То есть такие последовательности сначала считываются, а потом из РНК-матрицы переходят снова в ДНК, встраиваясь в новое место генома. Принцип "копировать - вставить". Оставшиеся малочисленные ДНК-транспозоны переходить в РНК не умеют, им остается вариант "вырезать - вставить".
Ретротранспозоны нашего генома можно разделить на несколько групп. Во-первых, это LTR-ретротранспозоны. На концах таких последовательностей присутствуют особые повторяющиеся участки. Подобные концевые повторы есть у ретровирусов и используются ими для встраивания генетического материала в геном хозяина. Это сходство названий и последовательностей не случайно: LTR-ретротранспозоны происходят от ретровирусов. Очередной вирусный след в человеческом геноме, притом увесистый: на LTR-повторы приходится порядка 8% генома Homo sapiens.
Ретротранспозоны LINEs и SINEs таких концевых повторов лишены. Главное различие между ними в размере: от менее 500 нуклеотидов у SINEs до в среднем 7000 у LINEs. Самые любопытные из них Alu-повторы. Подавляющее большинство SINEs генома Homo sapiens - это именно они. Предполагают, что Alu-элементы возникли около 100 млн лет назад и с тех пор изменялись вместе с расходящимися по собственной эволюционной ветке обезьянами. Изучение Alu-повторов помогает лучше понять родословную наших родичей.
Тандемные повторы ДНК вплотную примыкают друг к другу, почти как ездоки велосипеда-тандема. Отсюда их правильная структура с регулярным чередованием. Ну а свойства определяются размером повторов, по этому признаку тандемные повторы делят на три типа: сателлиты, минисателлиты и микросателлиты.
Самые длинные - сателлиты, или сателлитная ДНК, - могут тянуться миллионы и миллионы нуклеотидов подряд. Космическое название (англ. Satellite - спутник) связано с тем, что при ультрацентрифугировании (метод разделения веществ в результате очень быстрого раскручивания на ультрацентрифуге) эта часть ДНК легко отделялась от прочего генома. Сателлиты не кодируют РНК и белки и вообще складированы в "технических" областях хромосом: центромерах и теломерах. Центромеры и сателлитные повторы важны при делении клетки. Когда дело доходит до разделения удвоенных хромосом, микротрубочки подходят именно к центромерам и тянут за них хромосомы в противоположном направлении. А сателлиты в теломерах не позволяют концам хромосом слипаться (и самой хромосоме - разрушиться). Еще они защищают нас от старения, препятствуя укорачиванию хромосом.
Средненькие в семье тандемных - минисателлиты, - как заведено и у людей, следуют за старшенькими. Они обнаружены не в самих центромерах и теломерах, а по соседству. Именно по последовательностям минисателлитов в детективных сериалах определяют сходство ДНК с места преступления с ДНК подозреваемого, а в романтических - устанавливают родительство. Длина каждого отдельного минисателлита довольно специфична у каждого из нас, однако у близких родственников они схожи.
Самые маленькие из тандемных повторов длиной всего 6-10 нуклеотидов - микросателлиты. Как и средненькие (и по тому же принципу), самые короткие в семействе нашли применение в криминалистике, но на этом их сходство со старшими братьями заканчивается. В отличие от них, микросателлиты находятся не в определённых участках хромосом, а распределены по всей ДНК почти равномерно. И не криминалистическое применение в них самое интересное. Микросателлиты, несмотря на малый размер, - кипучие котлы эволюции. Мутации в них происходят в тысячу раз чаще, чем в каких-либо других нуклеотидах. Характер этих мутаций заключается в потере или дублировании единиц-повторов целиком. Притом не одной - иногда "проскальзывание" копирующего ДНК белка затрагивает большие участки ДНК со следующими один за другим микросателлитами.
Если такое нарастание происходит в некоторых пределах, то в целом ситуация остается под контролем. Если же они превышены (к этому располагает наследственность), никто и ничто уже не сможет удержать микросателлиты. Происходит так называемая экспансия: единицы микросателлитов повторяются сотни и тысячи раз подряд, а обладатель соответствующего генома приобретает серьезное, обычно неизлечимое и быстро прогрессирующее заболевание. Это может быть и болезнь Хантингтона - неуклонно прогрессирующее заболевание мозга, прославившееся вместе с Тринадцатой из сериала "Доктор Хаус", и синдром хрупкой Х-хромосомы. Хрупкой оказывается как раз область микросателлитов, причем хрупкой настолько, что часть этой хромосомы может просто... отвалиться.
Геном Homo sapiens - это текст из 3 миллиардов букв, который очень далек от порядка и предсказуемости. Наш геном - это разнообразие, хаос, повторы и... своеобразная эволюционная разумность. И неожиданные сюжетные повороты. Почти как в стихотворении Хармса об устройстве человека:
А, впрочем, не рук пятнадцать штук,
пятнадцать штук,
пятнадцать штук.
Хэу-ля-ля,
дрюм-дрюм-ту-ту!
Пятнадцать штук, да не рук.