Как собирают материал для "Российских геномов"

Сюжет

Журнал "Кот Шрёдингера" (Елена Байтингер)

Генетически все люди одинаковы более чем на 99%. Крошечной разницы в 1% достаточно, чтобы кто-то родился курчавым пигмеем, а кто-то - голубоглазой блондинкой. Это же, казалось бы, ничтожное число определяет наши физические возможности, предрасположенность к болезням и реакцию на лекарства. Чтобы изучить этот процент, ученые проводят масштабные исследования.

depositphotos.com

Сначала короткий ликбез для тех, кто еще не знает или уже забыл, что означают некоторые слова из трех букв: ДНК и ген.

Строение и форма организмов, в том числе человека, определяются белками, структура которых зашифрована в дезоксирибонуклеиновой кислоте (ДНК). Она представляет собой спираль из двух переплетенных цепей. Каждая цепь состоит из четырех видов звеньев-нуклеотидов, обозначаемых буквами: А, Т, Г, Ц. Последовательность нуклеотидов определяет, какой белок будет построен клеткой. Участок ДНК, кодирующий структуру одного вида белка, называется "ген", а все гены организма - "геном".

Одним из величайших прорывов XX века стал вывод, что ДНК можно прочитать, словно это текст, и понять индивидуальные особенности организма. А если прочитать ДНК разных организмов, можно понять, насколько близки этносы, как люди расселялись по планете и чем обусловлены наследственные заболевания.

Над первой в истории расшифровкой человеческого генома ученые бились больше десяти лет. В 2003-м эта задача была решена. Дальше процесс пошел быстрее благодаря совершенствованию технологии секвенирования (от англ. sequence - последовательность), то есть определения порядка нуклеотидов ДНК.

Очень много данных

Современная геномика - область, где данных чрезвычайно много. Особенно сейчас, когда ученые пытаются сделать медицину персонализированной, основанной на информации о клеточном строении каждого отдельного человека. Лаборатории по всему миру ежегодно собирают терабайты и петабайты информации, а данные биобанков удваиваются каждые семь месяцев.

- Если в одном и том же участке гена у одного человека стоит буква А, а у другого Ц, это патогенная мутация или норма? Единственная возможность ответить на этот вопрос - исследовать как можно больше людей, посмотреть частоту данной мутации в популяции, выяснить, больны или здоровы ее носители. Некоторые мутации встречаются часто, и их легко идентифицировать, но есть и очень редкие - одна на миллион. Именно поэтому в мире сейчас активно накапливают генетическую информацию, - рассказывает Андрей Афанасьев, гендиректор компании iBinom, старший научный сотрудник лаборатории функционального анализа генома МФТИ на конференции "Яндекса" "Data & Science: бионформатика".

В 2008 году ученые из Азии, Европы, Африки, США и Латинской Америки включились в беспрецедентное по масштабам исследование "1000 геномов". Целью проекта было создание максимально подробной карты генетических вариаций человека. Исследователи планировали секвенировать геномы по крайней мере тысячи анонимных участников - представителей разных этнических групп. Проект завершился в 2015 году с перевыполнением плана: секвенировали 2,5 тыс. геномов представителей 26 популяций из 5 регионов мира; описали свыше 88 млн генетических вариаций.

Наша страна в проект "1000 геномов" не попала и теперь наверстывает упущенное. В 2015 году сотрудники Центра геномной биоинформатики им. Ф.Г. Добржанского Санкт-Петербургского госуниверситета запустили исследование "Российские геномы", чтобы создать открытую базу данных по полногеномным последовательностям не менее 3 тыс. человек - представителей разных этнических и региональных групп России.

Геномная картина России

Поселок Борисовка, Белгородская область. В центральной районной больнице в восемь утра теснее, чем обычно. Местные жители приходят семьями и, сверяясь со стрелочками на стенах, шагают в процедурный кабинет. Заходят сразу по трое, что не смущает ни врачей, ни тех, кто в очереди. Выходят с ватой на согнутой руке и сувенирными футболками с эмблемой "Российские геномы" - только что они стали участниками этого проекта.

- Жена сказала, вот я и пришел, - пожимает плечами мужчина средних лет, не совсем понимая, зачем серьезным людям в белом вдруг понадобилась его кровь.

К участию в проекте привлекали группы из трех человек - родителей и ребенка старше 18 лет. Перед сдачей крови каждый заполнял анкету. Главный вопрос: "Ваши бабушка и дедушка родились в этой местности?". Именно благодаря коренным жителям исследователи смогут построить геномную картину региона. Кровь уже сдали в Архангельской, Псковской, Новгородской областях, Приморском и Хабаровском крае, в Твери, Нижнем Новгороде, Красноярске.

В базе данных "Российских геномов" каждому образцу ДНК присваивают шифр, чтобы сохранить анонимность, поэтому исследователи знают только пол, год рождения и этническую или региональную группу, к которой относится донор. Данные хранятся в "облаках": любой исследователь в любой точке мира должен иметь к ним доступ.

- Первое, что мы хотим понять: как расселялись древние люди, как племена скрещивались и контактировали между собой. Это можно увидеть в геноме, - объясняет молодой генетик Андрей Шевченко из центра им. Ф.Г. Добржанского. - Другая сторона исследования медицинская: разные народы имеют предрасположенность к разным заболеваниям, и это отчасти определяется генами.

Какие наследственные заболевания характерны для россиян, как раз предстоит выяснить.

- Сейчас лечение назначают почти вслепую, поэтому одним таблетки помогают, другим нет, - поясняет Шевченко. - Всему есть причина, и она кроется в генетических особенностях, в мутациях, унаследованных от предков, и в среде обитания.

Уточнение важное, потому что гены определяют не все. Если говорить математическим языком, два умножить на три равно шесть. Чей вклад здесь больше: двойки или тройки? Невозможно сказать. Генетики свою часть задачи решают с помощью секвенирования.

- С каждого генома мы получаем несколько десятков миллионов фрагментов средней длиной 100-150 пар нуклеотидов, они занимают примерно полтерабайта памяти. У нас хранятся в электронном виде данные 60 обработанных геномов и 42 необработанных, так называемых сырых ридов. После получения сырых ридов в работу включаются биоинформатики, которые контролируют качество материала, проверяют, какова длина и глубина покрытия генома. Нам нужна глубина покрытия не менее 3Х, то есть каждая буква генома должна быть прочитана не менее 30 раз. Длина покрытия должна составлять не менее 80%, - рассказывает главный научный сотрудник Центра геномной биоинформатики им. Ф.Г. Добржанского Владимир Брюхин.

Болезни и миграции

Речь идет о колоссальной работе с непременным контролем качества на каждом этапе. Когда материал подготовлен, ученые сравнивают частоту мутаций в генах, выясняют наличие однонуклеотидных полиморфизмов, влияющих и не влияющих на работу генов. По этим данным можно не только определить предрасположенность к заболеваниям в каждой популяции, но и выяснить их родство, а также пути миграции предков.

Первая расшифровка человеческого генома, завершившаяся в начале 2000-х стоила миллиарды долларов. За 15 лет цена упала, но по-прежнему остается баснословной: в России полногеномное секвенирование стоит около 5 тыс. долларов. За рубежом дешевле, но российские законы запрещают вывозить из страны образцы ДНК.

- В Европе цена секвенирования полного генома человека ниже тысячи долларов, в Японии и Китае - 600-700 долларов. Вдобавок мест, где это можно сделать, совсем немного: Москва, Петербург да Новосибирск. Пока нам удалось получить средства и отсеквенировать чуть более сотни индивидуальных геномов, - резюмирует Владимир Брюхин.

На сегодня в рамках проекта "Российские геномы" собрано свыше 1,5 тыс. образцов крови. Контроль качества прошли около 700 образцов. Всего исследователи планируют собрать их около 3 тысяч.

Геном, Twitter и You Tube

В 2015 году в журнале PLOS Computational Biology была опубликована статья, авторы которой назвали астрономию, геномику, Twitter и You Tube главными поставщиками потоков больших данных. И спрогнозировали, как вырастут эти потоки к 2025 году.

Кот Шрёдингера

Наука