Как собирают материал для "Российских геномов"

Сначала короткий ликбез для тех, кто еще не знает или уже забыл, что означают некоторые слова из трех букв: ДНК и ген.

Компьютерное зрение: как работают системы распознавания лиц

Строение и форма организмов, в том числе человека, определяются белками, структура которых зашифрована в дезоксирибонуклеиновой кислоте (ДНК). Она представляет собой спираль из двух переплетенных цепей. Каждая цепь состоит из четырех видов звеньев-нуклеотидов, обозначаемых буквами: А, Т, Г, Ц. Последовательность нуклеотидов определяет, какой белок будет построен клеткой. Участок ДНК, кодирующий структуру одного вида белка, называется "ген", а все гены организма - "геном".

Одним из величайших прорывов XX века стал вывод, что ДНК можно прочитать, словно это текст, и понять индивидуальные особенности организма. А если прочитать ДНК разных организмов, можно понять, насколько близки этносы, как люди расселялись по планете и чем обусловлены наследственные заболевания.

Над первой в истории расшифровкой человеческого генома ученые бились больше десяти лет. В 2003-м эта задача была решена. Дальше процесс пошел быстрее благодаря совершенствованию технологии секвенирования (от англ. sequence - последовательность), то есть определения порядка нуклеотидов ДНК.

Очень много данных

Современная геномика - область, где данных чрезвычайно много. Особенно сейчас, когда ученые пытаются сделать медицину персонализированной, основанной на информации о клеточном строении каждого отдельного человека. Лаборатории по всему миру ежегодно собирают терабайты и петабайты информации, а данные биобанков удваиваются каждые семь месяцев.

Как освоить самую нужную профессию настоящего и ближайшего будущего

- Если в одном и том же участке гена у одного человека стоит буква А, а у другого Ц, это патогенная мутация или норма? Единственная возможность ответить на этот вопрос - исследовать как можно больше людей, посмотреть частоту данной мутации в популяции, выяснить, больны или здоровы ее носители. Некоторые мутации встречаются часто, и их легко идентифицировать, но есть и очень редкие - одна на миллион. Именно поэтому в мире сейчас активно накапливают генетическую информацию, - рассказывает Андрей Афанасьев, гендиректор компании iBinom, старший научный сотрудник лаборатории функционального анализа генома МФТИ на конференции "Яндекса" "Data & Science: бионформатика".

В 2008 году ученые из Азии, Европы, Африки, США и Латинской Америки включились в беспрецедентное по масштабам исследование "1000 геномов". Целью проекта было создание максимально подробной карты генетических вариаций человека. Исследователи планировали секвенировать геномы по крайней мере тысячи анонимных участников - представителей разных этнических групп. Проект завершился в 2015 году с перевыполнением плана: секвенировали 2,5 тыс. геномов представителей 26 популяций из 5 регионов мира; описали свыше 88 млн генетических вариаций.

Наша страна в проект "1000 геномов" не попала и теперь наверстывает упущенное. В 2015 году сотрудники Центра геномной биоинформатики им. Ф.Г. Добржанского Санкт-Петербургского госуниверситета запустили исследование "Российские геномы", чтобы создать открытую базу данных по полногеномным последовательностям не менее 3 тыс. человек - представителей разных этнических и региональных групп России.

Геномная картина России

Поселок Борисовка, Белгородская область. В центральной районной больнице в восемь утра теснее, чем обычно. Местные жители приходят семьями и, сверяясь со стрелочками на стенах, шагают в процедурный кабинет. Заходят сразу по трое, что не смущает ни врачей, ни тех, кто в очереди. Выходят с ватой на согнутой руке и сувенирными футболками с эмблемой "Российские геномы" - только что они стали участниками этого проекта.

- Жена сказала, вот я и пришел, - пожимает плечами мужчина средних лет, не совсем понимая, зачем серьезным людям в белом вдруг понадобилась его кровь.

К участию в проекте привлекали группы из трех человек - родителей и ребенка старше 18 лет. Перед сдачей крови каждый заполнял анкету. Главный вопрос: "Ваши бабушка и дедушка родились в этой местности?". Именно благодаря коренным жителям исследователи смогут построить геномную картину региона. Кровь уже сдали в Архангельской, Псковской, Новгородской областях, Приморском и Хабаровском крае, в Твери, Нижнем Новгороде, Красноярске.

В базе данных "Российских геномов" каждому образцу ДНК присваивают шифр, чтобы сохранить анонимность, поэтому исследователи знают только пол, год рождения и этническую или региональную группу, к которой относится донор. Данные хранятся в "облаках": любой исследователь в любой точке мира должен иметь к ним доступ.

Как работают дизайнеры лекарственных средств

- Первое, что мы хотим понять: как расселялись древние люди, как племена скрещивались и контактировали между собой. Это можно увидеть в геноме, - объясняет молодой генетик Андрей Шевченко из центра им. Ф.Г. Добржанского. - Другая сторона исследования медицинская: разные народы имеют предрасположенность к разным заболеваниям, и это отчасти определяется генами.

Какие наследственные заболевания характерны для россиян, как раз предстоит выяснить.

- Сейчас лечение назначают почти вслепую, поэтому одним таблетки помогают, другим нет, - поясняет Шевченко. - Всему есть причина, и она кроется в генетических особенностях, в мутациях, унаследованных от предков, и в среде обитания.

Уточнение важное, потому что гены определяют не все. Если говорить математическим языком, два умножить на три равно шесть. Чей вклад здесь больше: двойки или тройки? Невозможно сказать. Генетики свою часть задачи решают с помощью секвенирования.

- С каждого генома мы получаем несколько десятков миллионов фрагментов средней длиной 100-150 пар нуклеотидов, они занимают примерно полтерабайта памяти. У нас хранятся в электронном виде данные 60 обработанных геномов и 42 необработанных, так называемых сырых ридов. После получения сырых ридов в работу включаются биоинформатики, которые контролируют качество материала, проверяют, какова длина и глубина покрытия генома. Нам нужна глубина покрытия не менее 3Х, то есть каждая буква генома должна быть прочитана не менее 30 раз. Длина покрытия должна составлять не менее 80%, - рассказывает главный научный сотрудник Центра геномной биоинформатики им. Ф.Г. Добржанского Владимир Брюхин.

Болезни и миграции

Речь идет о колоссальной работе с непременным контролем качества на каждом этапе. Когда материал подготовлен, ученые сравнивают частоту мутаций в генах, выясняют наличие однонуклеотидных полиморфизмов, влияющих и не влияющих на работу генов. По этим данным можно не только определить предрасположенность к заболеваниям в каждой популяции, но и выяснить их родство, а также пути миграции предков.

Какие продукты чаще всего исследуют ученые

Первая расшифровка человеческого генома, завершившаяся в начале 2000-х стоила миллиарды долларов. За 15 лет цена упала, но по-прежнему остается баснословной: в России полногеномное секвенирование стоит около 5 тыс. долларов. За рубежом дешевле, но российские законы запрещают вывозить из страны образцы ДНК.

- В Европе цена секвенирования полного генома человека ниже тысячи долларов, в Японии и Китае - 600-700 долларов. Вдобавок мест, где это можно сделать, совсем немного: Москва, Петербург да Новосибирск. Пока нам удалось получить средства и отсеквенировать чуть более сотни индивидуальных геномов, - резюмирует Владимир Брюхин.

На сегодня в рамках проекта "Российские геномы" собрано свыше 1,5 тыс. образцов крови. Контроль качества прошли около 700 образцов. Всего исследователи планируют собрать их около 3 тысяч.

Геном, Twitter и You Tube

В 2015 году в журнале PLOS Computational Biology была опубликована статья, авторы которой назвали астрономию, геномику, Twitter и You Tube главными поставщиками потоков больших данных. И спрогнозировали, как вырастут эти потоки к 2025 году.