- Прежде всего надо было понять, где искать? - рассказывает ведущий научный сотрудник Центра биоинформатики и алгоритмической биотехнологии Санкт-Петербургского госуниверситета Антон Коробейников. - Был выбран вариант, который может показаться парадоксальным: для поиска неизвестных вирусов мы обратились к уже известным генетическим базам данных. Они собраны международным сообществом за последние 20 лет благодаря прорывным методам расшифровки геномов. Чтобы найти в этих гигантских банках новые вирусы, требовалось с помощью компьютера проанализировать десятки петабайт самых разных геномных последовательностей человека, животных, растений. (Один петабайт равен 10 в 15 степени байт.)
Выбрав поле для поиска, ученым требовалось ответить на второй вопрос: как искать? Какую сеть забрасывать, чтобы выловить в нем неизвестные инфекции? Традиционные средства явно не подходили. Дело в том, что обработка даже на суперкомпьютере такого огромного объема информации требует больших вычислительных затрат. Каждый новый вирус может оказаться "золотым". Ученые решили эту проблему.
- Мы придумали своего рода трюк, - говорит Коробейников. - Сейчас многие работают в так называемых вычислительных облаках. Там каждый может покупать машинное время и вести расчеты. В любой момент времени 20-30 процентов этих мощностей простаивает. И этот промежуток стоит очень дешево. Мы решили на этом сыграть и попасть в это дешевое окно. Конечно, есть риск, что в любую минуту вас потеснят те, кто заплатил. Но трюк в том и состоит, чтобы это никак не повлияло на конечный результат.
Если совсем просто, ученые делят большую задачу на мелкие и разбрасывают их по многим свободным в данный момент серверам в облаке. "Как только из-под тебя хотят выбить табуретку, тут же перебрасываем задачу на другой свободный сервер", - говорит Коробейников. А мастерство программистов в том, чтобы найти самый оптимальный вариант нарезки. Так стоимость сложнейших расчетов удалось снизить с нескольких миллионов долларов до тысяч.
Сам принцип поиска новых вирусов довольно очевиден. Зная геномы уже известных инфекций, компьютер ищет в базе похожие геномные последовательности. Так удалось обнаружить новые РНК-вирусы (в их число, например, входят и коронавирусы, и вирусы гриппа). Их оказалось 130 тысяч, то есть в 10 раз больше, чем было известно до начала исследования. А к концу десятилетия ученые намерны идентифицировать около 100 миллионов новых вирусов. Исследование опубликовано в журнале Nature.