Минуты вместо месяцев: создан инструмент для автоматического анализа РНК

Новый инструмент облегчит анализ данных, полученных в результате секвенирования РНК.

Фото Dennis Wise/University of Washington.

Приложение имеет интуитивно понятный интерфейс и множество полезных опций.

Иллюстрация Avi Ma.ayan et al.

Биологи разработали веб-приложение BioJupies, которое автоматически выполняет трудоёмкий статистический анализ "карты работающих генов" и позволяет обменяться этой информацией с коллегами. Весь процесс занимает несколько минут и обходится практически бесплатно. Программу разместили в открытом доступе.

Новое приложение подробно описано в научной статье, опубликованной в журнале Cell Systems группой во главе с Ави Мааяном (Avi Ma’ayan) из Медицинского центра Маунт-Синай в США.

Как известно, все клетки человеческого тела содержат одинаковые молекулы ДНК. Однако клетки различаются тем, какие гены в них работают (экспрессируются), а какие "молчат". Именно картина экспрессии генов отличает, скажем, мышечные клетки от нервных, а также различные виды последних друг от друга.

Как узнать, какие именно гены работают в той или иной клетке? Для этого "достаточно" секвенировать РНК. Ведь ген – это по большому счёту инструкция по синтезу белка, и его "работа" заключается в том, что этот белок синтезируется в клетке. А РНК (говоря точнее, матричная РНК) – посредник в этом процессе, считывающий информацию с ДНК и передающий её системе, синтезирующей белок.

Карты экспрессии генов давно уже стали незаменимым помощником исследователей в самых разных областях, от эволюционной биологии до медицины. Однако анализировать подобную информацию не так-то просто.

Дело в том, что геном даже простейших бактерий кодирует более тысячи белков. У человека же количество генов приближается к 30 тысячам. Это число может показаться не таким уж большим в сравнении с возможностями современных компьютеров. Но, когда дело доходит до сложной статистической обработки и поиска закономерностей, в таком океане информации недолго и потонуть.

Стандартное оборудование для секвенирования РНК формирует "сырые", необработанные выходные данные. Их статистическим анализом исследователи вынуждены заниматься самостоятельно.

Часто для этого биологам приходится самим писать и тестировать компьютерные программы, на что уходят недели и месяцы. Кроме того, такой объём расчётов зачастую нельзя выполнить на обычном компьютере. Он требует специальной высокопроизводительной техники, к которой нужно получить доступ.

После этого обработанные данные оформляются в виде статьи и посылаются в научный журнал. При этом с момента отправки первого варианта текста до выхода публикации запросто может пройти около года.

Приложение имеет интуитивно понятный интерфейс и множество полезных опций.

Созданное ими приложение использует облачные вычисления, поэтому быстро обрабатывает большие объёмы данных. Оно предоставляет целый набор возможностей. Среди них есть самые нужные биологам статистические инструменты, такие как метод главных компонентов, кластерный анализ и так далее. Умеет программа выполнять и специфические для биологии задания, например, она может проводить анализ представленности функциональных групп генов.

Пользователь может проанализировать собственные экспериментальные данные или информацию, ранее загруженную кем-то другим.

Загрузка новых данных возможна в двух форматах. Первый из них – FASTQ, де-факто ставший стандартным для оборудования, секвенирующего ДНК и РНК. Второй – таблица, где строки соответствуют генам, а в столбцы – исследованным образцам. В ячейке таблицы указан уровень экспрессии данного гена в данном образце. Поддерживаются такие популярные форматы, как стандартный текстовый файл, таблица Microsoft Excel и так далее.

Если учёный желает воспользоваться результатами коллег, к его услугам более 300 тысяч общедоступных наборов данных секвенирования РНК. К ним можно применять те же методы статистического анализа.

Вновь загруженные данные также можно сразу же выложить в открытый доступ. Таким образом, это не только инструмент обсчёта результатов, но и средство их обнародования.

По подсчётам авторов, применение BioJupies снижает затраты на анализ данных практически до нуля (менее одного цента США за образец).

"Поскольку количество генерируемых биомедицинских данных продолжает расти экспоненциально, должны [совершенствоваться] и инструменты, используемые для анализа и обмена ими, – уверен Мааян. – BioJupies не только ускоряет анализ и интерпретацию данных, но также предоставляет совершенно новый способ поделиться результатами с глобальным исследовательским сообществом".

Напомним, что ранее "Вести.Наука" (nauka.vesti.ru) рассказывали о сайте препринтов для биологов и о программе для анализа больших текстов.