Это основные, но далеко не полные задачи биоинформатики.
Остановимся подробнее на перечисленных задачах биоинформатики. Первичные структуры.
Проблемы, связанные с анализом первичной структуры, в первую очередь
касаются вопросов распознавания белок-кодирующих областей (генов) уже
отсеквенированных последовательностей нуклеотидов в молекуле ДНК.
a
t g g t g c a t t t t a c t g c t g a g g a g a a g g c t g c c g t c a
c t a g c c t g t g g a g c a a g a t g a a t g t g g a a g a g g c t g
g a g g t g a a g c c t t g g g c a g g
t a a g c a t t g g t t c t c a a t g c a t g g g a a t g a a g g g t g
a a t a t t a c c c t a g c a a g t t g a t t g g g a a a g t c c t c a
a g a t t t t t t g c a t c t c t a a t t t t g t a t c t g a t a t g g
t g t c at t t c a t a g a c t c c t c g t t g t t
t a c c c c t g g a c c c a g a g a t t t t t t g a c a g c t t t g g a
a a c c t g t c g t c t c c c t c t g c c a t c c t g g g c a a c c c c
a a g g t c a a g g c c c a t g g c a a g a a g g t g c t g a c t t c c
t t t g g a g a t g c t a t t a a a a a c a t g g a c a a c c t c a a g
c c c g c c t t t g c t a a g c t g a g t g a g c t g c a c t g t g a c
a a g c t g c a t g t g g a t c c t g a g a a c t t c a a g g
t g a g t t c a g g t g c t g g t g a t g t g a t t t t t t g g c t t t
a t a t t t t g a c a t t a a t t g a a g c t c a t a a t c t t a t t g
g a a a g a c c a a c a a a g a t c t c a g a a a t c a t g g g t c g a
g c t t g a t g t t a g a a c a g c a g a c t t c t a g t g a g c a t a
a c c a a a a c t t a c a t g a t t c a g a a c t a g t g a c a g t a a
a g g a c t a c t a a c g c c t g a a t t g g c t t a a c t t t t c a g
g a a a t c t t g c c a g a a c t t g a t g t g t t t a t c c c a g a a
a t t g t a t t a t a g a a t t g t a g a c t t g t g a a a g a a g a a
t g a a a t t t g g c t t t t g g t a g a t g a a a g t c c a t t t c a
a g g a a a t a g a a a t g c c t t a t t t t a t g t g g g t c a t g a
t a a t t g a g g t t t a g a a g a g a t t t t t g c a a a a a a a a t
a a a a g a t t t g c t c a a a g a a a a a t a a g a c a c a t t t t c
t a a a a t a t g t t a a a t t t c c c a t c a g t a t t g t g a c c a
a g t g a a g g c t t g t t t c c g a a t t t g t t g g g g a t t t t a
a a c t c c c g c t g a g a a c t c t t g c a g c a c t c a c a t t c t
a c a t t t a c a a a a a t t a g a c a a t t g c t t a a a g a a a a a
c a g g g a g a g a g g g a a c c c a a t a a t a c t g g t a a a a t g
g g g a a g g g g g t g a g g g t g t a g g t a g g t a g a a t g t t g
a a t g t a g g g c t c a t a g a a t a a a a t t g a a c c t a a g c t
c a t c t g a a t t t t t t g g g t g g g c a c a a a c c t t g g a a c
a g t t t g a g g t c a g g g t t g t c t a g g a a t g t a g g t a t a
a a g c c g t t t t t g t t t g t t t g t t t g t t t t t t c a t c a a
g t t g t t t t c g g a a a c t t c t a c t c a a c a t g c c t g t g t
g t t a t t t t g t c t t t t g c c t a a c a g c
t c c t g g g t a a c g t g a t g g t g a t t a t t c t g g c t a c t c
a c t t t g g c a a g g a g t t c a c c c c t g a a g t g c a g g c t g
c c t g g c a g a a g c t g g t g t c t g c t g t c g c c a t t g c c c
t g g c c c a t a a g t a c c a c t g a
Рис. 1. Распознавание белок-кодирующих областей в геномах. Человеческий e-гемоглобин.
На Рис.1 показана нуклеотидная последовательность человеческого
e-гемоглобина. Основная задача состоит в выделении в этой
последовательности осмысленных участков - генов. На Рис.3 такой участок
(экзон) выделен жирным шрифтом. Обычным шрифтом показана некодирующая
область (интрон). Основная трудность в выделении генов состоит в
определении экзон-интронной структуры эукариот (организмов, клетки
которых имеют ядро), поскольку кодирующие и некодирующие участки не
выделены однозначно. Постгеномная эпоха ставит проблему расшифровки
геномов огромного числа микроорганизмов. К настоящему моменту полностью
расшифрованы геномы нескольких десятков микроорганизмов. Однако из 100000 генов, которыми обладает человек, в настоящее время расшифровано около 10%.Задачи биоинформатики - расшивровать все гены человека.
Табл.1. Примеры полностью расшифрованных геномов различных организмов
(приведены только геномы длиной свыше 1.5 МБ)
| | Organism | Размер генома в кБ | Число генов |
| Архебактерии | Methanococcus jannaschii | 1664 | 1750 |
| Methanobacterium thermoautotrophicum | 1751 | 1918 |
| Archaeoglobus fulgidus | 2178 | 2493 |
| Pyrococcus horikoshii(shinkaj) | 1738 | 1979 |
| Aeropyrum pernix | 1669 | 2620 |
| Pyrococcus abyssi | 1765 | 1765 |
| Бактерии | Haemophilus influenzae | 1830 | 1850 |
| Synechocystis sp. | 3573 | 3168 |
| Escherichia coli | 4639 | 4289 |
| Helicobacter pylori | 1667 | 1590 |
| Bacillus subtilis | 4214 | 4099 |
| Aquifex aeolicus | 1551 | 1544 |
| Mycobacterium tuberculosis | 4411 | 4402 |
| Helicobacter pylori | 1643 | 1495 |
| Thermotoga maritima | 1860 | 1877 |
| Deinococcus radiodurans | 3284 | 3187 |
| Campylobacter jejuni | 1641 | 2106 |
| Neisseria meningitidis | 2272 | 2158 |
| Эукариоты | Saccharomyces cerevisiae | 12069 | 6294 |
| Caenorhabditis elegans | 97000 | 1909 |
| Drosophila melanogaster | 137000 | 1410 |
С
математической точки зрения поставленная проблема относится к задаче
распознавания. В Институте математических проблем биологии РАН (ИМПБ
РАН) совместно с Институтом белка РАН, НИИ "Генетика" и Университетом
Южной Калифорнии (США) был разработан комплекс программ распознавания
белок-кодирующих областей у эукариот, включающих программы GREAT и
CASSANDRA, ориентированные на решение основных проблем, возникающих при
анализе новосеквенированных последовательностей.
Имеется задел для работ по распознаванию, проверке качества
распознавания и отсева из имеющихся баз данных ошибочно определенных
начал генов прокариот. Это открывает возможности создания в России
собственных банков данных более высокого качества, чем ныне
существующие за рубежом и интегрирования в мировой процесс создания баз
знаний по биологии.
В
настоящее время наиболее эффективным методом определения биологической
функции гена является поиск одинаковых последовательностей в базах
данных нуклеотидных последовательностей ДНК. Распараллеливание
вычислений и использование суперкомпьютеров для решения подобного рода
задач позволит не только в сотни раз повысить скорость расшифровки
первичных структур, но и сделать открытия, вытекающие из анализа
гомологичных последовательностей, обычным делом.
Задачи биоинформатики, тесно связанной с программой структурного
генома - сравнение аминокислотных последовательностей
("выравнивание"). Речь идет об идентификации похожих участков
аминокислотных последовательностей первичной структуры белков. В этом
случае также приходится работать с большими массивами данных. По
сравнению со случаем расшифровки генома, сложность решаемой
комбинаторной задачи
состоит в том, что вместо четырехбуквенного нуклеотидного алфавита
приходится иметь дело с двадцатибуквенным аминокислотным алфавитом. На
Рис.4 показано выравнивание аминокислотных последовательностей инсулина
из различных организмов.
Сравнение
последовательностей исключительно важно для выяснения степени гомологии
белков, т.е. информации, первостепенной для решения проблемы их
пространственного сворачивания (фолдинга). Решение проблемы фолдинга,
т.е. предсказание пространственной структуры белка по его
аминокислотной последовательности, является одним из перспективных
подходов к решению задач программы структурного генома. В свою очередь,
знание пространственной структуры белков чрезвычайно тесно связано с их
функционированием. В частности, без такого знания невозможно создание
на основе современной компьютерной технологии новых типов лекарств.
Все эти задачи биоинформатики предъявляют высокие требования к быстродействию и объему
памяти используемых вычислительных средств, еще более возрастающие в
связи с завершением расшифровки геномов ряда организмов, каждый из
которых содержит сотни миллионов нуклеотидов (Табл.1). Время и объем
памяти, используемые различными алгоритмами исследования первичных
структур биополимеров, как правило, растут как квадрат или куб длины
исследуемой первичной структуры, а в ряде случаев, например, в задаче
множественного сравнения, рост сложности вычислений с длиной
последовательности еще более быстрый. Переход к более точным методам и
анализу больших объемов данных требует доступа к вычислительным
ресурсам, которые могут быть обеспечены только суперкомпьютерами. Так,
например, для последовательности, содержащей 105 пар оснований и 104 структур (каждая длиной 103 аминокислотных остатков) при квадратичной зависимости скорости вычислений от длины первичной структуры необходимо выполнить 1015 операций. Для решения таких задач требуются суперкомпьютеры производительностью в сотни терафлоп.
Читаете также: