Задачи биоинформатики - BioinforMatix.ru - портал по биоинформатике, имейджингу и биософту

Задачи биоинформатики

Печать E-mail
Автор Николай   
23.07.2008 г.

К числу основных вычислительных задач компьютерной биологии и биоинформатики   в  настоящее время относятся:

Распознавание белок-кодирующих участков  в  первичной структуре биополимеров. Сравнительный анализ первичных структур биополимеров.

Расшифровка пространственной структуры биополимеров и их комплексов. (Рентгеноструктурный анализ, методы ЯМР).

Пространственное сворачивание белков (3D-фолдинг).

Моделирование структуры и динамики биомакромолекул.

Создание и сопровождение специализированных баз данных (баз белковых структур, нуклеотидных последовательностей, путей метаболизма, клеточных ансамблей и др.).

Это основные, но далеко не полные задачи биоинформатики.

Остановимся подробнее на перечисленных задачах биоинформатики. Первичные структуры. Проблемы, связанные с анализом первичной структуры,  в  первую очередь касаются вопросов распознавания белок-кодирующих областей (генов) уже отсеквенированных последовательностей нуклеотидов  в  молекуле ДНК.
 
a t g g t g c a t t t t a c t g c t g a g g a g a a g g c t g c c g t c a c t a g c c t g t g g a g c a a g a t g a a t g t g g a a g a g g c t g g a g g t g a a g c c t t g g g c a g g t a a g c a t t g g t t c t c a a t g c a t g g g a a t g a a g g g t g a a t a t t a c c c t a g c a a g t t g a t t g g g a a a g t c c t c a a g a t t t t t t g c a t c t c t a a t t t t g t a t c t g a t a t g g t g t c at t t c a t a g a c t c c t c g t t g t t t a c c c c t g g a c c c a g a g a t t t t t t g a c a g c t t t g g a a a c c t g t c g t c t c c c t c t g c c a t c c t g g g c a a c c c c a a g g t c a a g g c c c a t g g c a a g a a g g t g c t g a c t t c c t t t g g a g a t g c t a t t a a a a a c a t g g a c a a c c t c a a g c c c g c c t t t g c t a a g c t g a g t g a g c t g c a c t g t g a c a a g c t g c a t g t g g a t c c t g a g a a c t t c a a g g t g a g t t c a g g t g c t g g t g a t g t g a t t t t t t g g c t t t a t a t t t t g a c a t t a a t t g a a g c t c a t a a t c t t a t t g g a a a g a c c a a c a a a g a t c t c a g a a a t c a t g g g t c g a g c t t g a t g t t a g a a c a g c a g a c t t c t a g t g a g c a t a a c c a a a a c t t a c a t g a t t c a g a a c t a g t g a c a g t a a a g g a c t a c t a a c g c c t g a a t t g g c t t a a c t t t t c a g g a a a t c t t g c c a g a a c t t g a t g t g t t t a t c c c a g a a a t t g t a t t a t a g a a t t g t a g a c t t g t g a a a g a a g a a t g a a a t t t g g c t t t t g g t a g a t g a a a g t c c a t t t c a a g g a a a t a g a a a t g c c t t a t t t t a t g t g g g t c a t g a t a a t t g a g g t t t a g a a g a g a t t t t t g c a a a a a a a a t a a a a g a t t t g c t c a a a g a a a a a t a a g a c a c a t t t t c t a a a a t a t g t t a a a t t t c c c a t c a g t a t t g t g a c c a a g t g a a g g c t t g t t t c c g a a t t t g t t g g g g a t t t t a a a c t c c c g c t g a g a a c t c t t g c a g c a c t c a c a t t c t a c a t t t a c a a a a a t t a g a c a a t t g c t t a a a g a a a a a c a g g g a g a g a g g g a a c c c a a t a a t a c t g g t a a a a t g g g g a a g g g g g t g a g g g t g t a g g t a g g t a g a a t g t t g a a t g t a g g g c t c a t a g a a t a a a a t t g a a c c t a a g c t c a t c t g a a t t t t t t g g g t g g g c a c a a a c c t t g g a a c a g t t t g a g g t c a g g g t t g t c t a g g a a t g t a g g t a t a a a g c c g t t t t t g t t t g t t t g t t t g t t t t t t c a t c a a g t t g t t t t c g g a a a c t t c t a c t c a a c a t g c c t g t g t g t t a t t t t g t c t t t t g c c t a a c a g c t c c t g g g t a a c g t g a t g g t g a t t a t t c t g g c t a c t c a c t t t g g c a a g g a g t t c a c c c c t g a a g t g c a g g c t g c c t g g c a g a a g c t g g t g t c t g c t g t c g c c a t t g c c c t g g c c c a t a a g t a c c a c t g a
 
Рис. 1. Распознавание белок-кодирующих областей  в  геномах. Человеческий e-гемоглобин.
 
На Рис.1 показана нуклеотидная последовательность человеческого e-гемоглобина. Основная задача состоит  в  выделении  в  этой последовательности осмысленных участков - генов. На Рис.3 такой участок (экзон) выделен жирным шрифтом. Обычным шрифтом показана некодирующая область (интрон). Основная трудность  в  выделении генов состоит  в  определении экзон-интронной структуры эукариот (организмов, клетки которых имеют ядро), поскольку кодирующие и некодирующие участки не выделены однозначно. Постгеномная эпоха ставит проблему расшифровки геномов огромного числа микроорганизмов. К настоящему моменту полностью расшифрованы геномы нескольких десятков микроорганизмов. Однако из 100000 генов, которыми обладает человек,  в  настоящее время расшифровано около 10%.Задачи биоинформатики - расшивровать все гены человека.

  Табл.1. Примеры полностью расшифрованных геномов различных организмов
(приведены только геномы длиной свыше 1.5 МБ)

 

Organism

Размер генома  в  кБ

Число генов

Архебактерии

Methanococcus jannaschii

1664

1750

Methanobacterium thermoautotrophicum

1751

1918

Archaeoglobus fulgidus

2178

2493

Pyrococcus horikoshii(shinkaj)

1738

1979

Aeropyrum pernix

1669

2620

Pyrococcus abyssi

1765

1765

Бактерии

Haemophilus influenzae

1830

1850

Synechocystis sp.

3573

3168

Escherichia coli

4639

4289

Helicobacter pylori

1667

1590

Bacillus subtilis

4214

4099

Aquifex aeolicus

1551

1544

Mycobacterium tuberculosis

4411

4402

Helicobacter pylori

1643

1495

Thermotoga maritima

1860

1877

Deinococcus radiodurans

3284

3187

Campylobacter jejuni

1641

2106

Neisseria meningitidis

2272

2158

Эукариоты

Saccharomyces cerevisiae

12069

6294

Caenorhabditis elegans

97000

1909

Drosophila melanogaster

137000

1410

 С математической точки зрения поставленная проблема относится к задаче распознавания.  В  Институте математических проблем биологии РАН (ИМПБ РАН) совместно с Институтом белка РАН, НИИ "Генетика" и Университетом Южной Калифорнии (США) был разработан комплекс программ распознавания белок-кодирующих областей у эукариот, включающих программы GREAT и CASSANDRA, ориентированные на решение основных проблем, возникающих при анализе новосеквенированных последовательностей. Имеется задел для работ по распознаванию, проверке качества распознавания и отсева из имеющихся баз данных ошибочно определенных начал генов прокариот. Это открывает возможности создания  в  России собственных банков данных более высокого качества, чем ныне существующие за рубежом и интегрирования  в  мировой процесс создания баз знаний по биологии.

 В  настоящее время наиболее эффективным методом определения биологической функции гена является поиск одинаковых последовательностей  в  базах данных нуклеотидных последовательностей ДНК. Распараллеливание вычислений и использование суперкомпьютеров для решения подобного рода задач позволит не только  в  сотни раз повысить скорость расшифровки первичных структур, но и сделать открытия, вытекающие из анализа гомологичных последовательностей, обычным делом.

Задачи биоинформатики, тесно связанной с программой структурного генома - сравнение аминокислотных последовательностей ("выравнивание"). Речь идет об идентификации похожих участков аминокислотных последовательностей первичной структуры белков.  В  этом случае также приходится работать с большими массивами данных. По сравнению со случаем расшифровки генома, сложность решаемой комбинаторной задачи состоит  в  том, что вместо четырехбуквенного нуклеотидного алфавита приходится иметь дело с двадцатибуквенным аминокислотным алфавитом. На Рис.4 показано выравнивание аминокислотных последовательностей инсулина из различных организмов.

Сравнение последовательностей исключительно важно для выяснения степени гомологии белков, т.е. информации, первостепенной для решения проблемы их пространственного сворачивания (фолдинга). Решение проблемы фолдинга, т.е. предсказание пространственной структуры белка по его аминокислотной последовательности, является одним из перспективных подходов к решению задач программы структурного генома.  В  свою очередь, знание пространственной структуры белков чрезвычайно тесно связано с их функционированием.  В  частности, без такого знания невозможно создание на основе современной компьютерной технологии новых типов лекарств.

Все эти задачи биоинформатики предъявляют высокие требования к быстродействию и объему памяти используемых вычислительных средств, еще более возрастающие  в  связи с завершением расшифровки геномов ряда организмов, каждый из которых содержит сотни миллионов нуклеотидов (Табл.1). Время и объем памяти, используемые различными алгоритмами исследования первичных структур биополимеров, как правило, растут как квадрат или куб длины исследуемой первичной структуры, а  в  ряде случаев, например,  в  задаче множественного сравнения, рост сложности вычислений с длиной последовательности еще более быстрый. Переход к более точным методам и анализу больших объемов данных требует доступа к вычислительным ресурсам, которые могут быть обеспечены только суперкомпьютерами. Так, например, для последовательности, содержащей 105 пар оснований и 104 структур (каждая длиной 103 аминокислотных остатков) при квадратичной зависимости скорости вычислений от длины первичной структуры необходимо выполнить 1015 операций. Для решения таких задач требуются суперкомпьютеры производительностью  в  сотни терафлоп.

 

Читаете также:

Биоинформатика: геном уникальности
Биоинформатика: Виртуальный эксперимент  в  шаге от реальности. Часть 1
Последнее обновление ( 25.04.2009 г. )
 
« Пред.   След. »