Биоинформатика: биология in silico - BioinforMatix.ru - портал по биоинформатике, имейджингу и биософту

Биоинформатика: биология in silico

Печать E-mail
Автор Михаил Гельфанд   
02.10.2008 г.
Вычислительная биология, она же биоинформатика, она же компьютерная генетика - молодая наука, возникшая в начале 80-х годов на стыке молекулярной биологии и генетики, математики (статистики и теории вероятности) и информатики, испытавшая влияние лингвистики и физики полимеров. Толчком к этому послужило появление в конце 70-х годов быстрых методов секвенирования* последовательностей ДНК*. Нарастание объема данных происходило лавинообразно и довольно скоро стало ясно, что каждая полученная последовательность не только представляет интерес сама по себе (например, для целей генной инженерии и биотехнологии), но и приобретает дополнительный смысл при сравнении с другими.
 
В 1982 году были организованы банки данных нуклеотидных последовательностей - GenBank в США и EMBL в Европе. Первоначально данные переносились в банки из статей вручную, однако, когда этот процесс начал захлебываться, все ведущие журналы стали требовать, чтобы последовательности, упоминаемые в статье, были помещены в банк самими авторами.

Более того, поскольку секвенирование уже давно стало рутинным процессом, который выполняют роботы или студенты младших курсов на лабораторных работах, многие последовательности сейчас попадают в банки без публикации. Банки постоянно обмениваются данными и, в этом смысле, практически равноценны, однако средства работы с ними, разрабатываемые в Центре биотехнологической информации США и Европейском институте биоинформатики, различны. Пожалуй, первым биологически важным результатом, полученным при помощи анализа последовательностей, было обнаружение сходства вирусного онкогена v-sis и нормального гена фактора роста тромбоцитов, что привело к значительному прогрессу в понимании механизма рака. С тех пор работа с последовательностями стала необходимым элементом лабораторной практики.

В 1995 году был секвенирован первый бактериальный геном, в 1997 - геном дрожжей. В 1998 было объявлено о завершении секвенирования генома первого многоклеточного организма - нематоды.

По состоянию на 1 сентября 2001 года доступны 55 геномов бактерий, геном дрожжей, практически полные геномы Arabidopsis thaliana (растения, родственного горчице), нематоды, мухи дрозофилы - все это стандартные объекты лабораторных исследований. Уже два раза (весной 2000 и зимой 2001 года) было объявлено о практическом завершении секвенирования генома человека - имеющиеся фрагменты действительно покрывают его более чем на 90%. Количество геномов, находящихся в распоряжении фармацевтических и биотехнологических компаний, оценить трудно, хотя, по-видимому, оно составляет многие десятки и даже сотни. Ясно, что подавляющее большинство генов в этих геномах никогда не будет исследовано экспериментально. Поэтому компьютерный анализ и становится основным средством изучения.

Все это привело к тому, что биоинформатика стала чрезвычайно модной областью науки, спрос на специалистов в которой очень велик. Следует отметить, что одним из неприятных последствий возникшего шума стало то, что биоинформатикой называют всё, где есть биология и компьютеры. В то же время многие области уже пережили такие моменты (например, теория информации.

Традиционно к биоинформатике относится: статистический анализ последовательностей ДНК; предсказание функции по последовательности (распознавание генов в последовательности ДНК, поиск регуляторных сигналов, предсказание функций белков - некоторые из этих задач рассмотрены в следующей статье); анализ пространственной структуры белков и нуклеиновых кислот, в том числе предсказание структуры белка по последовательности, - здесь биоинформатика граничит с биофизикой и физикой полимеров;теория молекулярной эволюции и систематика. Следует отметить, что многие задачи из разных областей решаются сходными алгоритмами, один из примеров этого приводится в статье М.   А . Ройтберга.

В последние годы возник ряд новых задач, связанных с прогрессом в области автоматизации не только секвенирования, но и других экспериментальных методов: масс-спектрометрии, анализа белок-белковых взаимодействий, исследования работы генов в различных тканях и условиях (см. статью И.  А . Григорян и В. Ю. Макеева в этом номере). При этом не только возникает необходимость создавать и заимствовать из других областей новые алгоритмы (например, для обработки результатов экспериментов в области протеомики широко применяются методы анализа изображений), но и происходит распространение биоинформатических подходов на смежные области, например популяционную и медицинскую генетику. Существенно при этом, что роль биоинформатики не сводится к обслуживанию экспериментаторов, как это было еще несколько лет назад: у нее появились собственные задачи. Более подробно об этом можно прочитать в обзоре (М. С. Гельфанд,  А .  А . Миронов. Вычислительная биология на рубеже десятилетий. Молекулярная биология. 1999, т. 33, № 6, с. 969-984);

Можно упомянуть также сборник статей (Математические методы для анализа последовательностей ДНК. М. С. Уотермен, ред. - М.: Мир, 1999).

Проект курса по биоинформатике, перечисляющий основные направления.

Основные журналы по биоинформатике - «Bioinformatics», «Journal of Computational Biology» и «Briefings in Bioinformatics», конференции - ISMB (Intellectual Systems for Molecular Biology) и RECOMB (International Conference on Computational Biology).

Словарь

ДНК (дезоксирибонуклеиновая кислота) - полимерная молекула, элементарными единицами которой являются четыре нуклеотида: A, C, G, T. Ген - участок ДНК, кодирующий один белок. Белок - полимер, в построении которого принимают участие 20 аминокислот (на самом деле больше, но другие аминокислоты появляются в результате дополнительной химической модификации). Белки играют основную роль в жизни клетки - формируют ее скелет, катализируют химические реакции, выполняют регуляторные и транспортные функции. В живой клетке каждая молекула белка имеет сложную пространственную структуру (см. рис. 1).

Геном - совокупность всех генов организма или, шире, полная последовательность ДНК. Размер генома человека - 3 миллиарда нуклеотидов, кодирующих 35-40 тысяч генов , генома бактерий - от 600 тысяч нуклеотидов/600 генов (внутриклеточные паразиты) до 6-8 миллионов нуклеотидов/5-6 тысяч генов (свободно живущие бактерии). Упражнение: в скольких выпусках журнала «Компьютерра» можно будет опубликовать бактериальный геном, если посвящать этому половину каждого номера?

Секвенирование - определение последовательности нуклеотидов во фрагменте ДНК. Именно это имеется в виду, когда в газетах пишут о «расшифровке генома человека». Исследование работы генов в масштабе целых организмов,  а  также эволюция геномов составляют предмет геномики,  а  анализ полного набора белков в клетке и их взаимодействий друг с другом - предмет протеомики.

 

Читайте также:

Биоинформатика: геном уникальности
Биоинформатика: Виртуальный эксперимент в шаге от реальности. Часть 1
Последнее обновление ( 06.04.2009 г. )
 
« Пред.   След. »