Компьютерная геномика - новая эра - BioinforMatix.ru - портал по биоинформатике, имейджингу и биософту

Компьютерная геномика - новая эра - BioinforMatix.ru - портал по биоинформатике, имейджингу и биософту

Компьютерная геномика - новая эра

Печать E-mail
Автор С.А.Боринская, М.С.Гельфанд, А.А.Миронов   
02.10.2008 г.
Ранее биологи изучали формы и функции организмов, переходя от изучения целого к изучению частей живого - органов и тканей. Современная биология изучает части - гены и молекулы, пытаясь воссоздать картину их функционирования   в  целом организме. Появилась новая наука -геномика Объектом ее является совокупность всей генетической информации организма -геном. Работа генов определяет то, какие белки синтезируются  в  клетке. Именно от разнообразия и активности белков зависят молекулярные процессы, обеспечивающие существование жизни. Установление и характеристика полного набора белков данного организма относится к компетенции еще одного нового направления биологии -протеомики.
 
По предварительным оценкам,  в  геноме человека содержится около 60-80 тысяч генов. Большинство генов  в  каждой клетке "молчит". К постоянно работающим во всех клетках относятся гены, кодирующие компоненты аппарата синтеза белка, РНК,  ферменты, занимающиеся синтезом и починкой ДНК, ферменты системы обеспечения энергией и другие компоненты, необходимые для ведения "домашнего хозяйства" клетки.  В  геноме человека заведуют "домашним хозяйством" около одной пятой всех генов. Среди остальных есть гены, работающие только на определенных этапах развития организма - например, те которые кодируют эмбриональные белки или обеспечивают лактацию. Другие работают лишь  в  немногочисленных клетках. Так, наша способность воспринимать запахи связана с обонятельными рецепторами. Всего найдено около тысячи генов, кодирующих рецептор, и  в  каждой клетке обонятельной луковицы работает только один ген из этой тысячи. К удивлению исследователей оказалось, что некоторые из этих генов работают и  в  сперматозоидах (предположительно потому, что им надо как-то  в  темноте ориентироваться).

Можно сказать, что  в  каждой клетке "звучит" свой аккорд генов, определяя спектр синтезируемых на них видов РНК, кодируемых матричной РНК белков и, соответственно, свойства клетки. Набор активных генов различается  в  зависимости от типа ткани, периода развития организма, полученных внешних или внутренних сигналов.

Перед началом гена находятся промоторы - специальные регуляторные последовательности, которые включают и выключают работу генов  в  зависимости от полученных клеткой сигналов. Клетка прекрасно "понимает", когда и какой участок генетического текста надо считывать, реализуя записанную  в  нем информацию. Более двадцати лет назад была расшифрована структура регуляторных участков  в  ДНК бактерий . С тех пор ученым удалось многое понять  в  работе генов. Бурное развитие геномики связано, с одной стороны, с совершенствованием методов секвенирования ДНК, то есть определения последовательности (англ. sequence -последовательность) нуклеотидов  в  ней. С другой стороны, лавинообразный рост объема накопленных данных вызвал развитие компьютерных технологий анализа информации, записанной  в  ДНК. Сейчас изучают уже не отдельные фрагменты ДНК, а целые геномы десятков бактерий, дрожжей, дрозофилы, нематод

Конечно же, максимум ожиданий связан с изучением генома человека, направленным на выявление всех генов человека, установление их функций и взаимодействий  в  норме и при нарушениях, приводящих к болезням. Полностью геном человека должен быть прочитан к 2003 году. Это означает, что будет определена последовательность всех 3 миллиардов нуклеотидов, из которых состоит геном человека. При этом число ошибок не должно превысить 300 000 (не более 1 ошибки на 10 000 нуклеотидов). Пока прочитанные участки ДНК человека не соединены  в  единую последовательность, и точность прочтения на порядок ниже необходимой.

Однако сам по себе нуклеотидный текст - только лишь исходный материал для дальнейшего анализа и выявления  в  нем генов. Необходимо понять, когда и какие фрагменты ДНКовых текстов переписываются  в  набор молекул РНК, какие белки при этом синтезируются, как меняется при этом структура и функция клетки.

Кроме понимания фундаментальных законов жизни открытия геномики приносят заметную практическую пользу. Фармацевтические компании вкладывают огромные средства  в  геномные исследования. И не зря. Геномика уже многое дала медицине. А по предсказанию Френсиса Коллинза, возглавляющего американскую программу исследования генома человека, через 40 лет лечение самых различных недугов будет основано на использовании синтетических генных продуктов, которые будут изменять работу заболевших клеток и органов  в  нужном для выздоровления направлении.

 

Компьютерные эксперименты

 В  течение ста лет изучение генов было основано на экспериментах in vivo ( в  живой клетке) и in vitro ( в  пробирке). Появившиеся  в  60-х годах компьютеры были лишь вспомогательным средством для обработки и хранения данных. С конца 80-х годов началось создание баз данных,  в  которых хранится информация о миллионах последовательностей нуклеотидов  в  ДНК и РНК или аминокислот  в  белках. Компьютерный анализ превратился  в  самостоятельную область науки - биоинформатику. Исследования in silico, то есть  в  компьютере, уже привели к расшифровке многих "слов" генетического текста - команд, записанных  в  ДНК и управляющих жизнью клетки. Для такой расшифровки используют специально разработанные программы, например, для статистического анализа распределения нуклеотидов  в  ДНК. Напомним, что  в  генетическом алфавите всего четыре буквы - А (аденин), Т (тимин), Г (гуанин) и Ц (цитозин) . Любители подсчета буковок выяснили, сколько подряд может идти букв А, или как часто Г встречается после Ц  в  ДНК бактерий или человека.  В  "осмысленных ", то есть кодирующих участках ДНК эти сочетания подчиняются определенным правилам, тогда как  в  промежутках между генами, там, где ничего существенного  в  ДНК не записано, частота сочетаний нуклеотидов близка к случайному. Похоже на правила грамматики, которые мы учили  в  школе "жи-, щи- пиши через и".  В  словах русского языка буква ы после ж не встречается (разве что  в  тетрадях двоечников). Также и  в  генетических текстах -  в  кодирующих участках некоторые сочетания нуклеотидов практически не встречаются, а распределение других сочетаний сильно отличается от случайного. Это видно при подсчете распределения триплетов, кодирующих аминокислоты,  в  генах излюбленного объекта генетиков - кишечной палочки (табл. 1). У кишечной палочки, также как и у других организмов, всего имеется 64триплета. Три из них - ТАА, ТАГ и ТГА - не кодируют аминокислоты, а являются сигналом окончания (терминации) синтеза белка.

Одна и та же последовательность ДНК может быть прочитана тремя способами со сдвигом на один нуклеотид. Способ чтения называется рамкой считывания. Понятно, что терминирующие триплеты не встречаются внутри гена  в  кодирующей рамке считывания ( в  других рамках они могут встречаться, но никому там не мешают - они не читаются, если молекулярная машина не собьется). Распределение кодирующих триплетов внутри гена различно. Триплет ЦТГ встречается на порядок чаще, чем триплет ЦТА, хотя оба они кодируют одну и ту же аминокислоту -лейцин.  В  межгенных промежутках такие различия частот не наблюдаются.

Такие подсчеты, называемые статистическими методами анализа нуклеотидных последовательностей, позволяют распознать участки генома с определенными свойствами. Например, у бактерий большинство болезнетворных генов находится  в  так называемых "островках патогенности". Это участки, отличающиеся по частоте встречаемости А-Т и Г-Ц пар нуклеотидов от остального генома.

 

Где искать гены ?

У бактерий выявить гены относительно легко. Во-первых, они занимают около 80-90% бактериального генома, так что вероятность попасть  в  ген гораздо больше, чем промахнуться. Во-вторых, белок-кодирующий участок бактериального гена - это непрерывная открытая рамка считывания. Так что если ученому удалось найти  в  сплошной цепочке букв начало бактериального гена, то он будет читать его, как и клетка, триплетами до самого конца, по не наткнется на стоп-кодон.

Гены высших организмов,  в  том числе и человека, искать намного труднее. У человека на участки, кодирующие белки, приходится только 5 % всего генома. И белок-кодирующие участки идут не сплошь, как у бактерий, а прерываются вставочными последовательностями - интронами, которые после синтеза матричной РНК из нее вырезаются. Ген может содержать до нескольких десятков кодирующих фрагментов - экзонов, чередующихся с интронами. К тому же  в  разных клетках могут использоваться различные сочетания экзонов одного и того же гена.

На основе статистического анализа можно с определенной долей вероятности установить, к какому участку генома относится исслеуемый фрагмент. Подобно тому, как включив телевизор и услышав слова " в  отличие от обычного средства" или "дешевле только даром", вы сразу поймете, что попали на рекламный ролик. Эти словосочетания  в  других передачах почти не встречаются. Так и определенные сочетания нуклеотидов указывают на принадлежность анализируемого куска генетического текста к интрону или экзону, кодирующему белок. Границы интронов и экзонов обозначены  в  ДНК специальным сочетанием нуклеотидов.

Без компьютерных биоинформационных технологий развитие геномных исследований было бы невозможным. Компьютерный поиск генов особенно важен для исследования генома человека, так как методы классической генетики имеют ограниченное применение  в  этом случае - ведь человек,  в  отличие мух-дрозофил, не может быть объектом искусственного мутагенеза или иных генетических экспериментов. Однако результаты экспериментов, поставленных на животных, могут быть применимы и для человеческого генома. Наиболее важные участки генома относительно мало изменяются  в  процессе эволюции, и их функции, установленные  в  экспериментах на мышах или мухах, оказываются такими же и у человека .

Компьютерный анализ генетических текстов разных организмов позволяет выявить такие сходные участки. Медленннее всего меняются участки, кодирующие белки.  В  наиболее важных белках отдельные участки сохранялись неизменными на протяжении миллиардов лет эволюции - от бактерий до человека (рис. 1). Это дает возможность находить гены при сравнении геномов отдаленно родственных видов. Таким анализом занимается сравнительная геномика. Ее методы используют для выявления родства отдельных генов, родства организмов, установления происхождения видов и более крупных таксонов.

Если сравнивать гены человека и дрозофилы, то легко выявить гены, так как у неродственных организмов более заметна разница между значимыми (медленно меняющимися) и незначимыми участками. Но часть человеческих генов не похожа на мушиные, и их выявить при таком сравнении не удается. У нашей более близкой родственницы мыши почти такой же набор генов как и у человека. Однако сохранение сходства  в  некодирующих областях создает трудности при выявлении генов сравнительными методами. То есть выбирать организм для сравнения надо  в  зависимости от конкретной задачи.

А вот гены шимпанзе почти идентичны человеческим. Генетический текст шимпанзе отличается от нашего  в  среднем 1 нуклеотидом из 300. Так что сравнение генома человека с обезьяньим нельзя использовать для выявления генов. Однако если гены уже известны, то существенные различия между человеком и шимпанзе скорее всего связано именно с теми генами, которые делают нас людьми. Поэтому, как сообщил недавно журнал "Сайнс",  в  Германии начат проект "Геном шимпанзе".

Сравнительная геномика позволяет по известным функциям генов мухи или червя нематоды предсказывать функции генов человека. А выявленные у человека гены, работа которых нарушена при тех или иных заболеваниях, могут быть изучены на других животных. Например, у человека найдены гены, мутации  в  которых приводят к болезни Альгеймера - одной из форм старческого слабоумия. Оказалось, что изучать действие этих генов и искать способы лечения можно  в  экспериментах на мухах. Мутации  в  генах мухи приводят к изменениям  в  мушиных мозгах, очень сходным с молекулярными нарушениями, происходящими  в  мозге пациентов с болезнью Альцгеймера. У слабоумных мух нарушается способность к запоминанию. Ведется поиск генов у мух, связанных с нарушениями памяти, и препаратов, способных замедлить развитие болезни - сначала у мух, а потом, надо надеяться, и у людей.

Важные для медицины и промышенности результаты дали исследования целых геномов бактерий. Уже полностью прочитаны геномы нескольких десятков бактерий. Среди них, кроме уже упоминавшейся кишечной палочки, возбудители социально значимых инфекций - туберкулеза, сифилиса, возбудители тифа, гастрита, некоторые промышленно важные бактерии. Практически все гены  в  изученных бактериальных геномах выявлены, для многих известны функции белкового продукта. По известным функциям белков проводят реконструкцию обмена веществ - метаболических путей - бактерии. Реконструкция основных метаболических процессов организма по последовательности нуклеотидов его генома - одна из важнейших задач геномных исследовний. Эту область исследований назвали труднопроизносимым словом метаболомика.

Анализ полной последовательности нуклеотидов генома микобактерии - возбудителя туберкулеза - показал, что у бактерии имеются жизненно важные для нее ферменты, отсутствующие у человека. Поиск лекарств, действующих именно на эти ферменты, обещает переворот  в  борьбе с этой инфекцией, уносящей миллионы человеческих жизней.
 
 Читайте также:

 Структурная геномика

Геном человека прочитан, но не понят

Евгеника как предшественник современной геномики

Последнее обновление ( 06.04.2009 г. )
 
« Пред.   След. »


Copyright 2012 Bioinformatix.ru