|
1. Введение
Бурное развитие молекулярной биологии и генетики в последние десятилетия привело к появлению огромного количества экспериментальных данных по структуре и функции ДНК, РНК и белков. Решение задач молекулярной биологии и генетики, биотехнологии, генетической и белковой инженерии требует использования разнообразной информации о первичной и пространственной структуре этих макромолекул, распределенной по большому количеству баз данных. Для упорядочения и накопления этой информации создано не менее 500 спе¬циализированных баз данных, большнство из которых доступны по Интернет [1].
Для анализа информации, накопленной в этих базах данных разработано огромное количество программ, а так же десятки систем, обеспечивающих доступ к базам данных, навигацию по ним, и графическое представление имеющихся данных. Распределенность информации по базам данных и ее представление в различных форматах делают проблему Интернет-интеграции весьма сложной, как в концептуальном, так и техническом ас¬пектах. Сложной и нерешенной в настоящее время является проблема автоматической продукции молекулярно-биологических и молекулярно-генетических знаний на основе компьютерного анализа информации, накапливаемой в базах данных. Любые интегрированные информационные ресурсы по молекулярной биологии и генетике должны обеспечивать широкий набор средств для работы пользователей, в первую очередь — эффективную систему для выполнения сложных запросов и поиска информации по большому количеству распределен¬ных ресурсов; возможность осуществления сложных сценариев анализа, требующих использования большого количества различных баз данных и программ; возможность хранения значимых результатов анализа в соответствующих базах знаний и т. д. Очень важным является создание средств для эффективной навигации по интегрированным Интернет-ресурсам.
2. Ресурсы, интегрированные в рамках электронной библиотеки ГенЭкспресс
В рамках ГенЭкспресс интегрировано большое количество баз данных, баз знаний и сотни программ для обработки информации по структуре и функции ДНК, РНК и белков (рис. 1).
2.1 Базы данных
ГенЭкспресс включает в себя большое количество внутренних информационных ресурсов — баз данных по структуре, функции и эволюции ДНК, РНК и белков, разработанных в Лаборатории теоретической генетики ИЦиГ СО РАН.
2.1.1 Базы данных по структуре и функции ДНК и РНК
База данных Transcription Regulatory Regions Database (TRRD) содержит информацию о строении и функционировании районов геномной ДНК, обеспечивающих регуляцию транскрипции генов эукариот [9]. Данные вносятся в базу на основании аннотирования научных статей. TRRD содержит информацию о следующих регуля-торных элементах: 1) сайтах связывания транскрипционных факторов, 2) композиционных элементах; 3) промоторах, 4) энхансерах и сайленсерах; 5) транскрипционных регуляторных районах. Один вход в базу данных соответствует описанию регуляторных районов одного гена. В настоящее время в базе содержится описание 689 генов, 984 регуляторных районов (промоторов, энхансеров и сайленсеров), и 3335 сайтов связывания. Эта информация получена на основании реферирования более 2311 научных статей.
SAMPLES, база данных регуляторных геномных последовательностей. Она содержит информацию о выборках последовательностей сайтов связывания транскрипционных факторов и функциональных районов других типов (сайты связывания нуклеосом, 5' нетранслируемые районы мрнк эукариот, промоторы генов эукариот и т. д.). База данных формируется на основе баз данных TRANSFAC, TRRD и EMBL, а также литературных данных. База данных по активности функциональных сайтов ДНК и РНК.
|