Одной из прикладных задач компьютерной биологии является применение вычислительных алгоритмов, используемых для анализа и систематизации генетической информации, выяснения структуры, динамики и функции макромолекул для создания новых лекарственных препаратов. Область науки о компьютерном анализе генетических текстов, аминокислотных последовательностей, пространственной структуры и динамики белков, лежащем в основе определения макромолекул-мишеней, и поиск низкомолекулярных комплексов с целью создания новых лекарств превратилась в быстроразвивающееся направление биомедицины в конце 20-го века.
Весь процесс создания нового лекарственного соединения в ряде случаев может быть разделен на следующие этапы: (1) поиск мишени (например, белка) действия нового лекарства; (2) поиск низкомолекулярного соединения, обладающего нужным фармакологическим действием; (3) изучение этого соединения в эксперименте; (4) проведение испытаний в клинике. Лишь малый процент возможных кандидатов на лекарство проходит успешное клиническое испытание. Собственно компьютерными являются 1-й и 2-ой из перечисленных этапов. Если пространственная структура белка-мишени известна, то применяют так называемые прямые методы компьютерного конструирования лекарств. Вначале устанавливают место связывания низкомолекулярного соединения (лекарства) и белка-мишени. Затем проводят анализ полученного комплекса с помощью молекулярной графики (так называемый докинг) с последующим молекулярно-динамическим и квантовохимическим расчетом. Все этапы этого расчета требуют высокопроизводительных вычислений. Уже самый первый этап поиска подходящего кандидата на лекарство связан с перебором сотен миллионов вариантов из соответствующей базы данных низкомолекулярных соединений. Последующие этапы расчета, как следует из вышесказанного, также требуют применения суперкомпьютеров. В таблице 2 представлены методы и вычислительные затраты на полный расчет способности связывания низкомолекулярного соединения для различных размеров баз данных лекарств. Точность расчета, даваемого каждым из представленных методов, возрастает при движении от верхней части таблицы к ее нижней части. Из приведенного сравнения следует, что более точные методы могут оказаться неприемлемыми из-за чрезмерных затрат времени на вычисления. Оценка необходимых ресурсов при использовании квантовохимических методов для расчета энергии системы из 10416 флоп. На 100-терафлопной машине такой расчет займет 5 минут. тяжелых атомов приводит к величине ~10 Таблица 2. Оценки современных вычислительных потребностей для полного расчета энергии связывания всех низкомолекулярных соединений, входящих в различные базы данных. Уровень сложности моделирования | Метод | Размер базы | Время расчета | Молекулярная механика | SPECTTOPE | 140000 | ~ 1 часа | Жесткие лиганд/мишень | LUDI | 30000 | 1 - 4 часа | Молекулярная механика | Hammerhead | 80000 | 3 - 4 дня | Частично деформируемый лиганд | DOCK | 17000 | 3 - 4 дня | Жесткая мишень | DOCK | 53000 | 14 дней | Молекулярная механика | ICM | 50000 | 21 день | Молекулярная механика | AMBER CHARMM | 1 | несколько дней | Квантомеханичеcкий активный сайт | Gaussian, Q - Chem | 1 | несколько недель | В случае, когда пространственная структура белка-мишени неизвестна, имеется достаточно большое число различных подходов сравнительного моделирования. При построении трехмерной модели белка с заданной аминокислотной последовательностью эта полипептидная цепочка сначала "вписывается" в координаты, соответствующие остаткам гомологичного белка с расшифрованной пространственной структурой, а затем осуществляется минимизация внутренней энергии, чтобы "убрать" возможные напряжения в структуре. В дальнейшем методами молекулярной динамики моделируется движение отдельных частей молекулы с целью уточнения расположения гибких участков. Качество полученной модели оценивают с использованием программы, которая сравнивает пространственное расположение аминокислотных остатков моделируемого белка с известной статистикой, полученной для белков с расшифрованной экспериментально пространственной структурой. Построенные таким способом модели были успешно использованы для конструирования, например: новых ингибиторов протеазы вируса иммунодефицита человека для лечения СПИДа; ингибиторов ренина, как средства для лечения эссенциальной гипертензии; для белковой инженерии гибридных нейтрофорных факторов и т.д. Неукротимый рост вычислительных мощностей сопровождается лавинообразным расширением биологических данных по геномам человека и других организмов. Дополнительная информация поступает из фармацевтической химии, неврологии, микробиологии, иммунологии, клинических испытаний, токсикологии, эпидемиологии и др. дисциплин и должна интегрироваться с генетическими и структурными данными. Создать единую картину всей информации, установить связи между отдельными областями знания - задача биоинформатики. В основе будущих открытий в этих науках лежит использование огромных массивов баз данных по первичным последовательностям, структурам белков и низкомолекулярным соединениям. Их число в настоящее время составляет несколько сотен. С усовершенствованием техники секвенирования скорость расшифровки генома человека и других организмов в ближайшие несколько лет возрастет в сотни раз. Число различных баз данных в ближайшие годы будет экспоненциально нарастать. Работа с такими огромными массивами информации требует создания принципиально новых подходов к обработке данных и соответствующего программного обеспечения. По-видимому, наиболее эффективный путь решения этой проблемы - создание систем с параллельной обработкой информации, что хорошо вписывается в кластерную структуру современных суперкомпьютеров. Важно подчеркнуть, что полноценное решение проблемы конструирования лекарств невозможно без создания общей базы знаний по физико-химической биологии. Такая база знаний должна включать не только сведения о структуре и функции отдельных белков, но и карты всех метаболических путей огромного количества реакций, протекающих в живом организме. В настоящее время в Пущинском научном центре предприняты первые попытки создания базы каталитических реакций белков и их математических моделей в клетках и клеточных ансамблях. Подводя итог, можно сказать, что развитие высокопроизводительных вычислений в ближайшем будущем будет определять прогресс в молекулярной биологии. Именно на решение проблем молекулярной биологии ориентируются создатели будущих сверхпроизводительных вычислительных систем. В частности, на решение проблемы фолдинга и конструирования лекарств ориентированы создатели петафлопного суперкомпьютера (Blue Gene), который по проекту фирмы IBM должен вступить в строй в 2004 году. Эта область определена как приоритетная Национальным научным фондом и Национальной академией наук США, а также всеми развитыми и многими развивающимися странами. Вплоть до самого последнего времени в России направление "Компьютерная биология" практически отсутствовало. Создание Межведомственного суперкомпьютерного центра (МСЦ), ориентированного в том числе и на решение задач молекулярной биологии во взаимодействии со специалистами в области компьютерной и математической биологии, и поддержка этого направления на правительственном уровне может качественно изменить сложившуюся ситуацию. Читайте также:
|