|
Символьные последовательности как объект исследования возникают в весьма различных и порой далёких друг от друга областях науки. Несмотря на это исследователи обнаруживают весьма глубокую и содержательную связь как между подходами к исследованию символьных последовательностей, так и между содержательными результатами, получающимися в этих областях.
По-видимому, наиболее активно исследования символьных последовательностей начали развиваться после выхода в свет работы К.Шеннона, посвященной анализу процесса передачи информации. Работы в этом направлении не прекращаются, однако мы не будем их здесь обсуждать, поскольку они выходят за рамки нашего исследования. Обширен круг исследований символьных последовательностей, посвященных проблемам кодирования и декодирования различных сообщений и вообще — проблемам передачи информации. Не останавливаясь подробнее на иных аспектах в прикладных исследованиях свойств символьных последовательностей — например, в теории программирования, — остановимся лишь подробнее на таком фундаментальном понятии сложности символьной последовательности. В самом элементарном варианте сложность символьной последовательности может быть представлена как последовательность неких (более или менее) элементарных операций, которые можно совершать с начальным фрагментом исходной последовательности с тем, чтобы построить всю последовательность целиком. Длина такого рода "программы" может рассматриваться как сложность символьной последовательности. Основы для изучения сложностных характеристик символьных последовательностей были заложены в фундаментальных работах А.Н.Колмогорова. Дальнейшее развитие идей Колмогорова было изложено в работе А.Л.Левина, А.К.Звонкина, а их более популярный и прикладной вариант — в работе Лемпеля и Зива. Именно это направление в исследованиях сложности символьных последовательностей активно развивалось новосибирскими исследователями и некоторыми другими авторами. Нуклеотидная последовательность рассматривается как реализация того или иного случайного процесса, при этом другие реализации такого процесса рассматриваются как суррогатные последовательности с тем же нуклеотидным составом. После чего сложностные характеристики определялись для всего семейства реализаций (включая реальную последовательность) и определялся характер флуктуации сложностных характеристик, на фоне которого изучалась сложностная характеристика реальной нуклеотидной последовательности. Такой подход позволил выделить несколько реальных последовательностей, для которых хорошо строится контекстно свободный язык. Идеи изучения степени сложности тех или иных естественных объектов всегда возникают в тех областях естествознания, где освоены и активно применяются методы математического моделирования. Это неудивительно, поскольку описывать сложность того или иного естественного объекта можно лишь постольку, поскольку развит соответствующий модельный объект; как правило, выбор такого объекта обусловлен конкретными задачами того или иного исследования. Из областей исследований, смежных нашему укажем на работы по изучению сложности моделей химических реакций, а также на работы в области изучения сложности биологических сообществ и иных биологических систем. Обратимся, однако, подробнее к задачам изучения тех символьных последовательностей, которые соответствуют биологическим макромолекулам — в первую очередь генетическим текстам. С момента появления биоинформатики и методов определения последовательностей нуклеотидов в ДНК возник ряд проблем, связанных с распознаванием структуры последовательности, выделения в них функционально значимых участков, построения филогенетических деревьев и т.д. Рост объема данных первичных структур биополимеров немедленно вовлек в сферу изучения генетических текстов методы теории вероятностей и математической статистики, теории программирования, теории графов, иных разделов чистой и прикладной математики. Первые попытки, исследования генетических текстов статистическими методами были связаны с определением частот встречаемости различных слов и отдельных нуклеотидов и сравнением этих характеристик у различных организмов. В настоящее время методы теории вероятностей и математической статистики широко используются в генетических исследованиях, что привело к установлению большого количества закономерностей и аномальных характеристик, многие из которых еще предстоит объяснить на функциональном уровне. Круг содержательных задач статистического анализа первичных последовательностей ДНК достаточно широк. Проблема аннотирования геномов К настоящему времени количество расшифрованных последовательностей нуклеотидных кислот — носителей наследственной информации любого живого организма — достигает порядка 1012 нуклеотидов. Более точная оценка едва ли возможна, поскольку ежедневно в банки генетических данных помещается до 106 символов новых расшифрованных нуклеотидных последовательностей. Столь существенные скорости расшифровки генетических текстов не сопровождаются однако столь же стремительным развитием соответствующих (в первую очередь — вычислительных) методов описания расшифрованных последовательностей. Дело в том, что расшифрованная последовательность не содержит никаких "явных" указаний на то, какую именно функцию выполняет тот или иной участок расшифрованной ДНК. Точное указание тех функций, которые определяет в организме (точнее, в его генетической системе) каждый отдельно взятый участок нуклеотидной последовательности носит название задачи аннотирования генома. Задача аннотирования генома является комплексной и требует привлечения методов и подходов, специфичных для самых различных областей знания. Она включает в себя построение таких инструментов для анализа символьной последовательности, как поиск фрагмента по образцу, поиск фрагмента по неточному (с заменами и пробелами) образцу, поиск всех включений того или иного сравнительно короткого) фрагмента, поиск и выявление закономерностей в большой последовательности, причём как уже заранее известных, так и неизвестных, а также сравнение последовательностей между собой. Следует особо подчеркнуть, что все эти задачи должны решаться на очень больших (до 10 символов) последовательностях и крайне актуальной становится разработка и реализация в виде программ соответствующих алгоритмов для решения указанных задач, обладающих высокими показателями эффективности. Решение задачи автоматизированного аннотирования геномов в принципе не может быть получено без привлечения различной дополнительной информации, выходящей за рамки собственно анализируемой (и, соответственно, аннотируемой) символьной последовательности. К такого рода дополнительной информации относится как знание (с той или иной степенью достоверности) функционального значения выделяемого и описываемого участка генома — например с помощью ПДРФ (полиморфизма длин рестрикционных фрагментов), либо знания о функции того или иного участка в геноме. Здесь важную роль начинают играть такие показатели алгоритмов, реализующих все этих функции в инструменте для анализа генетических текстов, как его эффективность и оптимальность. Перейдём к более подробному анализу существующих результатов в связи с проблемой аннотирования геномов — в первую очередь это корректное описание генетических текстов.с помощью математических моделей, которые необходимы для оценки статистической значимости найденных закономерностей, построение словарей наиболее часто или аномально редко встречающихся подпоследовательностей, выделение зонной структуры геномов, поиск и выявление сходства (гомологии) различных генетических текстов. Ещё одним направлением, тесно примыкающим к задачам аннотирования генома, является задача сегментирования символьной последовательности. Для случая нуклеотидной последовательности такое сегментирование может давать то или иное приближение в задаче аннотирования генома; задача сегментирования в общем виде не связана с биологическими особенностями рассматриваемых последовательностей. Работы по сегментированию геномов на основе статистических методов ведутся достаточно активно. Читайте также: |