Краткая характеристика некоторых проектов по распределенным вычислениям в Интернет и GRID-проектов - BioinforMatix.ru - портал по биоинформатике, имейджингу и биософту

Краткая характеристика некоторых проектов по распределенным вычислениям в Интернет и GRID-проектов

Печать E-mail
Автор Неизвестен   
18.11.2008 г.
Distributed.net.. Одно из самых больших объединений пользователей Интернет, предоставляющих свои компьютеры для решения крупных переборных задач. Основные проекты связаны с задачами взлома шифров (RSA Challenges). С момента начала проекта в нем зарегистрировались 191 тыс. человек.

GIMPS (Great Internet Mersenne Prime Search). Поиск простых чисел Мерсенна (т.е. простых чисел вида 2P-1). С начала проекта было найдено 4 таких простых числа

SETI. Проект SETI (Search for Extraterrestrial Intelligence) - поиск внеземных цивилизаций с помощью распределенной обработки данных, поступающих с радиотелескопа. Присоединится может любой желающий. Для участия в проекте зарегистрировались около 920 тыс. человек.

TERRA ONE. Коммерческий проект TERRA ONE компании Cerentis ставит своей целью объединение множества персональных компьютеров, подключенных (или периодически подключаемых) к Интернет, для решения задач анализа информации, предоставляемой различными заказчиками. Клиентские компьютеры (TerraProcessor), подключенные к TERRA ONE, используются во время простаивания с помощью screen-saver'а. За обработку информации владельцы ПК получают возможность покупки в Интернет-магазинах - им начисляются "кредиты" (TerraPoints) за каждую единицу обработанной информации.

Legion. Проект Legion: A Worldwide Virtual Computer университета Вирджинии. Цель - разработка объектно-ориентированного программного обеспечения для построения виртуальных мета-компьютеров, включающих до нескольких миллионов индивидуальных хостов, объединенных высокоскоростными сетями.

Condor. Система Condor разрабатывается в университете шт. Висконсин (Madison). Condor распределяет независимые подзадачи по существующей в организации сети рабочих станций, заставляя компьютеры работать в свободное время (то есть в то время, когда они простаивали бы без своих пользователей). Программное обеспечение системы Condor доступно бесплатно. Globus. Проект реализуется в Argonne National Lab. Цель The Globus Project - построение инфраструктуры для "computational grids", включающей в себя вычислительные системы, системы визуализации, экспериментальные установки. В рамках проекта проводятся исследовании по построению распределенных алгоритмов, обеспечению безопасности и отказоустойчивости мета-компьютеров. Проект EU Data GRID (EDG)

Многие из перечисленных в предыдущем разделе проектов (  а  также и другие) могут быть в той или иной мере полезны в контексте крупного европейского проекта EU Data Grid для физики высоких энергий, биоинформатики и системы наблюдений за Землей. Общим во всех этих исследованиях является разделение данных по различным базам, распределенным по всем континентам. Основная их цель — улучшение эффективности и скорости анализа данных посредством интеграции глобально распределенных процессорных мощностей и систем хранения данных, доступ к которым будет характеризоваться динамическим распределением по GRID-инфрастуктуре, что предполагает управление репликацией и кэшированием.

Проект включает в себя несколько рабочих пакетов:

·        создание для всех рассматриваемых отраслей (физики высоких энергий, биологии и наблюдения Земли) приложений, осуществляющих прозрачный доступ к распределенным данным и высокопроизводительным вычислительным ресурсам;

·        управление рабочей загрузкой (распределенное планирование и управление ресурсами);

·        управление данными (создание интегрированного инструментария и инфраструктуры промежуточного слоя для согласованного управления и разделения петабайтных объемов данных c эффективным использованием ресурсов);

·        мониторинг (доступ к информации о состоянии и об ошибках в grid-инфраструктуре);

·        управление кластерами, состоящими из тысяч вычислительных узлов;

·        создание виртуальной частной сети, объединяющей вычислительные ресурсы и ресурсы данных, участвующие в отладке grid-инфрастуктуры;

·        управление массовой памятью (создание глобального grid-интерфейса к существующим системам управления массовой памятью).

В качестве основы промежуточного программного обеспечения для проекта EU Data Grid выбран набор инструментальных средств Globus.

Набор инструментальных средств GLOBUS

В настоящее время Globus в большей степени представляет собой инфраструктуру сервисов и набор инструментов для разработки распределенных приложений, чем замкнутый комплект утилит для пользователей. К основным видам сервисов, включенных в Globus отнесятся следующие.

·        Cвязь. Взаимодействие в GRID-среде может происходить в самых разных режимах: от передачи сообщений точка-точка до широкого вещания, причем, такие приложения как, например, управление инструментами могут одновременно использовать несколько режимов. Применяемые в Интернет протоколы не вполне удовлетворительны: велики накладные расходы, потоковая модель TCP непригодна для ряда режимов,  а  интерфейсы не позволяют контролировать все параметры. Идея альтернативных интерфейсов связи (API Nexus) системы Globus состоит в том, чтобы накрыть сверху нижележащие протоколы и методы, оставляя за приложением возможность выбора, одновременно обеспечивая автоматическую селекцию. Nexus вводит понятие коммуникационной связи, понимаемой как совокупность начальной и конечной точки сетевого соединения. Операция передачи инициируется путем запроса на удаленный сервис (RSR) и пересылке данных к ассоциированным конечным точкам и, в конечном счете, к открывшим их процессам. С одной начальной точкой может быть связано несколько конечных и, наоборот, поэтому могут быть сконструированы сложные коммуникационные структуры. В общем контексте GRID-среды предполагается наличие базы данных с динамически собираемой информацией о сети, необходимой для правильного выбора, включая: топологию, поддерживаемые протоколы, пропускную способность и задержки. Базовый коммуникационный слой Nexus применяется для реализации высокоуровневых сервисов и средств программирования.

·    Информационное обслуживание. Функционирование метакомпьютерной среды основано на управлении всевозможными типами ресурсов: компьютеров, сетей, протоколов и алгоритмов. Понятно, что поиск ресурсов возможен, если о них имеется соответствующая информация. Управление информацией в Globus (служба MDS – Metacomputing Directory Service) базируется на протоколе LDAP. LDAP специфицирует иерархическое древовидное пространство имен объектов (информационное дерево каталогов – DIT) и спроектирован как распределенная служба: произвольные поддеревья могут размещаться на различных серверах. Модель данных MDS представляет различные типы ресурсов, использующихся в распределенных вычислениях. В протоколе LDAP ресурсы формализуются понятиями объекта и атрибутов. В MDS это сайты (административные домены), вычислительные хосты вместе со сведениями о платформе, производительности процессоров, объеме памяти и т.д. Начиная с версии Globus 1.3 используется распределенная модель GRIS-GIIS: на каждом узле работает локальная база данных GRIS, которая может быть связана с сервером организации GIIS, собирающим данные с нескольких GRIS.

·   Безопасность. Безопасность в GRID-среде является многоаспектной проблемой, включающей вопросы аутентификации, авторизации, разграничения прав и пр. В традиционных приложениях клиент – сервер аутентификация происходит между одним клиентом и одним сервером. Сетевые же приложения могут получать ресурсы и запускать процессы на множестве компьютеров, причем их может быть действительно много – несколько сотен. Запущенные процессы взаимодействуют друг с другом, образуя динамически организованное логическое целое. Следовательно, возможное решение должно устанавливать и контролировать доверительные отношения потенциально между любыми двумя процессами. Пользователь аутентифицирует себя всего один раз за сессию, создавая «мандат», по которому процессы получают ресурсы от имени пользователя без какого-либо его дополнительного вмешательства. В Globus схема безопасности реализуется на базе стандарта GSS – Generic Security Services, определяющем процедуры и API получения сертификатов для взаимной аутентификации клиента с сервером, для кодирования/декодирования сообщений и электронной подписи. При этом GSS независим от какого-либо конкретного механизма безопасности и может быть надстроен над различными методами.

·    Управление ресурсами. Под управлением ресурсами в метакомпьютинге принято понимать круг проблем, связанных в первую очередь с обнаружением и выделением ресурсов,  а  также аутентификацию, авторизацию, создание процессов и другие действия по подготовке ресурсов к использованию в сетевом приложении. В системе Globus средством заказа ресурсов служит язык спецификации RSL (Resource Specification Language), который определяет унифицированные для всей глобальной среды формы задания ресурсов и служит для реализации связи между компонентами GRID-среды, обслуживающими запросы.

     Запросы RSL конструируются из спецификаций параметров ресурсов, соединенных логическими операторами &, |, +. Имеется два типа параметров, различающихся по смыслу и по способу обработки: (1) Имена атрибутов MDS используются для задания ограничений на ресурсы (например, memory=64, network=atm); (2) локальные параметры выражают информацию относительно задания (count - число запрашиваемых узлов, max_time - время счета и т.д.). Они интерпретируются в локальных системах.                                                                            

    За преобразование RSL в более конкретные спецификации и наоборот ответственен так называемый "брокер", который по строке RSL подбирает соответствующие ресурсы. Реализация этого брокера существенно опирается на информационный сервис, обеспечивающий эффективный доступ к данным о текущем статусе ресурсов. Результатом выполнения поискового запроса становится один или несколько адресов локальных менеджеров ресурсов, подходящих для запускаемого задания.

·        Локальное управление ресурсами и заданиями.  Самый низший уровень в архитектуре Globus – уровень управления ресурсами реализует локальный менеджер GRAM, который выполняет обработку спецификаций RSL (либо отвергая запрос, либо запуская одно или более заданий, указанных в запросе параметром executable),  а  также осуществляет дистанционный контроль заданий и периодическое обновление информации сервиса MDS. При обработке спецификаций GRAM либо самостоятельно выделяет ресурсы, либо делает это посредством обращения к некоторой локальной системе управления пакетной обработкой (СУПО). В программном интерфейсе GRAM представлены функции запуска, снятия задания и опроса его состояния. На базе этого API (и с помощью API других сервисов) в системе Globus реализован пользовательский интерфейс для управления заданиями.

Программное обеспечение Globus доступно распространяется свободно.

Организация ресурсов в проекте EDG

Ресурсы в проекте EDG формируются из отдельных сайтов. Типичный сайт содержит следующие элементы:

1.      Компьютер конечного пользователя (User Interface, UI).  Это компьютер, на котором установлено программные средства пользовательского интерфейса и который позволяет конечному пользователю взаимодействовать с GRID-средой (в частности, запускать задания и получать результаты).

2.      Вычислительный элемент (Computing Element, CE). Вычислительный элемент представляет собой GRID-интерфейс к локальной СУПО.

3.      Рабочие узлы (Woker Nodes, WN). С точки зрения GRID-среды рабочие узлы находятся за вычислительным элементом (CE) и управляются локальной СУПО. Детали процесса распределения и вычисления оказываются скрытыми для конечного пользователя, но именно эти узлы выполняют фактические вычисления и, значит, на них должно быть установлено программное обеспечение для выполнения заданий конечных пользователей.

4.      Накопитель данных (Storage Element, SE). Этот узел обеспечивает единообразный доступ к любым накопителям данных . В общем случае, накопитель может управлять дисковыми массивами, массовой памятью и т.п. Этот элемент скрывает детали конкретной накопительной системы и обеспечивает пользователям единообразный доступ к данным.

Существуют также узлы, ответственные за сервисы  общего пользования:

1.      Брокер ресурсов (Resource Broker). Этот узел принимает задание от пользователя (через пользовательский интерфейс), согласует требования к ресурсам, содержащиеся в описании задания, с имеющимися в наличии свободными ресурсами и направляет задание на подходящий сайт.

2.      Каталог реплик (Replica Catalog).  Этот элемент поддерживает базу данных о местах хранения оригинальных файлов и всех их копий.

 
Последнее обновление ( 08.04.2009 г. )
 
« Пред.   След. »