Принципы построения систем оперативной аналитической обработки данных на гетерогенных кластерах - BioinforMatix.ru - портал по биоинформатике, имейджингу и биософту

Принципы построения систем оперативной аналитической обработки данных на гетерогенных кластерах

Печать E-mail
Автор Д.  П . Бугаев   
27.04.2009 г.

Введение
 
Современный  уровень  развития  аппаратных  и  программных средств с некоторых пор сделал возможным повсеместное ведение баз данных  оперативной  информации  на  разных  уровнях  управления.  В процессе  своей  деятельности  промышленные  предприятия,  корпорации,  ведомственные  структуры,  органы  государственной  власти  и управления  накопили  большие  объемы  данных.  Они  хранят  в  себе большие потенциальные возможности по извлечению полезной аналитической  информации,  на  основе  которой  можно  выявлять  скрытые тенденции, строить стратегию развития, находить новые решения.

В последние годы в мире оформился ряд новых концепций хранения и анализа корпоративных данных:  

1) хранилища данных, или Склады данных (Data Warehouse);

2)  оперативная  аналитическая  обработка (On-Line Analytical Processing, OLAP);  
3) Интеллектуальный анализ данных – ИАД (Data Mining).

Технологии OLAP тесно связаны с технологиями построения Data Warehouse и методами интеллектуальной обработки – Data Mining. Поэтому  наилучшим  вариантом  является  комплексный  подход  к  их внедрению.
 
Способы аналитической обработки данных 

Для того чтобы существующие хранилища данных способствовали принятию  управленческих  решений,  информация  должна  быть  представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки. 

Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения,  оказываются  чрезвычайно  просты  в  применении,  но жестко ограничены  в функциональности. Такие  статические  системы называются в литературе Информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они  содержат  в  себе  предопределенные множества  запросов и, будучи достаточными для повседневного  обзора,  неспособны  ответить  на  все  вопросы  к  имеющимся данным,  которые могут  возникнуть при принятии решений. Результатом  работы  такой  системы,  как  правило,  являются  многостраничные отчеты, после  тщательного изучения  которых у  аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный  при  проектировании  такой  системы,  должен  быть  сначала  формально описан, закодирован программистом и только затем выполнен.

Время ожидания в таком случае может составлять часы и дни, что не всегда  приемлемо.  Таким  образом,  внешняя  простота  статических СППР, за которую активно борется большинство заказчиков информационно-аналитических  систем,  оборачивается  катастрофической потерей гибкости.

Динамические СППР, напротив,  ориентированы на  обработку нерегламентированных  запросов аналитиков к данным. Наиболее  глубоко  требования  к  таким  системам  рассмотрел E.F. Codd,  положившей начало  концепции OLAP.  Работа  аналитиков  с  этими  системами  заключается в интерактивной последовательности формирования  запро-
сов и изучения их результатов.

Но  динамические  СППР  могут  действовать  не  только  в  области оперативной  аналитической  обработки (OLAP);  поддержка  принятия управленческих  решений  на  основе  накопленных  данных  может  выполняться в трех базовых сферах:

1.  Сфера  детализированных  данных.  Это  область  действия  большинства  систем,  нацеленных  на  поиск  информации.  В  большинстве случаев  реляционные  СУБД  отлично  справляются  с  возникающими
здесь задачами. Общепризнанным стандартом языка манипулирования реляционными  данными  является SQL.  Информационно-поисковые системы,  обеспечивающие  интерфейс  конечного  пользователя  в  задачах  поиска  детализированной  информации,  могут  использоваться  в качестве  надстроек  как  над  отдельными  базами  данных  транзакционных систем, так и над общим хранилищем данных.

2. Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами  систем  оперативной  аналитической  обработки  данных (OLAP).

Здесь  можно  или  ориентироваться  на  специальные  многомерные СУБД,  или  оставаться  в  рамках  реляционных  технологий. Во  втором случае заранее агрегированные данные могут собираться в БД звездообразного  вида,  либо  агрегация информации может производиться на лету в процессе  сканирования детализированных  таблиц реляционной
БД. 

3. Сфера закономерностей. Интеллектуальная обработка производится  методами  интеллектуального  анализа  данных (ИАД, Data Mining), главными задачами которых являются поиск функциональных и  логических  закономерностей  в  накопленной  информации,  построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.  
 
Преимущества использования кластеров в OLAP-системах 

Для  построения OLAP  системы  необходимы  достаточно  большие аппаратные ресурсы, которые позволяли бы производить сбор информации, построение необходимой структуры и предоставление актуальной информации клиентам. В полном объеме с такой задачей справится гомогенный кластер.

Основными преимуществами кластера являются:

1. Обеспечение  высокого  уровня  готовности  по  сравнению  с  разрозненным набором  компьютеров или  серверов. Повышение  готовности системы обеспечивает работу критических для OLAP приложений на  протяжении максимально  продолжительного  промежутка  времени.

К критическим можно отнести все приложения, от которых напрямую зависит  способность OLAP  системы  выполнять  свои  функции.  Как правило,  использование  кластера  позволяет  гарантировать,  что  в  случае,  если  сервер  или  какое-либо  приложение  перестает  нормально функционировать,  другой  сервер  в  кластере,  продолжая  выполнять
свои задачи, возьмет на себя роль неисправного сервера (или запустит у  себя  копию  неисправного  приложения)  с  целью  минимизации  простоя пользователей из-за неисправности в системе.

2.  Значительное  увеличение  общей  производительность  сети (высокая  степень масштабируемости). Кластер  позволяет  гибко  увеличивать вычислительную мощность системы, добавляя в него новые узлы и не прерывая при этом работы пользователей. Современные кластерные решения предусматривают автоматическое распределение нагруз-
ки между узлами кластера, в результате чего одно приложение может работать  на  нескольких  серверах  и  использовать  их  вычислительные ресурсы.

3. Уменьшение  затрат на администрирование локальной сети (хорошая управляемость).

4. Обеспечение высокой доступности сетевых служб. Даже при отказе  одного  из  серверов  кластера,  все  обеспечиваемые  кластером службы остаются доступными пользователям.
 
Принципы построения кластеров на базе серверов по технологии «кольцо»

 
В зависимости от количества узлов кластера используются различные типы соединений: кольцо, 2D и 3D торы. В небольших системах, имеющих  небольшое  количество  узлов (до 8),  эффективно  использовать топологию простого кольца (см. рисунок)
 
Аппаратное обеспечение для построения кластеров

 
Для практической реализации  систем оперативной  аналитической обработки данных на гетерогенных кластерах, были выбраны следующие узлы кластера:

2 сервера СУБД ORACLE, реализованных на серверах Sun SPARC и Intel Xeon,

2 Web-сервера Apache – на серверах Sun SPARC и Intel Pentium 3, 

2 сервера ORACLE Express Server – на серверах Intel Pentium 3 и 1

сервер приложений для работы  с OLAP и БД – на  серверах Intel Pentium 3

Кластерные системы
Последнее обновление ( 27.04.2009 г. )
 
« Пред.   След. »