Принципы построения систем оперативной аналитической обработки данных на гетерогенных кластерах - BioinforMatix.ru - портал по биоинформатике, имейджингу и биософту
Принципы построения систем оперативной аналитической обработки данных на гетерогенных кластерах |
Автор Д. П . Бугаев | |
27.04.2009 г. | |
Введение В последние годы в мире оформился ряд новых концепций хранения и анализа корпоративных данных: 1) хранилища данных, или Склады данных (Data Warehouse); 2) оперативная аналитическая обработка (On-Line Analytical Processing, OLAP); Технологии OLAP тесно связаны с технологиями построения Data Warehouse и методами интеллектуальной обработки – Data Mining. Поэтому наилучшим вариантом является комплексный подход к их внедрению. Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки. Очень часто информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются в литературе Информационными системами руководителя (ИСР), или Executive Information Systems (EIS). Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статических СППР, за которую активно борется большинство заказчиков информационно-аналитических систем, оборачивается катастрофической потерей гибкости. Динамические СППР, напротив, ориентированы на обработку нерегламентированных запросов аналитиков к данным. Наиболее глубоко требования к таким системам рассмотрел E.F. Codd, положившей начало концепции OLAP. Работа аналитиков с этими системами заключается в интерактивной последовательности формирования запро- Но динамические СППР могут действовать не только в области оперативной аналитической обработки (OLAP); поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах: 1. Сфера детализированных данных. Это область действия большинства систем, нацеленных на поиск информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими 2. Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP). Здесь можно или ориентироваться на специальные многомерные СУБД, или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться на лету в процессе сканирования детализированных таблиц реляционной 3. Сфера закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных (ИАД, Data Mining), главными задачами которых являются поиск функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов. Для построения OLAP системы необходимы достаточно большие аппаратные ресурсы, которые позволяли бы производить сбор информации, построение необходимой структуры и предоставление актуальной информации клиентам. В полном объеме с такой задачей справится гомогенный кластер. Основными преимуществами кластера являются: 1. Обеспечение высокого уровня готовности по сравнению с разрозненным набором компьютеров или серверов. Повышение готовности системы обеспечивает работу критических для OLAP приложений на протяжении максимально продолжительного промежутка времени. К критическим можно отнести все приложения, от которых напрямую зависит способность OLAP системы выполнять свои функции. Как правило, использование кластера позволяет гарантировать, что в случае, если сервер или какое-либо приложение перестает нормально функционировать, другой сервер в кластере, продолжая выполнять 2. Значительное увеличение общей производительность сети (высокая степень масштабируемости). Кластер позволяет гибко увеличивать вычислительную мощность системы, добавляя в него новые узлы и не прерывая при этом работы пользователей. Современные кластерные решения предусматривают автоматическое распределение нагруз- 3. Уменьшение затрат на администрирование локальной сети (хорошая управляемость). 4. Обеспечение высокой доступности сетевых служб. Даже при отказе одного из серверов кластера, все обеспечиваемые кластером службы остаются доступными пользователям. 2 сервера СУБД ORACLE, реализованных на серверах Sun SPARC и Intel Xeon, 2 Web-сервера Apache – на серверах Sun SPARC и Intel Pentium 3, 2 сервера ORACLE Express Server – на серверах Intel Pentium 3 и 1 сервер приложений для работы с OLAP и БД – на серверах Intel Pentium 3 |
|
Последнее обновление ( 27.04.2009 г. ) |
« Пред. | След. » |
---|