Алгебра данных в системе A2DB – настоящая революция в работе с информацией
Молодая компания Algebraix Data Corporation представила уникальную технологию, которая обеспечивает небывало быстрый анализ самых крупных наборов данных. Высочайшая скорость обработки слабо структурированной информации обеспечивается за счет нового математического аппарата – так называемой алгебры данных. Впервые после изобретения реляционных и объектных баз данных в распоряжении разработчиков оказался революционный инструмент, который превращает любое действие с данными в математически строгое выражение.
В свое время реляционные базы данных, которые изобрел Тед Кодд (Ted Codd), помогли унифицировать доступ к данным из разных приложений. В то же время, реляционная модель данных, несмотря на прочную математическую основу, имеет целый ряд недостатков, и эти недостатки становятся все более очевидными с развитием технологий. Из-за требований нормализации данные постоянно находятся в «разобранном виде», а их сборка осуществляется каждый раз, когда пользователь захочет извлечь какой-либо набор результатов. Если бы реляционные базы применялись для хранения автомобилей, то каждый раз после поездки ваш автомобиль пришлось бы разбирать до винтика, а затем собирать полностью перед следующим выездом.
Частично недостатки реляционной модели были устранены в так называемой объектной модели данных, которая предложила разработчикам возможность произвольного определения типов, составные типы данных, наследование атрибутов и возможность включения в элементы БД целых объектов с собственными атрибутами и операциями. Несмотря на богатые возможности, у объектной модели нет развитого математического аппарата, что затрудняет ее реализацию в реальных приложениях.
Чтобы устранить недостатки реляционной модели, которая по-прежнему лежит в основе самых крупных промышленных БД, ученые-математики Крис Пьемонт (Chris Piedmonte) и Гэри Шерман (Gary Sherman), основавшие компанию Algebraix, создали полную и непротиворечивую алгебру данных. Фундаментом алгебры данных, как универсального описания всех возможных данных и операций с ними, стала теория расширенного множества (Extended Set Theory). После нескольких лет работы ученые получили практически значимый результат – инструмент для моментального доступа к любым наборам данных независимо от размеров исходного информационного массива.
Первым продуктом, использующим алгебру данных, стала система бизнес-аналитики под названием A2DB (Advanced Analytic Database) – эта система уже поставляется заказчикам для ускоренного анализа крупных массивов слабо структурированной информации. На данный момент можно выделить несколько ключевых отличий A2DB от традиционных BI-решений (Business Intelligence – бизнес-аналитика): первое и главное преимущество заключается в скорости. Система A2DB не уступает в скорости самым быстрым из специализированных реляционных БД, таким как Vertica, Sybase IQ, Green Plum, Paraccel и др.
Другим важным преимуществом A2DB является масштабируемость – параллельная архитектура обеспечивает практически линейное увеличение емкости системы в системах с одним симметрично-параллельным (SMP) сервером на базе нескольких многоядерных процессоров. Кроме того, система A2DB не требует для работы специфических платформ – все вычисления успешно выполняются на массовых моделях машин с операционными системами Windows и Linux.
Прочие характеристики системы A2DB в изложении компании Algeraix звучат просто невероятно – система фактически может сама подстраиваться под параметры окружения, в котором работает, а загрузка данных осуществляется очень быстро даже в самых больших средах. В запросах к БД можно указать, на какой момент времени нужно получить состояние данных – результаты будут точно соответствовать указанному времени. Еще невероятнее выглядит почти полное отсутствие ограничений по структуре данных – для полноценной работы БД не нужно создавать специальные схемы данных типа «звезда» или «снежинка». Достаточно сформировать одну целостную схему с помощью такого инструмента, как пакет ERwin, или описать данные в одной схеме типа «звезда»: главное, чтобы существовала одна целостная модель данных. При всех огромных преимуществах система A2DB обладает еще и свойством самонастройки – администратор БД просто не нужен.
Подробнее об удивительных возможностях по анализу самых больших объемов данных с помощью системы A2DB и нового математического аппарата под названием «алгебра данных» можно прочитать в обзорах на сайтах TheVirtualCircle и SiliconValleyWatcher, а также на сайте самой компании Algebraix.