Data Ocean — прикладная аналитическая платформа обработки и управления данными. В ее состав входят несколько функциональных модулей.
Data Ocean Data Governance — единая платформа для управления данными на уровне компании. Платформа включает в себя несколько функциональных бесшовно интегрированных модулей, предназначенных для управления метаданными, мастер-данными и качеством данных.
Модуль управления метаданными позволяет вести описание семантики данных, которые существуют в компании в виде единого глоссария с описанием терминов, процессов и иных объектов, а также технических метаданных — каталога данных, с возможностью построения Data Lineage для анализа потоков данных. Это помогает сократить время на поиск данных, анализ зависимостей и потоков данных, которые обычно составляют до 50% от временных и трудозатрат проектов по разработке отчетности и реализации аналитических решений.
Модуль управления мастер-данными позволяет всю информацию о конкретном клиенте собрать в единый клиентский профиль. Задача непростая — данные нужно не только «склеить» из различных источников, но и произвести их интеллектуальную обработку, очищая от разной «шелухи», перед получением результирующей «золотой записи».
Модуль управления качеством данных позволяет реализовывать проверки и выполнять валидацию данных на соответствие бизнес-правилам, что дает возможность сократить количество инцидентов и проблем, связанных с ошибками в данных, и повысить общий уровень доверия к данным в компании.
В составе Data Ocean есть модули управления данными, созданные для передачи данных из источников в разнообразные целевые системы. Наши продукты могут выполнять эти действия в режиме реального времени (стриминговая платформа Balalaika) и пакетном режиме (Flex Loader). Вот несколько примеров задач:
- Наполнение хранилища данных из систем-источников в real-time режиме. Для подобных задач распространено применение технологий Change Data Capture (CDC), которые способны отслеживать изменения в исходных данных и перегружать новые/измененные фрагменты в целевые базы без создания нагрузки на систему-источник. С данной задачей справляется Balalaika.
- Создание операционного слоя хранилища, DataLake или миграция СУБД, например в рамках импортозамещения. Для решения задачи используется Flex Loader — ETL-инструмент для регламентной пакетной работы с данными, который «из коробки» поддерживает множество СУБД (таких как Oracle, Postgres, Hadoop, Greenlpum) и позволяет реплицировать данные из источников в среду Greenplum, Hadoop или S3 за считанные часы/дни, а не дни/недели.