Lakehouse-платформа данных Data Ocean Nova непрерывно совершенствуется. Внедрение новых компонентов стало логичным продолжением работы над решением, продиктованным не только трендами рынка, но и пожеланиями клиентов. Нововведения призваны сделать работу с Data Ocean Nova еще быстрее и комфортнее.
Команда платформы Data Ocean первая на российском рынке представила промышленное решение с процессинговым движком StarRocks – перспективным инструментом для SQL-обработки и анализа больших данных, который изменил вектор движения в сторону decoupled-вычислений и открытого табличного формата Apache Iceberg вместо архитектуры shared-nothing MPP. Теперь парадигмы развития StarRocks и Data Ocean Nova полностью соответствуют друг другу. В качестве preview-функционала решения Data Sapience компонент был представлен в середине 2024 года и за это время успел хорошо зарекомендовать себя среди клиентов.
Теперь в Data Ocean Nova доступно применение in-memory базы данных DuckDB как функционала для ускорения аналитики «последней мили». Конечные пользователи системы, работая в личном окружении, смогут материализовать результаты расчетов и витрин в индивидуальный экземпляр DuckDB, запущенный в рамках собственного контейнера, прямо в рабочем ноутбуке и в дальнейшем использовать эти данные для работы моделей.
По результатам обратной связи от пользователей команда Data Sapience приняла решение добавить в состав Lakehouse-платформы Data Ocean Nova оркестратор Apache Airflow. Клиентам и партнерам-интеграторам почти в каждом проекте по внедрению приходилось подключать внешний экземпляр Airflow, который стал стандартом рынка. Благодаря нововведениям не только сокращается время подготовки инфраструктуры аналитического ландшафта больших данных, но и появляется возможность разворачивать Airflow в multy-tennant режиме, при котором каждый вычислительный кластер движка или фреймворка имеет свой изолированный кластер Airflow.