В погоне за трендами ритейлеры обращают внимание на новые архитектуры данных. Одной из самых популярных стала Lakehouse. Может ли она трансформировать бизнес-процессы в ритейле или это просто эволюционный шаг в развитии корпоративных хранилищ? Рассказывает заместитель директора отделения управления проектами и архитектуры IBS Михаил Рощин.
В торговле есть жесткая структура: финансы, логистика, складские запасы, а также огромные массивы неструктурированных данных: чеки, видео с камер, логи поведения на сайте и т. д. Lakehouse — архитектура, которая позволяет соединить эти миры. Она работает как объектное хранилище (например, S3 или HDFS), поверх которого надстраивается табличный слой (такой как Apache Iceberg). Это дает возможность хранить «сырые» данные любого типа и одновременно работать с ними как с привычными структурированными таблицами.
Для ритейла это означает:
Lakehouse — инструмент, который помогает решать конкретный класс задач оперативнее и экономичнее, но при этом не заменяет традиционные СУБД и не трансформирует бизнес сам по себе.
Можно ли с помощью Lakehouse анализировать покупательское поведение или прогнозировать спрос? Нет. Lakehouse — это платформа хранения и среда выполнения запросов, а не решение для анализа данных. Анализом занимаются аналитики и дата-сайентисты с помощью специализированных инструментов. Зато Lakehouse создает для них благоприятную среду.
Основные преимущества Lakehouse:
Lakehouse способствует решению задач прогнозирования спроса или оптимизации ассортимента, предоставляя аналитикам быстрый и удобный инструмент, но не заменяет их экспертизу.
По своей природе Lakehouse — файловое хранилище. Фотографии товаров, видеозаписи с камер, CSV-файлы с транзакциями — все это ложится в объектное хранилище как файлы.
Через слой абстракции (табличный формат) Lakehouse позволяет обращаться к этим файлам так, будто они лежат в структурированной базе данных. Это открывает путь для использования моделей компьютерного зрения и машинного обучения непосредственно на тех данных, которые уже лежат в «озере», без сложных ETL-процессов по их перемещению в отдельные песочницы.
Один из самых опасных мифов — возможность построения аналитики реального времени на Lakehouse. Она будет неверным выбором, если целью бизнеса является мгновенный показ персонализированной рекламы пользователям при входе на сайт.
Практика показывает, что при текущей архитектуре отставание (лаг) минимум в полчаса — это норма. Для сценариев, требующих реакции в реальном времени (онлайн-таргетинг, динамическое ценообразование во время сессии), необходимы специализированные системы, адаптированные под низкую задержку.
Lakehouse не является панацеей. Она решает свой класс задач, делает это качественно, но попытки добавить к ней realtime приведут к перерасходу бюджета и усложнению системы.
Архитектура строится на четком разделении ресурсов:
1. Storage (Хранение):
2. Compute (Вычисления):
Обычно работает поверх оркестратора (например, Kubernetes). Здесь запускаются движки для обработки: Spark, Trino, Flink. Такой подход дает единую точку входа для работы с данными на любом языке.
Lakehouse — молодая, быстрорастущая экосистема. Ключевые тренды развития архитектуры в ближайшие несколько лет:
Если в компании уже есть опыт эксплуатации Data Lake или классического хранилища данных, переход на Lakehouse не потребует тотального переучивания команды.
Основная нагрузка ляжет на DevOps-инженеров: им предстоит освоить новые компоненты и их оркестрацию в Kubernetes, который стал стандартом индустрии. Аналитики и дата-инженеры просто получат более быстрый и удобный инструмент с привычным SQL-интерфейсом.
Lakehouse в ритейле — мощный эволюционный шаг в управлении данными, но не революция. Он позволяет эффективно хранить большие объемы разнородных данных и дает аналитикам мощный инструмент для работы. Это не «волшебная палочка» для realtime-маркетинга и не замена транзакционным базам данных. Успех внедрения архитектуры зависит от трезвой оценки задач и понимания ее места в ИТ-ландшафте компании.