Data Lake (озеро данных) – это централизованное хранилище, которое позволяет хранить все ваши структурированные и неструктурированные данные в любом масштабе. Вы можете хранить свои данные как есть, без предварительного структурирования и использовать различные типы аналитики и машинного обучения для принятия эффективных решений.
Amazon Web Services (AWS) предлагает инновационный подход к построению озер данных – AWS Lake House.

Как правило, компании, использующие озера данных, берут данные из различных хранилищ и собирают их в одном месте, чтобы производить аналитику и формировать предсказания на основе машинного обучения (ML).
Для оптимизации процесса обработки больших объемов данных AWS предлагает использовать архитектуру AWS Lake House. Благодаря ей, вы можете хранить данные в озере данных и использовать кольцо специально созданных сервисов для хранения и анализа данных, а также максимально просто перемещать данные между озерами данных и специализированными хранилищами данных. Возможны направления перемещения данных как из озера в сервисы, так и обратно, а также производить обработку данных непосредственно между сервисами.
Архитектура AWS Lake House позволяет клиентам оперативно принимать решения на основе анализа всего спектра данных, масштабировать их хранение и обработку с оптимальным соотношением цена/производительность.

Современный способ проектирования озер данных AWS Lake House стал возможен благодаря использованию:
- Гибкого масштабирования сервисов Amazon (AWS S3, AWS Athena, AWS Glue)
- Специализированных сервисов аналитики (AWS Athena, AWS EMR, AWS OpenSearch Services (ElasticSearch), AWS Kinesis, AWS Redshift)
- Сервисов унифицированного доступа к данным (AWS Glue, AWS Kinesis Data Firehose)
- Сервисов унифицированного управления данными (AWS Like Formation)
Указанные сервисы AWS при работе с озером данных обеспечивают требуемую производительность и рентабельность.

