Data Lake от AWS

Data Lake (озеро данных) – это централизованное хранилище, которое позволяет хранить все ваши структурированные и неструктурированные данные в любом масштабе. Вы можете хранить свои данные как есть, без предварительного структурирования и использовать различные типы аналитики и машинного обучения для принятия эффективных решений.

Amazon Web Services (AWS) предлагает инновационный подход к построению озер данных – AWS Lake House.

Как правило, компании, использующие озера данных, берут данные из различных хранилищ и собирают их в одном месте, чтобы производить аналитику и формировать предсказания на основе машинного обучения (ML). 

Для оптимизации процесса обработки больших объемов данных AWS предлагает использовать архитектуру AWS Lake House. Благодаря ей, вы можете хранить данные в озере данных и использовать кольцо специально созданных сервисов для хранения и анализа данных, а также максимально просто перемещать данные между озерами данных и специализированными хранилищами данных. Возможны направления перемещения данных как из озера в сервисы, так и обратно, а также производить обработку данных непосредственно между сервисами.

Архитектура AWS Lake House позволяет клиентам оперативно принимать решения на основе анализа всего спектра данных, масштабировать их хранение и обработку с оптимальным соотношением цена/производительность. 

Современный способ проектирования озер данных AWS Lake House стал возможен благодаря использованию:

  • Гибкого масштабирования сервисов Amazon (AWS S3, AWS Athena, AWS Glue)
  • Специализированных сервисов аналитики (AWS Athena, AWS EMR, AWS OpenSearch Services (ElasticSearch), AWS Kinesis, AWS Redshift)
  • Сервисов унифицированного доступа к данным (AWS Glue, AWS Kinesis Data Firehose)
  • Сервисов унифицированного управления данными (AWS Like Formation)

Указанные сервисы AWS при работе с озером данных обеспечивают требуемую производительность и рентабельность.