Microcamtest

Лайфстайл портал

Что такое «озера данных» и почему они должны быть чистыми?

Изучайте Azure

Видео

Облака упростили управление озером данных

Озеро данных чаще всего создаётся на основе кластера Hadoop. Сам Hadoop – это open-source решение. Но, чтобы его эффективно внедрить, может потребоваться несколько миллионов долларов. Это будут траты на инфраструктуру, разработчиков, консультантов, а также инвестиции времени и денег непосредственно в установку решения и его эксплуатацию.

В последние несколько лет на рынке появились предложения использовать Hadoop в облаке. Эта схема освобождает компанию-заказчика от нагрузки по поддержанию инфраструктуры. Так, в качестве аналитического озера данных можно использовать Amazon S3. Изначально S3 разрабатывался для различных сценариев и форматов хранения данных, но оказалось, что для озера данных решение Amazon особенно хорошо подходит благодаря своей простоте в управлении и новым SQL-интерфейсам. Сейчас компания может хранить в S3 любую информацию, а об автоматическом масштабировании, шифровании и многом другом позаботится AWS.

Основные понятия озера данных

Ниже приведены ключевые концепции озера данных, которые необходимо понять, чтобы полностью понять архитектуру озера данных.

Попадание данных

Загрузка данных поддерживает:

  • Все типы структурированных, полуструктурированных и неструктурированных данных.
  • Несколько приемов пищи, таких как пакетная, в режиме реального времени, разовая загрузка.

Хранилище данных

Хранение данных должно быть масштабируемым, предлагать экономичное хранилище и обеспечивать быстрый доступ к исследованию данных. Он должен поддерживать различные форматы данных.

Управление данными

Управление данными — это процесс управления доступностью, удобством использования, безопасностью и целостностью данных, используемых в организации.

Доступное и экономичное решение

Data Lake — это экономичное решение для выполнения рабочих нагрузок с большими данными. При обработке данных можно выбрать между выделением кластеров по запросу и оплатой за каждое задание. В обоих случаях не требуется какого-либо оборудования, лицензий или соглашений об уровне поддержки. Система масштабируется в соответствии с потребностями бизнеса, и вам никогда не придется платить больше, чем необходимо. Система также позволяет независимо масштабировать хранилище и вычислительные ресурсы, обеспечивая большую экономическую гибкость, чем традиционные решения для работы с большими данными. Наконец, озеро данных минимизирует необходимость нанимать специалистов, которые обычно требуются для обслуживания инфраструктуры для работы с большими данными. Data Lake минимизирует затраты, одновременно максимизируя отдачу от инвестиций. По результатам недавнего исследования совокупная стоимость владения HDInsight на 63 % ниже (за пять лет), чем при развертывании Hadoop локально.

Резюме:

  • Data Lake — это хранилище данных, которое может хранить большое количество структурированных, полуструктурированных и неструктурированных данных.
  • Основная цель построения озера данных — предложить ученым, работающим с данными, неопределяемое представление данных.
  • Уровень унифицированных операций, уровень обработки, уровень дистилляции и HDFS являются важными уровнями архитектуры озера данных.
  • Прием данных, хранение данных, качество данных, аудит данных, исследование данных, обнаружение данных — вот некоторые важные компоненты архитектуры озера данных.
  • Проектирование Data Lake должно основываться на том, что доступно, а не на том, что требуется.
  • Data Lake снижает долгосрочную стоимость владения и позволяет экономично хранить файлы
  • Самый большой риск озер данных — это безопасность и контроль доступа. Иногда данные могут быть помещены в озеро без какого-либо надзора, так как некоторые данные могут нуждаться в конфиденциальности и нормативных требованиях.

 

Теги