酷播亮新聞
最棒的知識補給站

雲技術的發展會讓數據倉庫呈現哪些新趨勢?

[ ]

【IT168 評論】過去的幾十年中,雲技術已經從傳統服務器產品演變為更高級別的服務,而大數據分析和數據倉庫就是當今雲技術的新興領域,由於存儲、計算資源和更高級別 服務的按需可用性,這些新興領域對雲採用不斷增加。

數據倉庫有著悠久的歷史,最初它是作為一種將數據從操作系統轉移到決策支持系統的架構概念而誕生的。

首先,我們需要理解Data Warehousing是一個將數據倉庫作為核心,通過清理、集成和數據整合來準備數據的流程和工具的組合。

本文將重點介紹一些新興趨勢和技術,幫助大家實現雲中數據倉庫經濟高效的解決方案。

使用託管服務

託管服務是高級服務的類型,對特定用例具有挑戰性的問題都由云自動處理。 數據倉庫面臨的大部分挑戰都與可擴展性,可靠性,安全性,性能和效率相關,而這些主要是由雲提供商在使用託管服務時進行管理。

當談到數據倉庫架構時,你可以使用完全託管的ETL服務(例如:Amazon Glue,Azure Data Factory),託管數據倉庫服務(例如Amazon RedShift,Azure SQL數據倉庫)等等。 在使用這些服務時,還可以在雲中找到可互聯的服務,以進一步減少實施工作,也可以找到雲基礎架構和服務供應模板,更簡單地設置數據倉儲解決方案

此外,大多數的服務都是由雲提供商按需提供的,所以使用這些服務還可以降低成本。

生產線數據集市

在大型集中式數據倉庫中,分析不同生產線的數據也很重要。 數據集市通過包含特定業務部門的匯總數據來提供解決方案。 數據集市可以作為數據倉庫的中間來源,也可以用作每個業務部門獨立分析自己的數據。

數據湖啟發

數據湖和數據倉庫之間有著根本的區別。 但是,我們已經看到Data Lake在數據分析和報告世界中越來越流行。 Data Lake和Data Warehousing之間的主要差異之一是Data Lake在讀取時定義數據模式,而Data Warehousing在寫入時定義模式。 儘管Data Lake也有自己的優缺點,但是我們可以從其數據倉儲的核心優勢中找到靈感。

目前DataLake最受歡迎的技術之一就是利用分佈式存儲和使用Hadoop文件系統等工具進行處理。 這對於數據倉庫來說也是有益的,它允許以高效且並行的過程預處理或後處理數據,從而減少時間和成本。

使用列式存儲

將來自各種來源的數據存儲在數據倉庫中非常重要,它可以有效查詢分析目的。 為此,在檢索複雜分析查詢時,與基於行的存儲相比,使用列式存儲可以提高磁盤性能。 雲中有數據倉庫服務,可以以較低的成本提供這些功能(例如 Amazon RedShift)用於存儲和查詢。 使用這些服務不僅降低了建立數據倉庫的複雜性,還為訪問控制提供了緊密集成,整合了各種數據源等等。

內存分析引擎

執行分析和報告時,使用內存中的處理引擎會更加高效,不僅可以導入大量數據,還可以並行處理以實現快速響應和可視化。 雲服務(如Microsoft Azure Power BI Embedded和Amazon QuickSight)可隨時用於內存分析和可視化。

更多精彩 >>> 熱點推薦 查看相關信息 更多精彩 精彩圖庫

如有侵權請來信告知:酷播亮新聞 » 雲技術的發展會讓數據倉庫呈現哪些新趨勢?