酷播亮新聞
最棒的知識補給站

大資料技術學習中,這五大基礎框架一定要了解的!

文章摘要: 利用SSD的儲存分層策略 儲存成本很高儲存分層在儲存資源池中提供多種成本/效能選項

原標題:大資料技術學習中,這五大基礎框架一定要了解的!

大資料的浪潮已經興起,不少小夥伴都開始收拾行囊,準備大資料技術的學習之旅了。在大資料技術學習中,這五大基礎框架一定要了解的!

  基礎原則一:架圍繞大資料選擇儲存

在成功的大資料策略下,企業可以將來自內部的高質量資料與Hadoop挖掘自多個雲供應商的低質量資料進行整合。這也就改善了業務相關資料的質量,讓分散在各地的資料能組織成為具備一致和及時性的大資料資源。

大資料正在改變中央數。據倉儲和鬆耦合資料集市的決策基礎,後者的儲存庫規模要小得多,既可以替代中央資料倉儲,也可以成為中央資料倉儲的資料來源。隨著各地辦事機構或者國際子公司的增加,中央管理層在業務線擴大的同時更需要高質量的資料來維持管控力度,避免權力的分散。

  基礎原則二:支援大資料的硬體

大資料導致的儲存需求量每年都將增長60%至80%.鑑於這種快速增長和當前的成本限制,IT採購者應選擇在可擴充套件性和儲存速度上極具成本效益的硬體。類似大型機的向上擴充套件體系結構重新興起,因為它們能夠經濟高效地擴充套件,降低總體擁有成本。同樣,在提升效能方面,固態硬碟(SSD)和固態卡帶都比傳統磁碟做得更好。

  基礎原則三:大資料分析和報告能力

雖然嵌入式分析工具已經可以利用報告和自動優化功能改善業務流程,但大資料再次改變了分析規則。例如,和傳統上對單個客戶進行主要行為分析洞察相比,大資料戰略能為每個客戶建立一個迭代和洞察分析執行緒,讓公司能跟蹤客戶並更好地維持與所有客戶的長期關係。

典型的大資料分析從業人員被稱為資料科學家,和常規的IT主管不同,他們更可能同時擔任CMO。然而,IT專業人員必須明白他們公司的大資料策略對資料科學家的工作產生的影響。

  基礎原則四:利用SSD的儲存分層策略

儲存成本很高,而且越快的儲存也就越昂貴。極重要的是,大資料要求儲存同時提供大容量和「大」效能。儲存分層在儲存資源池中提供多種成本/效能選項,從昂貴的高效能固態儲存到傳統的序列SCSI(SAS)磁碟儲存,這些選項的組合降低了總擁有成本。在主記憶體和磁碟之間增加一個固態層將有助於將大資料任務的效能維持在高位,而且不會引起儲存成本失控。

SSD的用量應遵從「90-10」的儲存分層規則:成本和速度的極佳組合比例是:使用大約10%的SSD和90%的機械硬碟。這一策略讓IT公司用僅增加10%成本的代價就能獲得90%以上的效能提升。主記憶體和SSD的容量比例也遵從同樣的規則。

  基礎原則五:企業中的Hadoop

Hadoop為資料密集型應用提供「緊貼著」MapReduce檔案系統處理程式框架的分散式檔案系統。此檔案系統支援針對富文字資料的並行事務擴充套件,例如社交媒體資料。許多IT公司通過在企業內建立自己的Hadoop版本來解決從Web獲取Hadoop資料來源的問題。然而,缺乏專業知識是一種挑戰:精通這種發展中的 Web資料管理框架的專業和藝術的IT管理人員猶如鳳毛麟角。

組織開發他們自己的資料管理工具時應該留意,如IBM、Oracle和EMC 的這些主要供應商,往往既提供專有產品用於訪問Hadoop資料,也可進行定製開發,讓IT公司不需要專門的資料歸納措施就能訪問需要的資料。如果您決定搭建自己的資料平臺,供應商也提供整合服務,使Hadoop更貼合現有IT資源來高效運作。返回搜狐,檢視更多

責任編輯:

如有侵權請來信告知:酷播亮新聞 » 大資料技術學習中,這五大基礎框架一定要了解的!