酷播亮新聞
最棒的知識補給站

從誕生到成長!數家名企大數據平台應用演進之路解析!

【IT168 評論】十餘年來,企業架構經過了數次迭代和變遷,ITPUB是這一切的重要見證者,同樣陪伴了無數架構師的成長。10月17日,第十屆中國系統架構師大會以「十年架構,成長之路」為主題,雲集了國內CTO、研發總監、高級系統架構師、開發工程師和IT經理等技術人群,與會規模超千人。本屆大會特設四大主線,其中,主線二為基於大數據平台的應用實踐,數位技術專家傾囊相授,SACC十年磨礪,涅槃起航!

美團點評高級技術專家曾林西:美團點評Spark的演進與實踐

Spark作為美團點評主流的離線大數據計算引擎,在數倉生產、查詢分析、機器學習等領域都有重度使用。曾林西介紹了Spark在美團點評的演進過程以及主要應用場景和現狀;對於Spark任務管理、互動式開發、問題診斷等需求的平台化架構選型和建設思路;基於Spark做數倉生產計算引擎以及Spark on GPU集群實現批量深度學習預測等實踐過程遇到的功能性、穩定性、性能問題對引擎內核進行改造的經驗等內容。

從誕生到成長!數家名企大數據平台應用演進之路解析!

從正常運行到成熟應用場景的落地,美團點評的Spark演進之路可以概括為能用、好用、用好三個階段。整個演進過程圍繞解決平台和介面定義,定位分散式執行計算失敗原因,落地數據倉庫生產Spark等問題逐一展開,最終提升了整個Spark引擎的魯棒性。

小米數據流平台負責人夏軍:小米數據流服務:大數據集成架構演化之路

對大多數企業而言,讓數據去到該去的地方並發揮最大的價值一直是技術人員窮盡探索的難題。小米有眾多智能終端和設備,數據規模非常大,對於數據採集和大數據集成提出了非常高的要求。其內部大數據系統眾多,如何高效集成Kafka、OLAP等多個系統?如何保證數據低延遲傳輸?如何實時發現並警報數據流異常?如何量化數據流整體鏈路情況等問題同樣是小米技術團隊亟待解決的難題。

從誕生到成長!數家名企大數據平台應用演進之路解析!

基於上述問題,小米的數據流平台共分為三部分:Talos為中間層,小米自研的消息隊列,主要扮演數據中轉站的角色,類似於開源組件Kafka;下層為Source或Sink的擴展,目標是連接大數據應用場景下的不同平台;上層依賴底層的數據收集進行監控、分析等工作。整套系統主要應用於小米的埋點數據收集、實時日誌分析、泛OLAP場景以及流式計算等場景。

eBay資深主任工程師郭躍鵬:Apache Griffin – 分散式系統的數據質量方案

在大數據、雲計算、流式計算為基礎的分散式環境下,數據本身的質量問題越發重要。Apache Griffin項目是eBay發起並貢獻給Apache社區的數據質量方案。它試圖提供一套可擴展,可伸縮的框架來解決數據質量的幾個典型問題:如數據的精確性問題、一致性問題、合法性問題、時效性問題、唯一性問題以及完整性問題。面臨streaming和batch的企業數據環境,Apache Griffin如何通過提供一整套的流程來定義,測量並彙報數據質量,以試圖解決數據質量問題?

從誕生到成長!數家名企大數據平台應用演進之路解析!

在數據服務領域從業多年,郭躍鵬發現不少企業內部跨多個系統和團隊沒有統一的數據質量視圖,沒有共享平台來管理數據質量,也沒有近乎實時的系統健康狀況報告,Apache Griffin的初級需求便誕生了。除了解決上述問題,Apache Griffin也支持Streaming,基於Spark2.2.0版本並有新的DSL。之後,該團隊將繼續優化該項目,新增更多連接器並實現基於拓撲的數據質量監控(項目開源地址:https://github.com/apache/incubator-griffin)。

百度技術經理張建偉:百度雲Spark優化及大規模應用

從2003年至今,百度雲經歷了從分散式搜索系統到如今的可視化分析挖掘、可視化報表大屏和安全計算。在這個過程中,Spark證明了其大數據計算核心引擎的地位,百度雲內部也在進行全面的Spark化,並本著「開源開放」的原則將研究改進成果積極與社區分享。

從誕生到成長!數家名企大數據平台應用演進之路解析!

目前,百度雲內部Spark集群規模在15000台左右,團隊進行了運行時優化、獨立Shuffle以及純流式等改進。在性能優化方面,百度雲與Intel聯合開源了OAP項目,其性能提升了大概5倍;插件式易部署;類似傳統資料庫的索引和cache,易於使用。AE(Adaptive Execution)方案主要針對運行時優化,解決Reduce數量設置等問題。流式shuffle的加入減少了舊 shuffle map merge、reduce pull 時間消耗等問題。如果感興趣,大部分技術成果都可以通過開源社區查詢實踐。

從誕生到成長!數家名企大數據平台應用演進之路解析!

在本屆SACC大會的主線二《大數據平台架構實踐》上半場,我們了解了不同企業在數據分析、資源調度和集群配置等方面的實踐優化。「十年磨一劍,礪得梅花香」,第十屆中國系統架構師大會準備了三天傳統技術大會演講,兩天深度主題培訓,更多精彩議題歡迎訪問大會專題頁面,請戳「了解更多」!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:
如有侵權請來信告知:酷播亮新聞 » 從誕生到成長!數家名企大數據平台應用演進之路解析!