【IT168 評論】十餘年來,企業架構經過了數次迭代和變遷,ITPUB是這一切的重要見證者,同樣陪伴了無數架構師的成長。10月17日,第十屆中國系統架構師大會以「十年架構,成長之路」為主題,雲集了國內CTO、研發總監、高級系統架構師、開發工程師和IT經理等技術人群,與會規模超千人。本屆大會特設四大主線,其中,主線二為基於大數據平台的應用實踐,數位技術專家傾囊相授,SACC十年磨礪,涅槃起航!
搜狗雲平台資深高級開發工程師申賢強:YARN基於負載的調度引擎優化
隨著公司業務的增長和規模擴大,內部多Hadoop集群的狀況導致整個集群的負載並不均衡,資源需求在增加,但資源的整體利用率卻不高。搜狗在Hadoop平台調度引擎優化方面做了很多工作,比如集群間基於負載的彈性伸縮調度模型,以及集群內基於node真實負載的調度模型。調度引擎優化的目的是解決集群間負載不均衡,以及集群內node節點間負載差距大問題,同時降低單一或者多個node資源爭搶對業務的影響,均衡集群負載,充分合理利用資源,提升業務穩定性。
面對預算不多但需要更多資源,集群高低峰時期的資源利用率差異明顯等問題,搜狗認為彈性伸縮調度不失為一個可行的解決方案。最初,搜狗在客戶端集成集群負載判斷邏輯,但是,這種狀態很容易實現「伸」但並不易實現「縮」。通過在Yarn 3.0版本中提出的AMRM Proxy技術,搜狗很好得解決了第一版本中存在的問題。最終解決了計算隨著存儲的問題,均衡了集群負載,提高了資源利?率且對業務透明。
蘇寧易購IT總部中台研發技術總監錢津津:蘇寧智慧零售之電商大數據實踐
在眾多的電商購物狂歡節中,蘇寧一直都是不容忽視的存在,可能很多人對蘇寧的印象還停留在電器層面,但如今的蘇寧已經成長為全品類經營、全渠道運營、全球化拓展的O2O零售商。隨著蘇寧戰略轉型中業務形態越來越複雜,大數據在蘇寧戰略中扮演的角色也越來越重要。
錢津津介紹了蘇寧智慧零售的現狀,結合對蘇寧新一代數據產品諸葛大師的業務和系統架構剖析, 及在建設過程中的關鍵技術升級和選型,詳細說明如何利用大數據技術解決業務的痛點和難點。對於企業普遍面臨的數據海量、分片嚴重、業務系統彈性伸縮、時效要求高等問題,諸葛大師在數據採集方面應用了業務系統下發、埋點日誌、Streaming抽取、Q/Bin log同步和爬蟲等核心技術來解決數據丟失、重複或擁堵等可能的問題。諸葛為了滿足不同的業務需求,幾乎集成了主流的各種計算引擎。最終,整個系統實現了數據驅動業務,進行數據化管理與運營,並給領導者以決策支持。
白帽匯創始人兼CTO龍專:網路空間測繪的實現與架構
網路空間測繪是近幾年興起的網路安全技術,它通過快速的埠掃描、協議識別等技術來對全球的資產進行梳理,結合產品規則庫對全球資產進行畫像。在安全漏洞突發的時候,能夠快速進行漏洞專掃,這種新技術的架構到底是什麼樣呢?
龍專表示,網路空間測繪是一種資產建模技術,通過識別聯網的對象,獲取IP、埠、協議和產品信息,以搜索引擎的方式提供服務並支持快速、輕量級漏洞專掃。其四大要素包括埠掃描、協議識別、產品識別和漏洞專掃。歷經了多輪技術迭代和架構升級,龍專所在的白帽匯的FQFA最終可在三分鐘內完成全網漏洞報告。
品友互動首席架構師王曉鵬:品友大數據分析平台的架構和演化
王曉鵬本身是一位技術界的老兵,他對於大數據、數據分析以及架構設計均做過很多思考。大數據分析主要包括數據收集、數據清理、數據建模、數據分析和數據可視化等步驟。其中,數據分析又分為四大層次:描述性分析、診斷性分析、預測性分析和處方性分析。
品友對大數據分析的應用主要體現在投放分析和企業數據管理兩大平台,廣告投放平台主要用戶為廣告投放運營,企業數據管理平台的數據來源豐富,主要受眾群體是企業市場、IT人員和數據分析師等。對於數據存儲,品友基於多年經驗給出了部分建議:鑒於用戶換機周期為1.5年,因此建議廣告行為數據存儲1.5年;一方標籤數據、分析數據、報表數據永久存儲;建議分配存儲與研發部確認。針對品友數據分析平台的研發經驗,王曉鵬認為根據數據量,使用者角色設計設計分析平台很重要;對工具的選擇來說,沒有銀彈;企業還是需要走工具+自我開發的道路。
位元組跳動數據基礎架構工程師李亞坤:Hadoop YARN 在位元組跳動的實踐
位元組跳動公司的今日頭條、抖音短視頻、火山小視頻、西瓜視頻等一系列產品,在最近幾年內數據量一直呈現出爆炸性增長趨勢,數據基礎架構部門在離線計算、流式計算等多個方向上遭遇到了一系列前所未有的挑戰。從0到3.6萬+計算結點的YARN集群管理,以及在調度優化、流式作業支持等多個方面,位元組跳動都經歷了哪些坑呢?
李亞坤表示,Hadoop生態圈主要分三層:物理層、分散式系統層和用戶層。 其中,在分散式系統層,分散式計算資源由Yarn統一管理並運行了很多計算框架。對於原生Yarn存在的一些穩定性、易用性等方面的問題,位元組跳動在資源調度等多個層面進行了定製化開發,比如Dominant Resource Fairness 延遲調度,Fair Scheduler的動態預留以及Fair Scheduler的多線程版本等。未來,位元組跳動的主要工作是平衡集群間的資源利用並實現更好得節點隔離。
在本屆SACC大會的主線二《大數據平台架構實踐》上半場,我們了解了不同企業在數據分析、資源調度和集群配置等方面的實踐優化。「十年磨一劍,礪得梅花香」,第十屆中國系統架構師大會準備了三天傳統技術大會演講,兩天深度主題培訓,更多精彩議題歡迎訪問大會專題頁面請戳「了解更多」