183.17.228.* 2020-03-25 13:53:30 |
數據平臺是通過系統的方式實現企業大數據的統一、規范、安全、共享的數據組織方式,以服務方式實現前臺數據的應用,提高數據的使用效率,那么數據中通究竟解決了什么問題。歸總起來,主要有三點:效率、質量和成本。
一、效率
效率問題可以分為數據研發的效率、數據發現的效率和數據分析的效率。
首先是數據研發的效率,在很多項目中,在項目初期由于業務模式還不固定,變化比較快,往往缺少良好的主題域和分層的設計,煙囪式的開發模式占據了主導,隨著業務復雜度和規模的上升,大量重復性的數據開發,制約了數據需求交付效率。一個需求往往需要一個星期甚至更長的時間才能上線,需求響應速度經常被業務部門詬病。
其次是數據發現的效率,由于開發數據的和使用數據的往往是不同的人,面對動輒數萬張表,每張表有數十個甚至上百個字段,準確理解每張表的含義是一件非常困難的事。如果沒有一個好用的系統,往往需要大量的溝通成本,對于數據開發,經常抱怨工作被打斷,每天都在回答重復性的問題;對于分析師而言,想要知道有哪些數據可以用,找到自己想要的數據,需要花費大量的時間。在網易,建設數據中臺之前,很多業務都在用很原始的方法,每個分析師都自己維護了一個Excel,相當于自己的知識庫,記錄著一些常用的表。一個新的分析師想要了解數據,需要花費大量的時間。
**是數據分析的效率,我們希望越來越多的人能夠基于數據進行分析決策,但是數據分析本身確實存在門檻,取數對于大多數非技術專業的運營和分析師就是一個大問題,經常看到一個分析師的SQL把整個集群資源跑滿還跑不出來,經常看到分析師遇到一個SQL異常不知所措。另外,傳統的數據分析依賴的是分析師的經驗,一個指標異常波動,需要從哪些維度去分析,完全靠分析師的個人技能,如何將經驗變成一種知識,甚至是一種規范,沉淀到產品中,通過系統自動地進行全維度的鉆取分析,降低數據分析的門檻,這其實也是業務面臨的難題。
二、質量
質量是數據中臺需要解決的第二個問題,質量包括數倉設計的質量、指標的一致性、1.數據研發的質量。
數倉設計得***,主要體現在三個方面,完善度、復用性和規范性。數倉設計一般采用的是面向主題域的分層設計,對于ODS層保存的是業務原始數據,DWD保存的是經過清洗的明細數據,DWS是經過輕度聚合的匯總數據,ADS或者DM是應用層、集市層數據,這是一個常見的4層模型劃分。完善度的意思就是對于使用者而言,“要啥有啥”,對于不同分層,完善度的衡量方式也是有區別的,對于明細層,如果數倉中存在匯總層(DWS)數據直接引用ODS原始數據的情況,我們稱之為跨層引用,這就說明細層數據建設是有缺失的,如果其他匯總層也要使用相同的數據,都從ODS層去引用,就存在重復清洗的問題。對于匯總層數據而言,如果Query覆蓋率比較低,說明大量的查詢都是直接查詢明細數據,甚至是原始數據,這就說明匯總層數據建設完善度不夠,對于使用數據的人而言,查詢明細數據,不僅慢,而且查詢成本高,經常出現一個查詢hang住整個集群的情況。復用性主要強調的是一個表被多個表使用的情況,復用性越高,說明數倉的設計越合理,更多的數據在數倉被復用。規范性主要是指數倉中的表、字段的命名規范統一,相同指標、維度、度量的標識是一致的。
2.指標是數據加工的結果(也可能是中間結果),指標管理的核心在于確保指標的業務口徑、計算邏輯和數據來源的一致,**指標的二義性。數據開發經常遇到的一個情況是,兩個數據產品,看到相同的一個指標,結果不一致,這可能是口徑不一致導致的,當然也有可能是數據來源不一致導致的。
3.質量還包括數據的質量,這里面包括數據的一致性、準確性、及時性以及完整性。數據的一致性,具體表現在集市層相同的指標數據是否一致,維度是否一致,相關指標的趨勢是否一致,不同數據源對同一個實體的值是否一致。準確性體現在數值計算的邏輯是否符合預期,數據格式是否正確。曾經我們有過一個深刻的教訓,在電商業務中,由于業務側更新上線后部分IP格式有問題,導致流量域、交易域部分指標出現異常波動。由于沒有對數據進行質量稽查,問題的排查和定位花費了大量的時間。及時性主要體現在數據產出時延,我們一般通過數倉數據在指定時間(比如5點之前)產出完成率來衡量。另外對于實時數據,對時效性要求比較高,我們會拿數據計算延遲來衡量。完整性主要是表記錄是否完整,包括記錄數是否完整,字段是否完成。
三、成本
成本是數據中臺需要解決的第三個問題,成本包括計算資源成本、存儲資源的成本以及人力研發成本。
數據就像手機里面的文件,如果不定時清理,手機存儲空間永遠不夠用。我們經常發現,大數據成本比業務增長還要快,這一方面是由于煙囪式的開發導致的數據重復加工,浪費計算和存儲資源,另一方面也是由于沒有定時清理,及時將無用的數據和任務下線,導致已經沒人看的報表,每天還從幾十億行的原始數據進行計算加工,浪費大量的資源。人力的成本其實跟效率有關系,如果效率得到提升,研發成本也會得到控制。
效率、質量、成本,這三個方面相互聯系,我認為這是數據中臺要解決的最重要的三個問題。
數據中臺的作用有哪些.中琛魔方大數據(www.zcmorefun.com)表示數據中臺的的意義和作用,就是把數據這種生產資料轉變為數據生產力。在全球數據化的時代,企業只有做到了解用戶,在數據支持的情況下不斷創新,打破數據孤島,才能在日漸激烈的競爭中長久的保持優勢。 |