青青久久av北条麻妃黑人,国产伦理精品,国产精品爽爽爽爽爽爽在线观看,精品国产乱码久久久久久虫虫漫画

 中國簡單快捷的免費行業信息發布平臺
·手機版 ·注冊 ·登錄 ·會員中心 ·忘了密碼 ·導航 ·幫助
名站在線LOGO
·設 為 首 頁
·收 藏 本 站
·新 站 登 錄
網站首頁
|
行業供求
|
行業產品
|
行業公司
|
站內檢索
|
行業資訊
|
網站導航
|
鏈接交換
|
流量交換
|
網友收藏
您當前的位置: 首頁 > 行業貼吧 > 話題


行業貼吧

(注意:網友的發布表不代表本站立場。)
回復話題
發新話題
返回列表
話題: 數據中臺的作用有哪些
183.17.228.*
2020-03-25 13:53:30
  數據平臺是通過系統的方式實現企業大數據的統一、規范、安全、共享的數據組織方式,以服務方式實現前臺數據的應用,提高數據的使用效率,那么數據中通究竟解決了什么問題。歸總起來,主要有三點:效率、質量和成本。



  一、效率



  效率問題可以分為數據研發的效率、數據發現的效率和數據分析的效率。



  首先是數據研發的效率,在很多項目中,在項目初期由于業務模式還不固定,變化比較快,往往缺少良好的主題域和分層的設計,煙囪式的開發模式占據了主導,隨著業務復雜度和規模的上升,大量重復性的數據開發,制約了數據需求交付效率。一個需求往往需要一個星期甚至更長的時間才能上線,需求響應速度經常被業務部門詬病。



  其次是數據發現的效率,由于開發數據的和使用數據的往往是不同的人,面對動輒數萬張表,每張表有數十個甚至上百個字段,準確理解每張表的含義是一件非常困難的事。如果沒有一個好用的系統,往往需要大量的溝通成本,對于數據開發,經常抱怨工作被打斷,每天都在回答重復性的問題;對于分析師而言,想要知道有哪些數據可以用,找到自己想要的數據,需要花費大量的時間。在網易,建設數據中臺之前,很多業務都在用很原始的方法,每個分析師都自己維護了一個Excel,相當于自己的知識庫,記錄著一些常用的表。一個新的分析師想要了解數據,需要花費大量的時間。



  **是數據分析的效率,我們希望越來越多的人能夠基于數據進行分析決策,但是數據分析本身確實存在門檻,取數對于大多數非技術專業的運營和分析師就是一個大問題,經常看到一個分析師的SQL把整個集群資源跑滿還跑不出來,經常看到分析師遇到一個SQL異常不知所措。另外,傳統的數據分析依賴的是分析師的經驗,一個指標異常波動,需要從哪些維度去分析,完全靠分析師的個人技能,如何將經驗變成一種知識,甚至是一種規范,沉淀到產品中,通過系統自動地進行全維度的鉆取分析,降低數據分析的門檻,這其實也是業務面臨的難題。



  二、質量



  質量是數據中臺需要解決的第二個問題,質量包括數倉設計的質量、指標的一致性、1.數據研發的質量。



  數倉設計得***,主要體現在三個方面,完善度、復用性和規范性。數倉設計一般采用的是面向主題域的分層設計,對于ODS層保存的是業務原始數據,DWD保存的是經過清洗的明細數據,DWS是經過輕度聚合的匯總數據,ADS或者DM是應用層、集市層數據,這是一個常見的4層模型劃分。完善度的意思就是對于使用者而言,“要啥有啥”,對于不同分層,完善度的衡量方式也是有區別的,對于明細層,如果數倉中存在匯總層(DWS)數據直接引用ODS原始數據的情況,我們稱之為跨層引用,這就說明細層數據建設是有缺失的,如果其他匯總層也要使用相同的數據,都從ODS層去引用,就存在重復清洗的問題。對于匯總層數據而言,如果Query覆蓋率比較低,說明大量的查詢都是直接查詢明細數據,甚至是原始數據,這就說明匯總層數據建設完善度不夠,對于使用數據的人而言,查詢明細數據,不僅慢,而且查詢成本高,經常出現一個查詢hang住整個集群的情況。復用性主要強調的是一個表被多個表使用的情況,復用性越高,說明數倉的設計越合理,更多的數據在數倉被復用。規范性主要是指數倉中的表、字段的命名規范統一,相同指標、維度、度量的標識是一致的。



  2.指標是數據加工的結果(也可能是中間結果),指標管理的核心在于確保指標的業務口徑、計算邏輯和數據來源的一致,**指標的二義性。數據開發經常遇到的一個情況是,兩個數據產品,看到相同的一個指標,結果不一致,這可能是口徑不一致導致的,當然也有可能是數據來源不一致導致的。



  3.質量還包括數據的質量,這里面包括數據的一致性、準確性、及時性以及完整性。數據的一致性,具體表現在集市層相同的指標數據是否一致,維度是否一致,相關指標的趨勢是否一致,不同數據源對同一個實體的值是否一致。準確性體現在數值計算的邏輯是否符合預期,數據格式是否正確。曾經我們有過一個深刻的教訓,在電商業務中,由于業務側更新上線后部分IP格式有問題,導致流量域、交易域部分指標出現異常波動。由于沒有對數據進行質量稽查,問題的排查和定位花費了大量的時間。及時性主要體現在數據產出時延,我們一般通過數倉數據在指定時間(比如5點之前)產出完成率來衡量。另外對于實時數據,對時效性要求比較高,我們會拿數據計算延遲來衡量。完整性主要是表記錄是否完整,包括記錄數是否完整,字段是否完成。



  三、成本



  成本是數據中臺需要解決的第三個問題,成本包括計算資源成本、存儲資源的成本以及人力研發成本。



  數據就像手機里面的文件,如果不定時清理,手機存儲空間永遠不夠用。我們經常發現,大數據成本比業務增長還要快,這一方面是由于煙囪式的開發導致的數據重復加工,浪費計算和存儲資源,另一方面也是由于沒有定時清理,及時將無用的數據和任務下線,導致已經沒人看的報表,每天還從幾十億行的原始數據進行計算加工,浪費大量的資源。人力的成本其實跟效率有關系,如果效率得到提升,研發成本也會得到控制。



  效率、質量、成本,這三個方面相互聯系,我認為這是數據中臺要解決的最重要的三個問題。



  數據中臺的作用有哪些.中琛魔方大數據(www.zcmorefun.com)表示數據中臺的的意義和作用,就是把數據這種生產資料轉變為數據生產力。在全球數據化的時代,企業只有做到了解用戶,在數據支持的情況下不斷創新,打破數據孤島,才能在日漸激烈的競爭中長久的保持優勢。
共0個回復
回復話題
發新話題
返回列表

点击右侧图标查看本页是否已被搜索引擎收录:查看是否已被百度收录 查看是否已被谷歌收录 查看是否已被搜狗收录 查看是否已被搜搜收录 查看是否已被360收录
本页链接地址参考:http://www.9896525.com/bbslist.php?bbsid=71402


新站登錄--網站簡介--流量交換--名站收藏夾--廣告服務--友情鏈接--免責聲明--聯系我們--意見建議--違法舉報--侵權舉報
Copyright 2005-2025 名站在線[www.9896525.com]版權所有 經營許可證:粵ICP備17047754號 51La








主站蜘蛛池模板: 道孚县| 白河县| 丹凤县| 邵阳县| 北辰区| 龙游县| 阳高县| 康保县| 吉木萨尔县| 横峰县| 澎湖县| 志丹县| 兖州市| 陆河县| 阿图什市| 玛沁县| 河源市| 岫岩| 灌阳县| 石柱| 安远县| 彝良县| 东方市| 榆树市| 三亚市| 凌云县| 大悟县| 唐河县| 久治县| 卢龙县| 延安市| 那曲县| 河北省| 海南省| 合肥市| 繁峙县| 左贡县| 临沧市| 旅游| 新巴尔虎右旗| 宜黄县|