183.17.231.* 2020-06-04 11:34:27 |
目前商業決策面臨的**挑戰不是缺少數據,而是數據太多。大部分企業無法挖掘數據得價值給公司決策層提供支持,決策人員得困惑在于:以事海量數據無邊無際,企業現有得信息系統無法**地處理;二是數據混亂,根本找不到解決得辦法。所以數據挖掘工作就更得不到**得重視了。
20世紀90年代晚期發展的跨行業數據挖掘標準流程(CRISP-DM),這是對我們怎么去做數據挖掘的**指導
**,是商業理解,在我看來,這個商業理解就是要把業務問題轉換成數據挖掘問題,目前數據挖掘的理論概念中,一般都包括分類,聚類,回歸,關聯規則這幾類,這需要對這幾類方法有一定的理解,才能**地轉換,
第二.數據理解,數據描述了我們的業務,在這一步,我們必須找準對應關系,所面臨的業務問題,有哪些數據可以用,我們做的是定量分析,沒有數據顯然是得不到模型的,知道哪里數據和業務關系緊密,也能讓我們的分析事半功倍,
第三.數據準備,實際上數據挖掘的大部分工作都在這一步,往往到了這一步就發現理想很美好,但現實很骨感,數據質量令人堪憂,缺失值,異常值接踵而來,這是數據的錯誤,還有為了適應算法,需要將數據去量綱化,類型轉換,去相關性,降維等等操作,這一步將消耗分析人員大量精力
第四,建模,這一步需要對算法理解透徹,要了解數據特征和算法特點,才能選擇**算法,以及**參數,很多算法的使用是有假設條件的,必須仔細掌握,得到的模型才會合理,另外,還要考慮業務需要,如果模型必須能解釋,那就要選擇生成式模型算法
第五,評價,就是模型評估了,各種評估指標的側重點是不一樣的,要以最能反應業務的指標為準,另外,評估數據的選擇也很關鍵,要盡可能的模擬實際生產環境,才能評估模型的性能。
以上就是得到模型流程了,業務理解和數據理解做的好,就能快速選好方法,和關鍵字段,這是能加速建模的,數據質量是能否得到模型的關鍵,缺失值,異常值雖然能刪除,填充,但是信息的缺失是找不回來的,就可能導致得不到模型,可能會倒逼選擇其他方法分析,建模就要看對算法的理解了。
企業如何進行數據挖掘.中琛魔方大數據分析平臺(www.zcmorefun.com)表示企業內部數據挖掘應以***為企業生產經營管理提供內外部信息為目標,其目標服務得對象是企業,具體包括企業得決策者、管理者、投資者、債權人、合作者、供應商和客戶等。 |