秋葵视频永久在线入口
數據挖掘項目成功的黃金準則—企業數據挖掘成功之道
  • 作者:
  • 發表時間:2019-04-26 16:00
  • 來源:未知

       為什麽您的數據挖掘項目成果總是難以落地?或者數據挖掘的價值總是遠遠低於預期?無論您是項目管理者還是數據分析師,相信看完這篇文章,每個人都能找到一個屬於自己的答案。本人先後在電力、軍工、金融等行業擔任數據挖掘工程師,數據挖掘谘詢顧問,有多年行業經驗。從平時的工作中總結出以下幾條數據挖掘項目成功的黃金準則,希望能幫助您真正將數據挖掘成果落到實處,給您的企業帶來實實在在的價值

1、遵循數據挖掘分析標準流程

數據挖掘項目具有周期長、複雜性高和不確定性高等特點,因此需要遵循一定的標準流程,這樣不僅可以保證數據挖掘每一個階段的工作內容有章可循,而且還可以保證最終的挖掘成果更加準確,更加有說服力。一般情況下,數據挖掘分析分為以下幾個步驟:

1) 業務理解,確定業務目標和數據挖掘目標、明確分析需求;

2) 數據理解,收集原始數據、描述數據、探索數據、檢驗數據質量;

3) 數據準備,選擇數據、清洗數據、構造數據、整合數據、格式化數據;

4) 建立模型,選擇建模技術、參數調優、生成測試計劃、構建模型;

5) 評估模型,對模型進行較為全麵的評價,評價結果、重審過程;

6) 成果部署,分析結果落地形式。

 

       整個挖掘分析項目都要圍繞這幾個步驟來實施。有時兩個步驟可以同時交替進行,例如,業務理解和數據理解有時可以同時進行;有時幾個步驟需要迭代進行,例如,數據準備、建立模型和評估模型這三個步驟經常需要循環迭代多次,才能得到理想的模型。但是需要強調的是:六個步驟缺一不可!
 


 

2、分析目標與業務價值目標緊密結合
      在數據分析前期,要做到充分溝通及理解業務規則、關注業務痛點、了解用戶需求、換位思考,明確為什麽要做挖掘分析,要達到一個什麽業務目標,期待實現一個怎樣的業務價值。這樣才能保證後續的收集數據、確定分析主題、分析數據、分析結果應用等工作都能夠圍繞分析目標開展,保證最終能夠從整體業務價值目標的角度去應用分析成果。

3、業務與數據結合確定分析主題
      以解決業務問題為目標,以數據現狀為基礎,確定分析主題。前期要做好充分的準備,以業務問題為導向,以業務和數據梳理為重點,進行多輪討論,分析主題避免過大,針對業務痛點,實現知現狀、明原因、可預測、有價值。在規劃了多個分析主題後,還必須從數據的滿足度、業務的價值度、業務的緊急度、業務的複雜度等多個方麵對於分析主題進行優先級確定,確保業務主題的可行性和價值性。

4、良好的數據質量是基礎
      高質量的數據挖掘成果必然依賴於高質量的數據,所以確定分析主題之後,要進行數據支撐情況的初步判斷,確保數據的完整、真實、規範,避免中途發現數據質量或者數據範圍不能支撐分析工作的情況發生。在這個過程中最忌諱隻重視數據的“大”量級,而忽視了數據的全麵性。全麵的數據是指能夠反映真實世界的數據其量已經達到可以從一定程度上反映事物的真實全貌的程度。就如同“瞎子摸象”,如果隻使用一個人所采集的數據,即使數據量再大,也是無法反映大象的全貌,做出的判斷也會出現嚴重的偏頗。

5、項目範圍邊界要明確
     在立項之前,要明確分析項目範圍並詳細論證分析可行性,保證分析過程的清晰性,才能開始分析工作。簡單說就是為挖掘分析項目界定一個工作邊界,如何做、怎麽樣做、做到什麽程度才能達成項目目標。項目範圍對於挖掘分析項目尤為重要,因為挖掘分析工作相對來說是一個沒有止境的工作,必須要有一個工作邊界和衡量標準。

6、高層重視及團隊式協作
      挖掘分析項目必須要有公司高層的支持,或者項目的牽頭人重視這個項目並且有能力調動相關部門去配合項目整體推進,這是項目進展的重要保障。分析團隊還要有業務人員、數據分析人員,數據管理員和IT人員,多個角色的參與。業務人員參與前期需求討化、分析主題的設計、分析過程中模型解釋等工作,數據分析人員則負責需求分析、數據梳理、數據分析及模型優化工作。數據管理員最了解企業的數據,需要提供數據資產目錄。IT人員需要對最終的分析成果進行封裝,與企業的現有係統實現對接。

7、多種分析方法結合
      分析過程中盡量運用多種分析方法,以提高分析的準確性和可靠性。例如,運用定性定量相結合的分析方法對於數據進行分析;融合交互式自助BI、數據挖掘、自然語言處理等多種分析方法;高級分析和可視化分析相結合等。

8、高效的數據挖掘平台支撐
      工欲善其事,必先利其器,數據挖掘分析項目一定要有一款強大高效的數據挖掘平台作為支撐。SPSS、SAS、Alteryx、Tempo、Rapidminer、R、Python等這幾種工具都是業界比較認可的數據分析產品。它們各有其優勢,SPSS 較早進入國內市場,發展已經相對成熟,有大量參考書可供參考,操作上容易上手,簡單易學。SAS由於其功能強大而且可以編程,很受高級用戶的歡迎。Alteryx 工作流打包成應用,為小企業直接提供應用,地理數據分析功能強大。Tempo數據分析平台功能全麵,企業級架構,算法功能更加強大,同時在挖掘分析和可視化分析相結合上具有明顯優勢。Rapidminer 易用性和用戶體驗做得很好,並且內置了很多案例用戶可直接替換數據源去使用。R 是開源免費的,具有良好的擴展性和豐富的資源,涵蓋了多種行業中數據分析的幾乎所有方法,分析數據更靈活。Python,有各種各樣功能強大的庫,做數據處理很方便,跟MATLAB很像。

9、分析結論盡量圖表化
      經過嚴謹推導得出的結論,首先要精簡明確,3-5條即可。其次要與業務問題結合,給出解決方案或建議方案。盡量圖表化,要增強其可讀性。

 

某企業KPI分析報告


挖掘分析項目過程中,除了以上幾條準則,還要避免以下3種情況:

1) 時間安排不合理

      在開始分析工作之前,一定要做一個明確的進度計劃,時間分配的原則是:數據收集、整理及建模占70%,數據可視化展現及分析報告占25%,其他占5%。(數據的收集、整理和建模的過程,是反複迭代的過程)

2) 數據源選擇不合理

      一般企業中的數據來源有很多,SAP、TMS、CRM及各部門業務係統,每個渠道的數據各有特點。這時,應該慎重考慮從哪個渠道獲取數據更加快捷有效。數據源選擇不合理,不僅影響結論的可靠性,而且有返工的風險。

3) 溝通不充分

      無論是分析人員內部的溝通還是與外部相關人員的溝通,都是至關重要的。與外部人員溝通不順暢,可能造成前期需求不清,中間業務邏輯混亂,最終導致數據分析結果差強人意。與內部人員溝通效率低,可能造成分析進度滯後,分析工作開展不暢等諸多問題,直接影響分析效果。

      最後,無論對於數據分析師還是挖掘分析項目管理者,希望看完了這篇文章都會對於如何做一個成功數據挖掘項目或者改進當前數據挖掘項目質量能有所收獲。