国产午夜福利在线观看红一片,久久精品国产再热青青青,又硬又粗又大一区二区三区视频,中文字幕乱码免费,久久超碰97文字幕 ,中国精学生妹品射精久久

最新更新最新專題

您的位置:首頁 > ppt下載 > PPT課件 > 培訓教程PPT > clementine數(shù)據(jù)挖掘培訓PPT

clementine數(shù)據(jù)挖掘培訓PPT下載

素材大小:
5 MB
素材授權:
免費下載
素材格式:
.ppt
素材上傳:
ppt
上傳時間:
2016-03-31
素材編號:
51811
素材類別:
培訓教程PPT

素材預覽

clementine數(shù)據(jù)挖掘培訓PPT clementine數(shù)據(jù)挖掘培訓PPT

這是一個關于clementine數(shù)據(jù)挖掘培訓PPT(部分ppt內容已做更新升級),數(shù)據(jù)挖掘與Clementine使用培訓,通過多個案例來說明數(shù)據(jù)挖掘與Clementine使用,共305頁等內容。培訓是給新員工或現(xiàn)有員工傳授其完成本職工作所必需的正確思維認知、基本知識和技能的過程。是一種有組織的知識傳遞、技能傳遞、標準傳遞、信息傳遞、管理訓誡行為。其中以技能傳遞為主,側重上崗前進行。為了達到統(tǒng)一的科學技術規(guī)范、標準化作業(yè),通過目標規(guī)劃設定知識和信息傳遞、技能熟練演練、作業(yè)達成評測、結果交流公告等現(xiàn)代信息化的流程,讓員工通過一定的教育訓練技術手段,達到預期的水平,提高目標。目前國內培訓以技能傳遞為主,時間在側重上崗前。

clementine數(shù)據(jù)挖掘培訓PPT是由紅軟PPT免費下載網推薦的一款培訓教程PPT類型的PowerPoint.

數(shù)據(jù)挖掘與Clementine使用培訓ksZ紅軟基地
北京瑞斯泰得數(shù)據(jù)技術開發(fā)有限公司ksZ紅軟基地
2016/3/31ksZ紅軟基地
一、數(shù)據(jù)挖掘概述ksZ紅軟基地
什么是數(shù)據(jù)挖掘ksZ紅軟基地
數(shù)據(jù)挖掘的實現(xiàn)路線和流程ksZ紅軟基地
數(shù)據(jù)挖掘方法論——CRISP-DMksZ紅軟基地
為什么進行數(shù)據(jù)挖掘? 商業(yè)觀點ksZ紅軟基地
業(yè)務中產生了大量的數(shù)據(jù),這些數(shù)據(jù)存儲在業(yè)務系統(tǒng)中卻不能創(chuàng)造價值ksZ紅軟基地
客戶信息數(shù)據(jù)ksZ紅軟基地
客戶交易行為數(shù)據(jù)ksZ紅軟基地
客戶反饋數(shù)據(jù)ksZ紅軟基地
網絡數(shù)據(jù)ksZ紅軟基地
……ksZ紅軟基地
計算機變得越來越便宜、功能卻越來越強大ksZ紅軟基地
商業(yè)競爭越來越激烈,對客戶了解越多就意味著機會越大ksZ紅軟基地
為什么進行數(shù)據(jù)挖掘? 技術觀點ksZ紅軟基地
業(yè)務中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(GB/小時)ksZ紅軟基地
傳統(tǒng)技術難以從這些大量數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)律ksZ紅軟基地
數(shù)據(jù)挖掘可以幫助我們從大量數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)律ksZ紅軟基地
一個市場營銷的例子ksZ紅軟基地
一個市場營銷的例子ksZ紅軟基地
一個市場營銷的例子ksZ紅軟基地
數(shù)據(jù)挖掘收益分析ksZ紅軟基地
利潤分析圖ksZ紅軟基地
數(shù)據(jù)挖掘效果模擬分析ksZ紅軟基地
什么是數(shù)據(jù)挖掘?ksZ紅軟基地
不同的定義ksZ紅軟基地
從大量數(shù)據(jù)中發(fā)現(xiàn)非平凡的、先前不知道的、有價值的規(guī)律的過程ksZ紅軟基地
從大量數(shù)據(jù)中自動化(或者半自動化)的發(fā)現(xiàn)有價值規(guī)律的過程ksZ紅軟基地
數(shù)據(jù)挖掘的其他名稱ksZ紅軟基地
數(shù)據(jù)庫內知識發(fā)現(xiàn)(KDD- Knowledge discovery in databases )ksZ紅軟基地
數(shù)據(jù)/模式分析ksZ紅軟基地
商業(yè)智能ksZ紅軟基地
人工智能ksZ紅軟基地
……ksZ紅軟基地
數(shù)據(jù)挖掘的起源ksZ紅軟基地
來源于機器學習/人工智能、模式識別、統(tǒng)計學和數(shù)據(jù)庫ksZ紅軟基地
傳統(tǒng)技術的局限性ksZ紅軟基地
巨量的數(shù)據(jù)ksZ紅軟基地
高維數(shù)據(jù)ksZ紅軟基地
數(shù)據(jù)分布不理想ksZ紅軟基地
數(shù)據(jù)挖掘面臨的挑戰(zhàn)ksZ紅軟基地
海量數(shù)據(jù)ksZ紅軟基地
高維數(shù)據(jù)ksZ紅軟基地
數(shù)據(jù)復雜性ksZ紅軟基地
數(shù)據(jù)質量問題ksZ紅軟基地
數(shù)據(jù)所有權和分布ksZ紅軟基地
隱私問題ksZ紅軟基地
數(shù)據(jù)挖掘方法論—項目順利實施的保證ksZ紅軟基地
商業(yè)理解ksZ紅軟基地
數(shù)據(jù)理解ksZ紅軟基地
數(shù)據(jù)準備ksZ紅軟基地
建立模型ksZ紅軟基地
模型評估ksZ紅軟基地
結果發(fā)布ksZ紅軟基地
商業(yè)理解是數(shù)據(jù)挖掘的起點ksZ紅軟基地
商業(yè)理解的內容ksZ紅軟基地
數(shù)據(jù)挖掘能解決什么樣的商業(yè)問題?ksZ紅軟基地
數(shù)據(jù)挖掘得到的結果,是否可以采取相應的行動以提高利潤或降低成本?ksZ紅軟基地
我們期望模型能夠給我們怎樣的精確率?ksZ紅軟基地
有那些前提假定?ksZ紅軟基地
約束分析ksZ紅軟基地
時間約束分析ksZ紅軟基地
資源約束分析ksZ紅軟基地
人力資源ksZ紅軟基地
數(shù)據(jù)資源ksZ紅軟基地
軟件資源ksZ紅軟基地
硬件資源ksZ紅軟基地
制定特定的數(shù)據(jù)挖掘目標ksZ紅軟基地
制定的數(shù)據(jù)挖掘目標應具有:ksZ紅軟基地
可評估性(assessable)ksZ紅軟基地
可實現(xiàn)性(attainable)ksZ紅軟基地
如何給定一個數(shù)據(jù)挖掘問題ksZ紅軟基地
是檢驗性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘?ksZ紅軟基地
確定哪些是可以實現(xiàn)的數(shù)據(jù)挖掘問題ksZ紅軟基地
 結果可測度性ksZ紅軟基地
 信息(數(shù)據(jù))的可獲得性ksZ紅軟基地
 評估和控制其他相關因素的影響ksZ紅軟基地
數(shù)據(jù)來源與數(shù)據(jù)之間的關系ksZ紅軟基地
使數(shù)據(jù)適合數(shù)據(jù)挖掘ksZ紅軟基地
對數(shù)據(jù)進行適當?shù)暮喜⒑蛥R總ksZ紅軟基地
一般數(shù)據(jù)挖掘分析都要一個行×列(記錄×變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求:ksZ紅軟基地
所有的記錄含有排列順序一致的變量ksZ紅軟基地
所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實中很難達到)ksZ紅軟基地
檢查數(shù)據(jù)質量ksZ紅軟基地
影響數(shù)據(jù)質量的幾個主要問題ksZ紅軟基地
缺失值ksZ紅軟基地
不合理值ksZ紅軟基地
不同數(shù)據(jù)源的不一致ksZ紅軟基地
異常值ksZ紅軟基地
對數(shù)據(jù)進行適當?shù)淖儞QksZ紅軟基地
數(shù)據(jù)的標準化變換ksZ紅軟基地
生成新的變量ksZ紅軟基地
數(shù)據(jù)的重新編碼ksZ紅軟基地
數(shù)據(jù)降維,從變量角度或者從記錄角度ksZ紅軟基地
數(shù)據(jù)挖掘模型的分類ksZ紅軟基地
數(shù)據(jù)描述和匯總(Data description and summarization)ksZ紅軟基地
細分(Segmentation)ksZ紅軟基地
概念描述(Concept descriptions)ksZ紅軟基地
分類(Classification)ksZ紅軟基地
預測(Prediction)ksZ紅軟基地
相關分析(Dependency analysis)ksZ紅軟基地
數(shù)據(jù)挖掘技術的分類ksZ紅軟基地
數(shù)據(jù)挖掘的典型結果——金融ksZ紅軟基地
 問題描述:預測信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少 ksZ紅軟基地
 結果描述:(決策樹)ksZ紅軟基地
數(shù)據(jù)挖掘的典型結果——電信ksZ紅軟基地
 問題描述:根據(jù)客戶信息,預測客戶流失可能性ksZ紅軟基地
 結果描述:(神經網絡)ksZ紅軟基地
數(shù)據(jù)挖掘的典型結果——零售ksZ紅軟基地
問題描述:如何決定超市中商品的擺放來增加銷售額ksZ紅軟基地
結果描述:(Web圖)ksZ紅軟基地
數(shù)據(jù)挖掘的典型結果——制造業(yè)ksZ紅軟基地
 問題描述:如何對市場進行細分,使產品滿足最有價值客戶ksZ紅軟基地
 結果描述:(Koholen聚類)ksZ紅軟基地
數(shù)據(jù)挖掘的典型結果——政府ksZ紅軟基地
 問題描述:如何從眾多申請經費或者納稅中發(fā)現(xiàn)欺詐ksZ紅軟基地
 結果描述:(回歸、神經網絡)ksZ紅軟基地
檢驗的形式ksZ紅軟基地
方法層面的檢驗ksZ紅軟基地
 訓練集和檢驗集ksZ紅軟基地
 不同方法的互相印證和比較ksZ紅軟基地
 模型準確性的檢驗:ksZ紅軟基地
商業(yè)層面上的檢驗ksZ紅軟基地
 利潤率的檢驗ksZ紅軟基地
 模型結果可操作性的檢驗ksZ紅軟基地
 其他檢驗ksZ紅軟基地
關注那些錯誤的預測ksZ紅軟基地
數(shù)據(jù)挖掘不成功的幾種可能性ksZ紅軟基地
糟糕的數(shù)據(jù)ksZ紅軟基地
組織抵制ksZ紅軟基地
結果沒有被有效的發(fā)布ksZ紅軟基地
得到了無用的結果ksZ紅軟基地
模型發(fā)布的形式ksZ紅軟基地
書面報告ksZ紅軟基地
數(shù)據(jù)庫更新ksZ紅軟基地
針對特定主題的應用系統(tǒng)ksZ紅軟基地
數(shù)據(jù)挖掘的體系結構ksZ紅軟基地
二、Clementine概述ksZ紅軟基地
Clementine在數(shù)據(jù)挖掘中的地位ksZ紅軟基地
Clementine發(fā)展歷史ksZ紅軟基地
Clementine的配置ksZ紅軟基地
Clementine操作基礎ksZ紅軟基地
數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過程中的地位ksZ紅軟基地
數(shù)據(jù)挖掘方法論——項目順利實施的保證ksZ紅軟基地
Clementine發(fā)展歷程ksZ紅軟基地
Clementine是ISL (Integral Solutions Limited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺ksZ紅軟基地
1998年SPSS公司收購了ISL公司,對Clementine產品進行重新整合和開發(fā),現(xiàn)在Clementine已經成為SPSS公司的又一亮點ksZ紅軟基地
Clementine的軟件構成ksZ紅軟基地
Clementine Client;ksZ紅軟基地
Clementine Server;ksZ紅軟基地
Clementine Batch;ksZ紅軟基地
SPSS Data Access Pack;ksZ紅軟基地
Clementine Solution Publisher (Optional)。ksZ紅軟基地
Clementine的兩種運行方式ksZ紅軟基地
單機版運行ksZ紅軟基地
以下情況必須使用單機版運行:ksZ紅軟基地
數(shù)據(jù)存儲在本機,且不能在網絡上共享;ksZ紅軟基地
機器不聯(lián)網;ksZ紅軟基地
無Clementine Server可供使用。ksZ紅軟基地
以下情況可以使用單機版運行:ksZ紅軟基地
要處理的數(shù)據(jù)量很。ū热纾盒∮2M)并且數(shù)據(jù)存儲在單機或可到達局域網處;ksZ紅軟基地
單機內存、硬盤相對要處理的數(shù)據(jù)量來說足夠大,并且速度也滿足要求。ksZ紅軟基地
Clementine的系統(tǒng)結構ksZ紅軟基地
Clementine運行的兩種方式ksZ紅軟基地
圖形界面方式ksZ紅軟基地
適用操作系統(tǒng)ksZ紅軟基地
Windows系列ksZ紅軟基地
特點:ksZ紅軟基地
圖形化界面ksZ紅軟基地
與客戶直接交互ksZ紅軟基地
適合交互式分析過程ksZ紅軟基地
Clementine的界面和設計思路ksZ紅軟基地
可視化界面ksZ紅軟基地
四個區(qū)域分別是建模區(qū)、結點區(qū)、模型描述區(qū)、項目管理區(qū)ksZ紅軟基地
通過連接結點構成數(shù)據(jù)流建立模型ksZ紅軟基地
Clementine通過6類結點的連接完成數(shù)據(jù)挖掘工作,它們是:ksZ紅軟基地
Source(源結點):Database、Var. Files等ksZ紅軟基地
Record Ops (記錄處理結點):Select、Sample等`ksZ紅軟基地
Field Ops(字段處理結點):Type、Filter等ksZ紅軟基地
Graphs(圖形結點):Plot、Distribute等ksZ紅軟基地
Modeling(模型結點):Neural Net、C5.0等ksZ紅軟基地
Output(輸出結點):Table、Matrix等ksZ紅軟基地
Clementine操作基本知識ksZ紅軟基地
鼠標應用ksZ紅軟基地
三鍵與雙鍵鼠標ksZ紅軟基地
左鍵 選擇節(jié)點或圖標置于建模區(qū)ksZ紅軟基地
右鍵 激活浮動菜單ksZ紅軟基地
中鍵 連接或斷開兩個節(jié)點 ksZ紅軟基地
幫助ksZ紅軟基地
Clementine操作基本知識ksZ紅軟基地
節(jié)點的增加,以    為例ksZ紅軟基地
Click “Sources”,Click      ,Click “流區(qū)域”ksZ紅軟基地
Click “Sources”,Double Click      ksZ紅軟基地
Click “Sources”,Drag        to “流區(qū)域”ksZ紅軟基地
節(jié)點的刪除ksZ紅軟基地
Click      , DeleteksZ紅軟基地
Right Click      ,Click “Delete”ksZ紅軟基地
節(jié)點的移動:DragksZ紅軟基地
Clementine操作基本知識ksZ紅軟基地
節(jié)點的編輯ksZ紅軟基地
Double ClickksZ紅軟基地
Right Click      ,Click “Edit”ksZ紅軟基地
節(jié)點的重命名和解釋ksZ紅軟基地
Right Click      ,Click “Edit”,Click “Annotations”ksZ紅軟基地
Double Click     ,Click “Annotations”ksZ紅軟基地
Right Click      ,Click “Rename and Annotations”ksZ紅軟基地
拷貝、粘貼ksZ紅軟基地
Clementine操作基本知識ksZ紅軟基地
構建流時節(jié)點的連接ksZ紅軟基地
Highlight       ,Add      to the CanvasksZ紅軟基地
Right Click       ,Click “Connect”,Click ksZ紅軟基地
Drag the middle mutton from        to  ksZ紅軟基地
構建流時節(jié)點連接的刪除ksZ紅軟基地
Right Click       or        , Click “Disconnect”ksZ紅軟基地
Right Click “Connection”,Click “Delete Connection”ksZ紅軟基地
Double Click         or        ksZ紅軟基地
Clementine操作基本知識ksZ紅軟基地
流的執(zhí)行ksZ紅軟基地
Highlight “Stream”,ClickksZ紅軟基地
Right Click      ,Click “Execute”ksZ紅軟基地
In the Edit Window of the      , Click “Execute”ksZ紅軟基地
流的保存ksZ紅軟基地
幫助ksZ紅軟基地
Help MenuksZ紅軟基地
Dialogue WindowksZ紅軟基地
Clementine的優(yōu)化ksZ紅軟基地
包括兩個方面的優(yōu)化ksZ紅軟基地
結構優(yōu)化ksZ紅軟基地
用戶優(yōu)化ksZ紅軟基地
結構優(yōu)化ksZ紅軟基地
把中間結果存儲在Server上(盡量使用server版處理)ksZ紅軟基地
從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個執(zhí)行)ksZ紅軟基地
減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進行規(guī)劃)ksZ紅軟基地
用戶優(yōu)化ksZ紅軟基地
自動優(yōu)化數(shù)據(jù)流:當使用這一選項時,Clementine將重寫數(shù)據(jù)流以使效率最高(可以通過Clementine Server中的sql_rewriting_enabled來調整是否可以使用)ksZ紅軟基地
優(yōu)化的SQL生成。使盡可能的操作在數(shù)據(jù)庫內進行。ksZ紅軟基地
優(yōu)化Clementine執(zhí)行。調整數(shù)據(jù)降維的操作盡可能接近數(shù)據(jù)源完成。ksZ紅軟基地
手動優(yōu)化數(shù)據(jù)流ksZ紅軟基地
操作順序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,盡可能把能夠在SQL中完成的一起排在前面ksZ紅軟基地
數(shù)據(jù)類型:盡可能在源節(jié)點處由用戶自定義數(shù)據(jù)類型,而不是Clementine自動讀取。ksZ紅軟基地
問題的提出ksZ紅軟基地
如何通過數(shù)據(jù)挖掘實現(xiàn)小靈通信用級別的判斷系統(tǒng)ksZ紅軟基地
 某電信公司按照某種標準將小靈通客戶信用等級分為5類,分別是gradeA、gradeB 、gradeC、gradeX、gradeY。現(xiàn)在希望建立一套系統(tǒng),能夠使得市場部人員根據(jù)用戶的幾項關鍵的個人基本信息判斷該客戶的信用級別,從而有針對性地對其采用不同的市場營銷策略。ksZ紅軟基地
數(shù)據(jù)描述ksZ紅軟基地
遵循CRISP-DM的數(shù)據(jù)挖掘過程ksZ紅軟基地
在進行數(shù)據(jù)挖掘過程中應該注意的幾個問題ksZ紅軟基地
商業(yè)經驗的作用ksZ紅軟基地
數(shù)據(jù)的拆分——訓練集與檢驗集ksZ紅軟基地
不同模型的印證與比較ksZ紅軟基地
結果發(fā)布ksZ紅軟基地
信用級別靜態(tài)列表ksZ紅軟基地
信用級別寫回數(shù)據(jù)庫ksZ紅軟基地
實時判斷信用級別的分析應用ksZ紅軟基地
三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報告ksZ紅軟基地
數(shù)據(jù)組織形式ksZ紅軟基地
數(shù)據(jù)圖形展現(xiàn)ksZ紅軟基地
數(shù)據(jù)表格展現(xiàn)ksZ紅軟基地
數(shù)據(jù)挖掘要求的數(shù)據(jù)格式ksZ紅軟基地
數(shù)據(jù)尺度ksZ紅軟基地
根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類型ksZ紅軟基地
定類變量ksZ紅軟基地
例如:客戶編號、性別、郵編等ksZ紅軟基地
不能比較大小ksZ紅軟基地
定序變量ksZ紅軟基地
產品等級、信用級別、客戶收入水平分類等ksZ紅軟基地
可以比較大小、不能進行加減運算ksZ紅軟基地
定距變量ksZ紅軟基地
出生日期、溫度等ksZ紅軟基地
可以進行加減運算、不能進行乘除運算ksZ紅軟基地
定比變量ksZ紅軟基地
收入、長度等ksZ紅軟基地
可以進行乘除運算ksZ紅軟基地
各類變量尺度比較ksZ紅軟基地
描述性統(tǒng)計量ksZ紅軟基地
描述統(tǒng)計量(summary statistic),也稱匯總統(tǒng)計量或概括統(tǒng)計量ksZ紅軟基地
用少量數(shù)字概括大量數(shù)據(jù)的技術ksZ紅軟基地
離散變量的描述性統(tǒng)計ksZ紅軟基地
 頻數(shù)ksZ紅軟基地
 累計頻數(shù)ksZ紅軟基地
 頻率ksZ紅軟基地
 累計頻率(累計必須是定序變量)ksZ紅軟基地
連續(xù)變量的描述指標ksZ紅軟基地
反映數(shù)據(jù)平均趨勢和位置的指標ksZ紅軟基地
反映數(shù)據(jù)離散趨勢的指標ksZ紅軟基地
反映數(shù)據(jù)分布狀況的指標ksZ紅軟基地
反映連續(xù)數(shù)據(jù)平均趨勢的指標ksZ紅軟基地
平均數(shù)ksZ紅軟基地
算術平均數(shù)ksZ紅軟基地
幾何平均數(shù)ksZ紅軟基地
截尾算術平均數(shù):比較穩(wěn)健有效地描述平均值ksZ紅軟基地
 中位數(shù):(代表群體基本的趨勢,集中的趨勢)ksZ紅軟基地
 眾數(shù)(多用于離散變量)ksZ紅軟基地
 四分位數(shù)(25%,50%,75%)ksZ紅軟基地
 百分位數(shù)ksZ紅軟基地
平均數(shù)與中位數(shù)的結合使用ksZ紅軟基地
對5個數(shù)值表示的內容說法有些不同ksZ紅軟基地
反映連續(xù)數(shù)據(jù)離散趨勢的指標ksZ紅軟基地
 極差(全距)range =max-minksZ紅軟基地
 內距 50%的差距ksZ紅軟基地
 方差 :更適合離散趨勢的描述(趨勢放大)ksZ紅軟基地
 標準差ksZ紅軟基地
 變異系數(shù):標準差/均值,值越大,則離散程度越大。ksZ紅軟基地
平均數(shù)與標準差的應用ksZ紅軟基地
 切比雪夫定理ksZ紅軟基地
在任何一個數(shù)據(jù)集中,至少有(1-1/z2 )的數(shù)據(jù)項與平均數(shù)的距離在z個標準差之內,其中z是任意大于1的值。   ksZ紅軟基地
 切比雪夫定理含義ksZ紅軟基地
1.至少75%的數(shù)據(jù)項與平均數(shù)的距離在2個標準差之內;ksZ紅軟基地
2.至少89%的數(shù)據(jù)項與平均數(shù)的距離在3個標準差之內;(6西格瑪質量管理應用)ksZ紅軟基地
3.至少94%的數(shù)據(jù)項與平均數(shù)的距離在4個標準差之內。ksZ紅軟基地
連續(xù)變量的經驗法則ksZ紅軟基地
正態(tài)分布是一種最常用的連續(xù)型分布ksZ紅軟基地
關于正態(tài)分布的經驗法則ksZ紅軟基地
1.約68%的數(shù)據(jù)項與平均數(shù)的距離在1個標準差之內;ksZ紅軟基地
2.約95%的數(shù)據(jù)項與平均數(shù)的距離在2個標準差之內;ksZ紅軟基地
3.幾乎全部數(shù)據(jù)項(99.97%)與平均數(shù)的距離在3個標準差之內。ksZ紅軟基地
切比雪夫和經驗法則的應用ksZ紅軟基地
 問題ksZ紅軟基地
某單位有100個人,他們的平均身高是170cm,標準差為5cm,那么有多少人的身高是落在160cm-180cm這個區(qū)間里的呢?ksZ紅軟基地
 經驗法則的應用ksZ紅軟基地
 根據(jù)切比雪夫定理,該單位至少有75%的人身高在160cm—180cm這個區(qū)間里ksZ紅軟基地
 根據(jù)正態(tài)分布經驗法則,該單位大約有95%的人身高在160cm—180cm這個區(qū)間里ksZ紅軟基地
反映連續(xù)數(shù)據(jù)分布狀況的指標ksZ紅軟基地
 偏度ksZ紅軟基地
峰度ksZ紅軟基地
圖形展現(xiàn)數(shù)據(jù)ksZ紅軟基地
圖形技術的應用ksZ紅軟基地
圖形可以用來直觀的展示數(shù)據(jù)的分布特征和取值情況ksZ紅軟基地
常見的描述離散變量的圖形有ksZ紅軟基地
   條形圖      餅形圖ksZ紅軟基地
常見的描述連續(xù)變量的圖形有ksZ紅軟基地
   直方圖ksZ紅軟基地
常見的描述兩個離散變量之間關系的圖形有ksZ紅軟基地
    Web圖        條形圖ksZ紅軟基地
常見的描述兩個連續(xù)變量之間關系的圖形有ksZ紅軟基地
   散點圖ksZ紅軟基地
常見的描述一個離散變量和一個連續(xù)變量之間關系的圖形是ksZ紅軟基地
   條形圖ksZ紅軟基地
通過圖形可以表現(xiàn)多個變量之間的關系ksZ紅軟基地
Chapter 2ksZ紅軟基地
Clementine  簡介ksZ紅軟基地
Chapter 2  Clementine 簡介ksZ紅軟基地
目的:ksZ紅軟基地
初步了解Clementine軟件ksZ紅軟基地
內容:ksZ紅軟基地
2.1 SPSS Clementine C/SksZ紅軟基地
2.2 SPSS Clementine 面板ksZ紅軟基地
2.3 SPSS Clementine 可視化程序使用基礎ksZ紅軟基地
節(jié)點ksZ紅軟基地
SPSS file 節(jié)點 ksZ紅軟基地
Table 節(jié)點ksZ紅軟基地
2.1 Clementine C/SksZ紅軟基地
啟動:ksZ紅軟基地
Start..Programs..Clementine 8.1 …ksZ紅軟基地
Clementine and Clementine ServerksZ紅軟基地
Tools…Server LoginksZ紅軟基地
2.2 Clementine 面板ksZ紅軟基地
第二講:數(shù)據(jù)簡單準備與理解ksZ紅軟基地
數(shù)據(jù)準備之讀入數(shù)據(jù)ksZ紅軟基地
數(shù)據(jù)理解之數(shù)據(jù)質量ksZ紅軟基地
數(shù)據(jù)理解之數(shù)據(jù)分布ksZ紅軟基地
Chapter 3ksZ紅軟基地
讀取數(shù)據(jù)文件ksZ紅軟基地
Chapter 3 讀取數(shù)據(jù)文件ksZ紅軟基地
目的ksZ紅軟基地
掌握Clementine如何讀取文本格式數(shù)據(jù)ksZ紅軟基地
了解Clementine可以讀取的數(shù)據(jù)格式ksZ紅軟基地
掌握Clementine中的字段類型和方向ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Smallsamplecomma.comksZ紅軟基地
Chapter 3 讀取數(shù)據(jù)文件ksZ紅軟基地
內容及節(jié)點:ksZ紅軟基地
3.1 Clementine可以讀取的數(shù)據(jù)格式ksZ紅軟基地
3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù)ksZ紅軟基地
3.3 讀取SPSS數(shù)據(jù)ksZ紅軟基地
3.4 讀取數(shù)據(jù)庫數(shù)據(jù)(專用spss配置的鏈接)ksZ紅軟基地
3.5 Clementine中的字段類型ksZ紅軟基地
3.6 Clementine中的字段方向ksZ紅軟基地
3.7 保存Clementine流ksZ紅軟基地
3.1 Clementine可以讀取的數(shù)據(jù)格式ksZ紅軟基地
文本格式數(shù)據(jù)ksZ紅軟基地
SPSS/SAS數(shù)據(jù)ksZ紅軟基地
Excel,Access,dBase,F(xiàn)oxpro,Oracle,SQL Server,DB2等數(shù)據(jù)庫(每次只能讀一個表)ksZ紅軟基地
用戶輸入數(shù)據(jù)ksZ紅軟基地
3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù)ksZ紅軟基地
3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù)ksZ紅軟基地
3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù)ksZ紅軟基地
3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù)ksZ紅軟基地
3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù)ksZ紅軟基地
3.3 讀取SPSS數(shù)據(jù)ksZ紅軟基地
變量標簽ksZ紅軟基地
值標簽ksZ紅軟基地
3.4 讀取數(shù)據(jù)庫數(shù)據(jù)ksZ紅軟基地
ODBC設置ksZ紅軟基地
3.5 Clementine中的字段類型ksZ紅軟基地
離散型ksZ紅軟基地
二分   eg:sex:m/fksZ紅軟基地
多分   eg:等級:好/中/差ksZ紅軟基地
離散   eg:ksZ紅軟基地
連續(xù)型ksZ紅軟基地
整數(shù)    ksZ紅軟基地
實數(shù)ksZ紅軟基地
日期、時間ksZ紅軟基地
其它ksZ紅軟基地
3.6 Clementine中的字段方向ksZ紅軟基地
3.7 讀取其它格式的數(shù)據(jù)ksZ紅軟基地
SasksZ紅軟基地
Fixed text file:同一字段在各行的同一列ksZ紅軟基地
Chapter 4ksZ紅軟基地
數(shù)據(jù)理解之數(shù)據(jù)質量ksZ紅軟基地
Chapter 4 數(shù)據(jù)理解之數(shù)據(jù)質量ksZ紅軟基地
目的:ksZ紅軟基地
掌握如何應用Clementine發(fā)現(xiàn)數(shù)據(jù)的準確性、完整性ksZ紅軟基地
熟悉用于數(shù)據(jù)質量分析的幾個節(jié)點ksZ紅軟基地
內容:ksZ紅軟基地
4.1 數(shù)據(jù)理解ksZ紅軟基地
4.2 缺失值定義ksZ紅軟基地
4.3 Quality節(jié)點介紹ksZ紅軟基地
4.4 Distribution節(jié)點----初步理解字符型字段的分布ksZ紅軟基地
4.5 Histogram/Statistics節(jié)點----初步理解數(shù)值型字段的分布ksZ紅軟基地
數(shù)據(jù):ksZ紅軟基地
Smallsamplemissing.txtksZ紅軟基地
Risk.txtksZ紅軟基地
4.1 數(shù)據(jù)理解ksZ紅軟基地
在數(shù)據(jù)挖掘之前,理解數(shù)據(jù)的取值范圍及數(shù)值分布是非常重要的ksZ紅軟基地
Histogram/StatisticsksZ紅軟基地
DistributionksZ紅軟基地
數(shù)據(jù)質量越高,挖掘結果準確性越高ksZ紅軟基地
QualityksZ紅軟基地
4.2 缺失值定義ksZ紅軟基地
Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields.ksZ紅軟基地
缺失值的定義:type節(jié)點ksZ紅軟基地
系統(tǒng)默認缺失值----onksZ紅軟基地
Null----數(shù)值型字段----空值----“”----“$Null”ksZ紅軟基地
Empty String ----字符型字段----空值----“”ksZ紅軟基地
White Space ----字符型字段----空值以及空格值----“”或“       ”----包括Empty StringksZ紅軟基地
指定缺失值----Blank ValueksZ紅軟基地
系統(tǒng)默認缺失值ksZ紅軟基地
指定特殊缺失值----“99”ksZ紅軟基地
缺失值的檢查:quality節(jié)點ksZ紅軟基地
4.2 缺失值定義ksZ紅軟基地
4.2 缺失值定義ksZ紅軟基地
數(shù)據(jù)缺失情況ksZ紅軟基地
數(shù)據(jù)量的大小ksZ紅軟基地
包含缺失值的字段的數(shù)量ksZ紅軟基地
缺失值的數(shù)量ksZ紅軟基地
缺失值的處理方法ksZ紅軟基地
忽略含缺失值的字段ksZ紅軟基地
忽略含缺失值的記錄ksZ紅軟基地
默認值代替缺失值ksZ紅軟基地
根據(jù)一定規(guī)則填充缺失值ksZ紅軟基地
4.3 Quality節(jié)點介紹ksZ紅軟基地
查看缺失值情況ksZ紅軟基地
查看各類型缺失值的分布情況ksZ紅軟基地
Blank Value的指定ksZ紅軟基地
4.3 Quality節(jié)點介紹ksZ紅軟基地
Quality結果ksZ紅軟基地
4.4 Distribution節(jié)點----初步理解字符型字段的分布ksZ紅軟基地
單個字段的值分布ksZ紅軟基地
例:人群中各種風險等級人數(shù)及百分比ksZ紅軟基地
與其它分類字段合并ksZ紅軟基地
例:分性別顯示各種風險等級人數(shù)及百分比ksZ紅軟基地
例:各種風險等級中男性女性各占比例ksZ紅軟基地
4.5 Histogram/Statistics節(jié)點----初步理解數(shù)值型字段的分布ksZ紅軟基地
單個字段的值分布ksZ紅軟基地
例:人群收入水平ksZ紅軟基地
與其它分類字段合并ksZ紅軟基地
例:顯示各種風險等級的收入水平ksZ紅軟基地
例:顯示各收入水平的各風險等級比例ksZ紅軟基地
Chapter 5ksZ紅軟基地
簡單數(shù)據(jù)整理ksZ紅軟基地
Chapter 5 簡單數(shù)據(jù)整理ksZ紅軟基地
目的:ksZ紅軟基地
掌握Clementine中的數(shù)據(jù)整理技術ksZ紅軟基地
熟悉用于數(shù)據(jù)整理的幾個節(jié)點ksZ紅軟基地
內容ksZ紅軟基地
5.1 Clem語言簡介ksZ紅軟基地
5.2 Select節(jié)點介紹ksZ紅軟基地
5.3 Filter節(jié)點介紹ksZ紅軟基地
5.4 Derive節(jié)點介紹ksZ紅軟基地
5.5 自動生成操作節(jié)點ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Risk.txtksZ紅軟基地
SmallSampleMissing.txtksZ紅軟基地
5.1 Clem語言簡介ksZ紅軟基地
Clementine Language of Expression ManipulationksZ紅軟基地
應用節(jié)點:Derive導出, Select選擇, Filter過濾ksZ紅軟基地
構建材料:函數(shù)、符號、數(shù)字、字段ksZ紅軟基地
記錄敏感:對每條記錄返回值(整數(shù)、實數(shù)、布爾值、字符值、日期、時間)或評估是否滿足條件ksZ紅軟基地
兩種表達式:條件表達式與計算表達式ksZ紅軟基地
5.2 Select節(jié)點介紹ksZ紅軟基地
用于根據(jù)一定條件選擇或丟棄某些記錄ksZ紅軟基地
CLEM構建ksZ紅軟基地
5.3 Filter節(jié)點介紹ksZ紅軟基地
對某些字段進行重命名或丟棄某些無意義的字段ksZ紅軟基地
無意義字段ksZ紅軟基地
缺失值占大比例ksZ紅軟基地
所有記錄有相同值ksZ紅軟基地
中間過程生成的中間變量ksZ紅軟基地
5.4 Derive節(jié)點介紹ksZ紅軟基地
根據(jù)原有字段值生成新字段值ksZ紅軟基地
按公式生成字段ksZ紅軟基地
生成二分型字段ksZ紅軟基地
生成多分型字段ksZ紅軟基地
對所有記錄按同樣標準生成新字段ksZ紅軟基地
對不同記錄按不同標準生成新字段ksZ紅軟基地
對多個字段進行同一轉換ksZ紅軟基地
5.4 Derive節(jié)點介紹ksZ紅軟基地
5.5 自動生成操作節(jié)點ksZ紅軟基地
自動生成“Select”ksZ紅軟基地
自動生成“Filter”ksZ紅軟基地
第三講主要內容ksZ紅軟基地
數(shù)據(jù)理解之數(shù)據(jù)關系探測ksZ紅軟基地
基本建模方法簡要介紹ksZ紅軟基地
Chapter 6ksZ紅軟基地
數(shù)據(jù)理解之ksZ紅軟基地
數(shù)據(jù)間簡單關系ksZ紅軟基地
Chapter 6 數(shù)據(jù)理解之數(shù)據(jù)間簡單關系ksZ紅軟基地
目的:ksZ紅軟基地
掌握如何理解字段間關系ksZ紅軟基地
熟悉用于字段關系理解的幾個節(jié)點ksZ紅軟基地
內容ksZ紅軟基地
6.1 Matrix節(jié)點----研究字符型字段間關系ksZ紅軟基地
6.2  Web節(jié)點----研究字符型字段間關系ksZ紅軟基地
6.3 Statistics節(jié)點----研究連續(xù)型字段間線性相關關系ksZ紅軟基地
6.4 Plot節(jié)點----研究連續(xù)型字段間關系ksZ紅軟基地
6.5 Histogram節(jié)點----研究連續(xù)型字段與字符型字段的關系ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Risk.txt ksZ紅軟基地
Chapter 6 數(shù)據(jù)理解之數(shù)據(jù)間簡單關系ksZ紅軟基地
解決問題ksZ紅軟基地
風險等級是否與收入有關ksZ紅軟基地
風險等級是否與性別有關ksZ紅軟基地
如果一個人的信用卡數(shù)量較多,是否意味著它欺詐的可能性也大ksZ紅軟基地
6.1 Matrix節(jié)點----研究字符型字段間關系ksZ紅軟基地
解決問題ksZ紅軟基地
月付款的人是否比周付款的人風險程度更高ksZ紅軟基地
男性是否比女性風險程序更高ksZ紅軟基地
Matrix節(jié)點:ksZ紅軟基地
交叉表(列聯(lián)表)來顯示字符型數(shù)據(jù)間關系ksZ紅軟基地
行字段與列字段的選擇ksZ紅軟基地
顯示百分比ksZ紅軟基地
6.1 Matrix節(jié)點----研究字符型字段間關系ksZ紅軟基地
6.2  Web節(jié)點----研究字符型字段間關系ksZ紅軟基地
例:婚姻狀態(tài)、抵押貸款等是否與風險等級有關ksZ紅軟基地
幾個小概念:ksZ紅軟基地
人數(shù)ksZ紅軟基地
總數(shù)百分比ksZ紅軟基地
大類百分比ksZ紅軟基地
小類百分比ksZ紅軟基地
強、中、弱相關關系ksZ紅軟基地
結果解讀ksZ紅軟基地
6.2  Web節(jié)點----研究字符型字段間關系ksZ紅軟基地
6.3 Statistics節(jié)點----研究連續(xù)型字段間線性相關關系ksZ紅軟基地
例:收入是否隨年齡呈線性增長ksZ紅軟基地
Statistics節(jié)點設置ksZ紅軟基地
結果解讀ksZ紅軟基地
注意:ksZ紅軟基地
線性相關關系而非相關關系(線形相關是相關關系的一種,其他相關關系最終需要轉化為線形相關來研究)ksZ紅軟基地
6.3 Statistics節(jié)點----研究連續(xù)型字段間線性相關關系ksZ紅軟基地
6.4 Plot節(jié)點----研究連續(xù)型字段間關系ksZ紅軟基地
例:顯示孩子數(shù)目與貸款數(shù)目的關系ksZ紅軟基地
用點的大小來反映其代表記錄的多少ksZ紅軟基地
用點的密度來反映其代表記錄的多少ksZ紅軟基地
用不同顏色的點來反映不同類別的記錄ksZ紅軟基地
6.4 Plot節(jié)點----研究連續(xù)型字段間關系ksZ紅軟基地
6.5 Histogram節(jié)點----研究連續(xù)型字段與字符型字段的關系ksZ紅軟基地
例:不同風險等級的人的收入情況ksZ紅軟基地
顯示某收入水平的各風險等級人數(shù)ksZ紅軟基地
顯示某收入水平----各風險等級在該收入水平所占的比例ksZ紅軟基地
表格展現(xiàn)數(shù)據(jù)ksZ紅軟基地
表格的元素構成ksZ紅軟基地
表格類型 在SPSS里實現(xiàn)ksZ紅軟基地
堆疊表(Stacking)ksZ紅軟基地
嵌套表(Nesting)ksZ紅軟基地
交叉表(Crosstabulation)ksZ紅軟基地
分層表(Layers)ksZ紅軟基地
堆疊表ksZ紅軟基地
嵌套表ksZ紅軟基地
交叉表ksZ紅軟基地
分層表ksZ紅軟基地
把層去掉以后的效果ksZ紅軟基地
樞軸表技術(Pivot Tables)ksZ紅軟基地
Clementine表格ksZ紅軟基地
Chapter 7ksZ紅軟基地
建模技術概覽ksZ紅軟基地
Chapter 7 Clementine中的建模技術ksZ紅軟基地
目的:ksZ紅軟基地
了解Clementine中提供的各種建模技術ksZ紅軟基地
內容ksZ紅軟基地
7.1 Clementine提供的模型技術ksZ紅軟基地
7.2 Neural Networks(神經網絡)ksZ紅軟基地
7.3 規(guī)則歸納模型ksZ紅軟基地
7.4 統(tǒng)計模型ksZ紅軟基地
7.5 聚類模型ksZ紅軟基地
7.6 關聯(lián)規(guī)則模型ksZ紅軟基地
7.7 Sequence模型ksZ紅軟基地
7.8 總述ksZ紅軟基地
7.1 Clementine提供的模型技術ksZ紅軟基地
幾種技術:預測、聚類、關聯(lián)規(guī)則ksZ紅軟基地
預測技術:ksZ紅軟基地
InputsOutputksZ紅軟基地
六種方法:ksZ紅軟基地
Neural NetworksksZ紅軟基地
規(guī)則歸納:C5.0,C&RTksZ紅軟基地
與時間或順序有關的關聯(lián)規(guī)則:Sequence(Capri)ksZ紅軟基地
統(tǒng)計學:回歸、Logistic回歸ksZ紅軟基地
7.1 Clementine提供的模型技術ksZ紅軟基地
聚類技術ksZ紅軟基地
無OutputksZ紅軟基地
無監(jiān)督的學習ksZ紅軟基地
三種方法:ksZ紅軟基地
KohonenksZ紅軟基地
統(tǒng)計學:K-means、TwoStepksZ紅軟基地
關聯(lián)規(guī)則ksZ紅軟基地
Both Input and OutputksZ紅軟基地
三種方法ksZ紅軟基地
GRI,AprioriksZ紅軟基地
Sequence (Capri)ksZ紅軟基地
7.2 Neural NetworksksZ紅軟基地
模仿人腦ksZ紅軟基地
Input/Output可以是Num,也可以是SymbolicksZ紅軟基地
MLP與RBFNksZ紅軟基地
劣勢:黑匣子ksZ紅軟基地
7.3 規(guī)則歸納模型ksZ紅軟基地
是決策樹算法ksZ紅軟基地
與Neural Net相比的優(yōu)勢ksZ紅軟基地
結果好解釋ksZ紅軟基地
自動刪除無意義的Input字段ksZ紅軟基地
主要是根據(jù)結果變量值對數(shù)據(jù)按Input進行細分ksZ紅軟基地
有兩種結果形式:決策樹形式或規(guī)則集形式ksZ紅軟基地
7.4 統(tǒng)計模型之線性回歸ksZ紅軟基地
統(tǒng)計模型與Neural Net相比:ksZ紅軟基地
嚴格的假設(如誤差正態(tài)分布)ksZ紅軟基地
用簡單方程表達模型,便于解釋ksZ紅軟基地
可自動選擇字段ksZ紅軟基地
無法捕捉Inputs字段間的交互作用ksZ紅軟基地
統(tǒng)計模型:ksZ紅軟基地
線性回歸ksZ紅軟基地
Logistic回歸ksZ紅軟基地
主成分分析ksZ紅軟基地
7.4 統(tǒng)計模型之回歸ksZ紅軟基地
線性回歸:ksZ紅軟基地
方程:Y=a+b1x1+b2x2+         +bnxnksZ紅軟基地
原理:尋找使誤差平方和最小的系數(shù)ksZ紅軟基地
Output字段----Numeric輸出必須是連續(xù)型ksZ紅軟基地
Input字段----Numeric/SymbolicksZ紅軟基地
Logistic回歸:ksZ紅軟基地
方程ksZ紅軟基地
原理:尋找使誤差平方和最小的系數(shù)ksZ紅軟基地
回歸系數(shù)隨結果值而改變,與NN,RI相比,不適合復雜數(shù)據(jù)ksZ紅軟基地
Output字段----Symbolic輸出必須是離散性ksZ紅軟基地
Input字段----Numeric/SymbolicksZ紅軟基地
7.4 統(tǒng)計模型之主成分分析ksZ紅軟基地
數(shù)據(jù)降維技術:ksZ紅軟基地
用少量不相關數(shù)據(jù)(主成分)來代替大量相關數(shù)據(jù)(原始數(shù)據(jù))作分析ksZ紅軟基地
主成分是原始數(shù)據(jù)的線性組合ksZ紅軟基地
更可能與統(tǒng)計分析方法合并使用(相對于機器學習),尤其是在多個等級分類字段ksZ紅軟基地
可用于預測模型或聚類分析之前ksZ紅軟基地
7.5 聚類模型ksZ紅軟基地
發(fā)現(xiàn)有相似值記錄的群體ksZ紅軟基地
多用于市場(細分客戶)和其它商業(yè)應用ksZ紅軟基地
與主成分分析相似,多用于預測模型之前ksZ紅軟基地
無監(jiān)督學習(無output)ksZ紅軟基地
三種聚類分析方法:ksZ紅軟基地
KohonenksZ紅軟基地
K-meansksZ紅軟基地
TwoStepksZ紅軟基地
7.5 聚類模型ksZ紅軟基地
Kohonen聚類ksZ紅軟基地
是一種實施無監(jiān)督學習的神經網絡算法ksZ紅軟基地
一維或二維網格,各神經元相互連接ksZ紅軟基地
K-means聚類ksZ紅軟基地
又稱為快速聚類,(速度快,適合大量數(shù)據(jù))ksZ紅軟基地
用戶指定類別數(shù)ksZ紅軟基地
與記錄順序有關(小數(shù)據(jù)量與記錄順序無關,大數(shù)據(jù)需要先執(zhí)行一定程序找出數(shù)據(jù)各類別中心)ksZ紅軟基地
TwoStep聚類ksZ紅軟基地
用戶指定范圍,模型根據(jù)統(tǒng)計學標準自動選擇類數(shù)ksZ紅軟基地
消耗機器資源少ksZ紅軟基地
能給出一個較好的結果ksZ紅軟基地
7.6 關聯(lián)規(guī)則模型ksZ紅軟基地
尋找數(shù)據(jù)中一起發(fā)生的事情ksZ紅軟基地
與Web相似,但以極快的速度發(fā)掘更復雜的模式ksZ紅軟基地
與規(guī)則歸納不同之處ksZ紅軟基地
每個規(guī)則的Output字段可能各不相同ksZ紅軟基地
規(guī)則可用于查看,但非預測ksZ紅軟基地
可生成同一output字段的規(guī)則,用于預測ksZ紅軟基地
與規(guī)則歸納相比,運行較慢,可增加限制條件從而提高速度ksZ紅軟基地
兩種算法:Apriori,GRI(廣義規(guī)則探測)ksZ紅軟基地
7.7 Sequence模型ksZ紅軟基地
與關聯(lián)規(guī)則不同之處在于尋找與時間/順序有關的規(guī)則ksZ紅軟基地
應用領域:零售、網絡日志、過程改進ksZ紅軟基地
用于字符型字段,數(shù)值被當作是字符ksZ紅軟基地
用CARMA算法ksZ紅軟基地
7.8 綜述ksZ紅軟基地
如果要預測某個字段----有監(jiān)督的機器學習和其中一種統(tǒng)計方法(依結果字段而定)ksZ紅軟基地
如果想發(fā)現(xiàn)有相似行為(許多字段)的個體----聚類ksZ紅軟基地
關聯(lián)規(guī)則不能直接用于預測,但它是一種用于理解數(shù)據(jù)內模式的有用工具ksZ紅軟基地
如果對順序、時間有興趣,可用Sequence算法ksZ紅軟基地
7.8 綜述ksZ紅軟基地
如果想進一步選擇具體的預測技術,依賴于目的字段,output字段與input字段間關系ksZ紅軟基地
有一定經驗規(guī)律,但不是規(guī)則ksZ紅軟基地
Clementine的優(yōu)勢之處在于建模的簡單ksZ紅軟基地
Clementine只能發(fā)現(xiàn)數(shù)據(jù)內存在的關系,如果數(shù)據(jù)本身不相關聯(lián),不可能提取出一個模型ksZ紅軟基地
數(shù)據(jù)挖掘是一個迭代、重復的過程ksZ紅軟基地
第四講:預測建模技術ksZ紅軟基地
神經網絡模型技術ksZ紅軟基地
決策樹模型技術ksZ紅軟基地
回歸分析技術ksZ紅軟基地
模型間評估技術ksZ紅軟基地
預測的重要性ksZ紅軟基地
   在當今充滿競爭的社會里,一個企業(yè)如果能準確地預知其未來,那么其生存機會將大大增加,預測科學就是處理對未來的預測等問題的學科。ksZ紅軟基地
預測相關注意事項ksZ紅軟基地
預測對象所在的環(huán)境常常處于動態(tài)變化之中,一些不可知事件會對預測結果造成很大影響;ksZ紅軟基地
被用來進行預測的數(shù)據(jù)常常是不穩(wěn)定、不確定和不完全的,由其來源和收集的方式所決定;ksZ紅軟基地
不同的時間區(qū)域常常需要不同的預測方法,形式上難以統(tǒng)一;ksZ紅軟基地
因為不同的預測方法在復雜性、數(shù)據(jù)要求以及準確程度上均不同,因此選擇一個合適的預測方法是很困難的。ksZ紅軟基地
Chapter 8ksZ紅軟基地
Neural NetworksksZ紅軟基地
Chpater 8 Neural NetworksksZ紅軟基地
目的:ksZ紅軟基地
掌握如何在Clementine中進行Neural Network 模型的構建和解讀ksZ紅軟基地
掌握Neural Network節(jié)點ksZ紅軟基地
數(shù)據(jù):Risktrain.txtksZ紅軟基地
Chpater 8 Neural NetworksksZ紅軟基地
內容ksZ紅軟基地
8.1 Neural Net節(jié)點介紹ksZ紅軟基地
8.2 構建Neural NetworkksZ紅軟基地
8.3 模型管理區(qū)介紹ksZ紅軟基地
8.4 結果查看和結果解釋ksZ紅軟基地
8.5 模型預測值生成ksZ紅軟基地
8.6 模型評價ksZ紅軟基地
8.7 理解預測原因ksZ紅軟基地
8.8 模型總結ksZ紅軟基地
神經網絡模型預測技術ksZ紅軟基地
8.1 Neural Net節(jié)點介紹ksZ紅軟基地
字段方向----Type節(jié)點或表ksZ紅軟基地
In----X字段----自變量字段ksZ紅軟基地
Out----Y字段----結果字段----聚類、主成分分析除外ksZ紅軟基地
Both----自變量和結果字段----關聯(lián)規(guī)則或順序算法ksZ紅軟基地
None----不用字段ksZ紅軟基地
ID----typeless----NoneksZ紅軟基地
五種Neural Net方法,默認QuickksZ紅軟基地
過度訓練(長時間接觸同一個數(shù)據(jù)源,并用同樣特征去描述其他數(shù)據(jù)集,結果往往錯誤)ksZ紅軟基地
停止規(guī)則(避免過度訓練)ksZ紅軟基地
字段的相對重要性分析ksZ紅軟基地
避免過度訓練問題 選擇測試集錯誤較低,或者兩集錯誤交叉點ksZ紅軟基地
8.2 構建Neural NetworkksZ紅軟基地
例:用age、sex、income等來預測客戶的風險等級ksZ紅軟基地
8.3 模型管理區(qū)介紹ksZ紅軟基地
瀏覽模型結果ksZ紅軟基地
導出模型代碼ksZ紅軟基地
將模型載入數(shù)據(jù)流ksZ紅軟基地
將模型導入項目管理區(qū)ksZ紅軟基地
保存、清除、裝載模型管理區(qū)ksZ紅軟基地
8.4 結果查看和結果解釋ksZ紅軟基地
結果的瀏覽:Right click generated “model” ksZ紅軟基地
模型準確性ksZ紅軟基地
輸入字段或層ksZ紅軟基地
輸出字段或層ksZ紅軟基地
各輸入字段的相對重要性ksZ紅軟基地
8.5 模型預測值生成ksZ紅軟基地
8.6 模型評價----預測值與實際值的比較ksZ紅軟基地
利用Matrix比較,通常關注的不是整體,例如欠費用戶群而不是整個用戶群。ksZ紅軟基地
8.6 模型評價ksZ紅軟基地
Evaluation Node----評估比較模型,以選擇最優(yōu)模型ksZ紅軟基地
Evaluation 的原理:將數(shù)據(jù)按預測值和置信度從高到低排序,將數(shù)據(jù)拆分為多個集合,每集合包含相同的記錄數(shù),然后作圖。ksZ紅軟基地
關注值:flag變量的真值,set變量的第一個值ksZ紅軟基地
五種圖形:收益圖、功效圖、響應圖、投資回報圖、利潤圖ksZ紅軟基地
8.6 模型評價ksZ紅軟基地
8.7 理解預測原因ksZ紅軟基地
Web節(jié)點--Symbolic Input & Symbolic Output ksZ紅軟基地
Distribuiton節(jié)點—Symbolic Input & Symbolic Output ksZ紅軟基地
Histogram節(jié)點--Numeric Input & Symbolic Output ksZ紅軟基地
8.8 模型總結ksZ紅軟基地
預測風險中最重要因素是婚姻狀態(tài)和收入ksZ紅軟基地
離異、單身、鰥寡人士可能是壞客戶ksZ紅軟基地
神經網絡模型,高收入人群是好客戶,但這一點并不與實際相符,如此預測,可能會給銀行帶來損失ksZ紅軟基地
題外話:可用驗證數(shù)據(jù)集,利用分析節(jié)點、評估節(jié)點、Matrix節(jié)點對模型進行評估ksZ紅軟基地
Chapter 9ksZ紅軟基地
規(guī)則歸納模型ksZ紅軟基地
決策樹技術ksZ紅軟基地
Chapter 9 規(guī)則歸納模型ksZ紅軟基地
目的:ksZ紅軟基地
掌握如何在Clementine中進行規(guī)則歸納模型的構建和解讀ksZ紅軟基地
掌握C5.0節(jié)點ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Risktrain.txtksZ紅軟基地
Chapter 9 規(guī)則歸納模型ksZ紅軟基地
內容ksZ紅軟基地
9.1 C5.0、C&RT介紹ksZ紅軟基地
9.2 構建C5.0模型ksZ紅軟基地
9.3 C5.0 決策樹型結果瀏覽和解釋ksZ紅軟基地
9.4 C5.0 規(guī)則集型結果瀏覽和解釋ksZ紅軟基地
9.5 模型預測值生成ksZ紅軟基地
9.6 模型評價ksZ紅軟基地
9.7 模型總結ksZ紅軟基地
9.1 C5.0、C&RT介紹ksZ紅軟基地
C5.0與C&RT的相似之處:構建決策樹,按照自變量與結果變量的關系將數(shù)據(jù)拆分成各子群ksZ紅軟基地
C5.0與C&RT的不同之處:ksZ紅軟基地
9.2 構建C5.0模型ksZ紅軟基地
模型的準確性與一般性ksZ紅軟基地
模型的驗證方法ksZ紅軟基地
交叉驗證(分散數(shù)據(jù)集,不斷用新數(shù)據(jù)去驗證)ksZ紅軟基地
模型結果字段值的減少(輸入變量最終并非全部進入模型)ksZ紅軟基地
建立多個模型:ksZ紅軟基地
耗時長ksZ紅軟基地
難以解釋結果ksZ紅軟基地
9.2 構建C5.0模型ksZ紅軟基地
9.3 C5.0 決策樹型結果瀏覽和解釋ksZ紅軟基地
結果:ksZ紅軟基地
決策樹、模型形式ksZ紅軟基地
可分支的子根ksZ紅軟基地
眾數(shù)ksZ紅軟基地
顯示例數(shù)與置信度ksZ紅軟基地
繼承性ksZ紅軟基地
9.4 C5.0 規(guī)則集型結果瀏覽和解釋ksZ紅軟基地
9.5 模型預測值生成ksZ紅軟基地
9.6 模型評價----預測值與實際值的比較ksZ紅軟基地
利用Matrix來比較預測值與實際值ksZ紅軟基地
9.6 模型評價----不同值的收益圖ksZ紅軟基地
9.7 模型總結ksZ紅軟基地
C5.0使模型可以不用Web、Histogram等即可有效地理解模型ksZ紅軟基地
與Neural Net不同,沒有Sensitivity Analysis,但同樣可以辨別字段的重要性ksZ紅軟基地
決策樹的優(yōu)點 ksZ紅軟基地
可以生成可以理解的規(guī)則ksZ紅軟基地
計算量相對來說不是很大ksZ紅軟基地
可以處理連續(xù)和種類字段ksZ紅軟基地
決策樹可以清晰的顯示哪些字段比較重要ksZ紅軟基地
決策樹的缺點ksZ紅軟基地
對連續(xù)性的字段比較難預測ksZ紅軟基地
對有時間順序的數(shù)據(jù),需要很多預處理的工作ksZ紅軟基地
當類別太多時,錯誤可能就會增加的比較快(對分類變量重新劃分,二分或者數(shù)據(jù)降維,spss聚類分析法)ksZ紅軟基地
一般的算法分類的時候,只是根據(jù)一個字段來分類(假設各字段間相關度不是很高)ksZ紅軟基地
Chapter 10ksZ紅軟基地
模型比較ksZ紅軟基地
Chpater 10 模型比較ksZ紅軟基地
目的ksZ紅軟基地
掌握如何利用Analysis節(jié)點進行模型的評估ksZ紅軟基地
掌握如何利用驗證數(shù)據(jù)集比較不同模型ksZ紅軟基地
內容ksZ紅軟基地
10.1 Analysis節(jié)點用于比較模型ksZ紅軟基地
10.2 Evaluation節(jié)點用于比較模型ksZ紅軟基地
10.3 利用驗證數(shù)據(jù)集進行模型比較ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Risktrain.txtksZ紅軟基地
Riskvalidation.txtksZ紅軟基地
10.1 Analysis節(jié)點用于比較模型ksZ紅軟基地
10.1 Analysis節(jié)點用于比較模型ksZ紅軟基地
評估多個模型ksZ紅軟基地
評估各模型結果的一致性ksZ紅軟基地
10.2 Evaluation節(jié)點用于比較模型ksZ紅軟基地
10.2 Evaluation節(jié)點用于比較模型ksZ紅軟基地
評估多個模型ksZ紅軟基地
評估各模型結果的一致性ksZ紅軟基地
10.3 利用驗證數(shù)據(jù)集進行模型比較ksZ紅軟基地
第五講主要內容ksZ紅軟基地
聚類分析模型技術ksZ紅軟基地
關聯(lián)規(guī)則模型技術ksZ紅軟基地
序列探測模型技術ksZ紅軟基地
Chapter 11ksZ紅軟基地
Kohonen NetworksksZ紅軟基地
Chpater 11   Kohonen NetworksksZ紅軟基地
目的ksZ紅軟基地
掌握Kohonen神經網絡的建立、結果解釋ksZ紅軟基地
掌握Kohonen節(jié)點ksZ紅軟基地
內容ksZ紅軟基地
11.1 Kohonen節(jié)點介紹ksZ紅軟基地
11.2 構建Kohonen NetworksksZ紅軟基地
11.3 結果解釋ksZ紅軟基地
11.4 為每條記錄產生類別字段ksZ紅軟基地
11.5 結果理解ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Shopping.txtksZ紅軟基地
Kohonen網絡結構ksZ紅軟基地
11.1 Kohonen節(jié)點介紹ksZ紅軟基地
聚類分析ksZ紅軟基地
發(fā)現(xiàn)數(shù)據(jù)的總體結構及相互關系ksZ紅軟基地
類間差別,類內相似ksZ紅軟基地
11.2 構建Kohonen NetworksksZ紅軟基地
Kohonen節(jié)點ksZ紅軟基地
字段方向設置:ksZ紅軟基地
購買產品與否----InksZ紅軟基地
其它----None / Out / BothksZ紅軟基地
反饋圖:紅色越深,記錄越多ksZ紅軟基地
指定類別數(shù):長*寬ksZ紅軟基地
11.3 結果解釋ksZ紅軟基地
Kohonen結果ksZ紅軟基地
X-軸ksZ紅軟基地
Y-軸ksZ紅軟基地
11.4 為每條記錄產生類別字段ksZ紅軟基地
$KX----KohonenksZ紅軟基地
$KY----KohonenksZ紅軟基地
Cluster=$KX----Kohonen><$KY----KohonenksZ紅軟基地
11.5 結果理解ksZ紅軟基地
各Cluster人群多少----條圖ksZ紅軟基地
各Cluster人群的一般特征ksZ紅軟基地
年齡----條圖ksZ紅軟基地
性別----條圖ksZ紅軟基地
購買產品----Web圖ksZ紅軟基地
孩子ksZ紅軟基地
婚姻狀態(tài)ksZ紅軟基地
工作狀態(tài)ksZ紅軟基地
各Cluster人群總述ksZ紅軟基地
各種聚類方法比較ksZ紅軟基地
聚類分析之我見ksZ紅軟基地
聚類分析的優(yōu)勢在于:它能夠在我們對數(shù)據(jù)了解很少時,提供一種了解數(shù)據(jù)的方法。發(fā)現(xiàn)個體與變量間的綜合關系。ksZ紅軟基地
例如:根據(jù)各省市的各種經濟指數(shù)將所有的省市分為幾個等級。ksZ紅軟基地
例如:根據(jù)各種指數(shù)的取值范圍,將模式相近的指數(shù)的聚為一類。ksZ紅軟基地
聚類分析的缺陷在于:各類之間均值等可能有差別,但每個個體劃歸哪類更多地依賴于數(shù)字,解釋起來比較困難。ksZ紅軟基地
Chapter 12ksZ紅軟基地
關聯(lián)規(guī)則ksZ紅軟基地
Chpater 12 關聯(lián)規(guī)則ksZ紅軟基地
目的ksZ紅軟基地
掌握關聯(lián)規(guī)則在Clementine中的建立、結果解釋ksZ紅軟基地
掌握Apriori節(jié)點ksZ紅軟基地
無監(jiān)督的探索性模型ksZ紅軟基地
內容ksZ紅軟基地
12.1 關聯(lián)規(guī)則簡介ksZ紅軟基地
12.2 Apriori節(jié)點及結果解釋ksZ紅軟基地
12.3 產生特定結果的規(guī)則集ksZ紅軟基地
12.4 特定結果規(guī)則集應用于各記錄ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Shopping.txtksZ紅軟基地
12.1 關聯(lián)規(guī)則簡介ksZ紅軟基地
解決問題考慮的是關聯(lián),得到的是規(guī)則,處理變量之間的相關,而非客戶之間)ksZ紅軟基地
買香煙的人是否傾向于也買巧克力或啤酒ksZ紅軟基地
高血脂的人是否也常伴有高血壓ksZ紅軟基地
買車險的人是否也傾向于買房險ksZ紅軟基地
節(jié)點ksZ紅軟基地
GRI----Numeric字段可作為輸入字段,可用于連續(xù)型變量ksZ紅軟基地
Apriori----只接受Symbolic字段(只能用字符型輸入)作為輸入字段ksZ紅軟基地
特殊之處:產生的模型不能直接加入數(shù)據(jù)流ksZ紅軟基地
12.2 Apriori節(jié)點及結果解釋ksZ紅軟基地
Apriori節(jié)點設置ksZ紅軟基地
字段類型及方向:無主次先后之分ksZ紅軟基地
Content1----flag----bothksZ紅軟基地
Content2----flag----bothksZ紅軟基地
Content3----flag----bothksZ紅軟基地
Contentn----flag----bothksZ紅軟基地
結果:ksZ紅軟基地
有多少人購買了香煙?占總人數(shù)的百分比ksZ紅軟基地
其中,有多少人購買了巧克力?占多少百分比ksZ紅軟基地
12.2 Apriori節(jié)點及結果解釋ksZ紅軟基地
12.3 產生特定結果的規(guī)則集ksZ紅軟基地
Generate menuksZ紅軟基地
Rule setksZ紅軟基地
ViewksZ紅軟基地
12.4 特定結果規(guī)則集應用于各記錄ksZ紅軟基地
Chapter 13ksZ紅軟基地
序列檢測ksZ紅軟基地
Chpater 13 序列檢測ksZ紅軟基地
目的ksZ紅軟基地
掌握Clementine如何對與時間序列有關的數(shù)據(jù)進行建模ksZ紅軟基地
熟悉Sequence節(jié)點ksZ紅軟基地
也會存在規(guī)則的重復ksZ紅軟基地
內容ksZ紅軟基地
13.1 序列檢測簡介ksZ紅軟基地
13.2 序列檢測所要求的數(shù)據(jù)結構ksZ紅軟基地
13.3 序列檢測模型ksZ紅軟基地
13.4 Sequence節(jié)點及結果解釋ksZ紅軟基地
13.5 Sequence結果用于各條數(shù)據(jù)ksZ紅軟基地
數(shù)據(jù)ksZ紅軟基地
Telrepair.txtksZ紅軟基地
13.1 序列檢測簡介ksZ紅軟基地
解決的問題:與順序有關的關聯(lián)規(guī)則ksZ紅軟基地
Antecedent1Antecedent2 ConsequentksZ紅軟基地
可用節(jié)點:Sequence、CapriksZ紅軟基地
13.2 序列檢測所要求的數(shù)據(jù)結構ksZ紅軟基地
數(shù)據(jù)結構1ksZ紅軟基地
一個客戶一次購買多個產品算一條記錄ksZ紅軟基地
數(shù)據(jù)結構2ksZ紅軟基地
一個客戶一次購買多個產品算多條記錄ksZ紅軟基地
13.3 序列檢測模型ksZ紅軟基地
Sequence與Capri二者各有優(yōu)勢ksZ紅軟基地
二者使用不同的算法ksZ紅軟基地
均可指定順序檢測標準ksZ紅軟基地
對于“A1””A2””C”,Capri可以不包含下列ksZ紅軟基地
“A1””A2”ksZ紅軟基地
”A2””C”ksZ紅軟基地
“A1””C”ksZ紅軟基地
13.4 Sequence節(jié)點及結果解釋ksZ紅軟基地
Sequence節(jié)點設置:ksZ紅軟基地
字段類型及方向ksZ紅軟基地
ID field----Numeric/Symbolic----AnyksZ紅軟基地
Time field----Range----InksZ紅軟基地
Content fields----Set----In/out/both----多個一致ksZ紅軟基地
13.4 Sequence節(jié)點及結果解釋ksZ紅軟基地
結果:ksZ紅軟基地
在先買了A1 ,又買了A2 的客戶中,60%的人后來買 了C;ksZ紅軟基地
12%的客戶(48例)是先買了A1 ,又買了A2 ,最后又買了CksZ紅軟基地
可對規(guī)則進行重新排序ksZ紅軟基地
13.4 Sequence節(jié)點及結果解釋ksZ紅軟基地
13.5 Sequence結果用于各條數(shù)據(jù)ksZ紅軟基地
總結ksZ紅軟基地
業(yè)務問題是關鍵ksZ紅軟基地
歷史數(shù)據(jù)是支撐ksZ紅軟基地
業(yè)務思路、數(shù)據(jù)分析思路的轉變ksZ紅軟基地
數(shù)據(jù)分析的常態(tài)與技巧ksZ紅軟基地
如何使用數(shù)據(jù)分析應用結果是業(yè)務思路的延伸ksZ紅軟基地
方法永遠是方法,工具永遠是工具ksZ紅軟基地
五、 Clementine組合模型技巧ksZ紅軟基地
1.離散變量預測問題;ksZ紅軟基地
2.離散變量模型的檢驗;ksZ紅軟基地
3.組合模型概述;ksZ紅軟基地
4.二值預測問題的組合模型。ksZ紅軟基地
Clementine中提供的模型概述ksZ紅軟基地
離散變量預測問題是最重要的一類問題ksZ紅軟基地
離散變量預測問題也就是分類問題ksZ紅軟基地
在Clementine(8.1)中有很多模型可以做分類問題ksZ紅軟基地
Neural NetksZ紅軟基地
C5.0ksZ紅軟基地
C&RTksZ紅軟基地
LogisticksZ紅軟基地
連續(xù)變量預測問題可以通過某種形式轉化為離散變量預測問題ksZ紅軟基地
多值變量問題可以轉化為兩值預測問題ksZ紅軟基地
離散值預測模型的幾個重要檢驗指標ksZ紅軟基地
1.準確率ksZ紅軟基地
2.命中率ksZ紅軟基地
3.覆蓋率ksZ紅軟基地
離散值預測模型的幾個重要檢驗圖形ksZ紅軟基地
1.收益圖(Gains)ksZ紅軟基地
2.響應圖(Response)ksZ紅軟基地
3.功效圖(Lift)ksZ紅軟基地
4.利潤圖(Profit)ksZ紅軟基地
5.投資回報圖(ROI)ksZ紅軟基地
離散值預測模型的幾個重要檢驗圖形ksZ紅軟基地
什么是組合模型ksZ紅軟基地
在數(shù)據(jù)挖掘模型中,每種模型都有各自的優(yōu)點和缺陷,為了更好的利用模型的優(yōu)點,在Clementine中可以把不同模型通過一定的方式組合在一起以解決特定的問題ksZ紅軟基地
為了提高模型的精確度,我們可以把多個模型通過某種方式組合在一起ksZ紅軟基地
組合模型類型ksZ紅軟基地
為了提高模型的可解釋性,可以應用C5.0對預測或者聚類結果進行解釋ksZ紅軟基地
為了得到各指標對模型影響的重要程度,可以應用神經網絡對指標重要性進行分析ksZ紅軟基地
可以通過模型的特定組合提高模型的準確性——下面以數(shù)據(jù)挖掘模型中最常用的二值預測來說明組合模型如何能夠提供模型的準確性ksZ紅軟基地
二值預測是數(shù)據(jù)挖掘中重要問題ksZ紅軟基地
二值預測問題是個非常常見的數(shù)據(jù)挖掘問題ksZ紅軟基地
   流失、客戶獲得、欠費、欺詐……ksZ紅軟基地
多值預測可以轉化為二值預測問題ksZ紅軟基地
連續(xù)預測問題可以轉化為多值預測問題ksZ紅軟基地
二值預測結果的可能表達方式ksZ紅軟基地
T or F,我們稱為預測值;ksZ紅軟基地
預測值為T,預測準確率為P;或者預測值為F,預測準確率為P;ksZ紅軟基地
T的概率為p,稱為預測評分(scoring)。ksZ紅軟基地
和置信度區(qū)分ksZ紅軟基地
例:以預測流失為例ksZ紅軟基地
預測客戶A流失;ksZ紅軟基地
預測客戶B不流失,把握程度為0.8;ksZ紅軟基地
預測客戶C的流失概率為0.792。ksZ紅軟基地
多值(set)問題向二值問題的轉化(flag)ksZ紅軟基地
多值集合變量向幾個二值變量的轉化(設為標志)ksZ紅軟基地
連續(xù)預測問題向多值預測問題的轉化ksZ紅軟基地
從C&RT算法想到的……用分級節(jié)點ksZ紅軟基地
二值預測的結果表述ksZ紅軟基地
T or FksZ紅軟基地
評分(scoring)ksZ紅軟基地
   T->1.0ksZ紅軟基地
   F->0.0ksZ紅軟基地
二值預測結果的評價ksZ紅軟基地
(1)總體準確率ksZ紅軟基地
(2)命中率ksZ紅軟基地
(3)覆蓋率ksZ紅軟基地
Clementine中預測二值問題ksZ紅軟基地
由預測值和預測把握程度向預測評分的轉化ksZ紅軟基地
練習1ksZ紅軟基地
對數(shù)據(jù)集data1.csv建立二值預測模型,實現(xiàn)以下目標深圳電信/組合模型)ksZ紅軟基地
應用C5.0模型得出預測模型,對模型的準確率(總體準確率、命中率、覆蓋率)作出描述;ksZ紅軟基地
應用神經網絡模型建立預測模型,練習把離散問題連續(xù)化的方法;(提示:flag->range,T->1.0)ksZ紅軟基地
應用C5.0模型建立scoring型的預測模型( 提示:$C,$CC的組合)ksZ紅軟基地
組合模型解決二值預測的幾種思路ksZ紅軟基地
投票法(Voting)——少數(shù)服從多數(shù),小概率服從大概率原則,主要目的在于提高命中率ksZ紅軟基地
修正法——根據(jù)預測結果與實際結果比較調整預測(多個訓練集,一個檢驗集)ksZ紅軟基地
投票法之一——多個模型一致ksZ紅軟基地
對于同一問題建立不同模型,會得出不同的結果,多個模型同時預測同一結果時,往往這個結果更加可信ksZ紅軟基地
方法的優(yōu)點和缺點:ksZ紅軟基地
   優(yōu)點:提高模型預測精度ksZ紅軟基地
   缺點:會有一些記錄沒有預測結果ksZ紅軟基地
投票法之二——建立奇數(shù)個模型ksZ紅軟基地
建立奇數(shù)個預測模型ksZ紅軟基地
遵循少數(shù)服從多數(shù)原則ksZ紅軟基地
Derive node (type: Conditional)ksZ紅軟基地
If ‘$N-Outcome’ == ‘$C-Outcome’ or ‘$N-Outcome’ == ‘$R-Outcome’ then ‘$N-Outcome’ else ‘$C-Outcome’ksZ紅軟基地
帶$的變量需要加引號ksZ紅軟基地
投票法之三——更高把握程度原則ksZ紅軟基地
應用那些具有更多把握程度的模型進行預測ksZ紅軟基地
 If   ‘$CC-Outcome’ > ‘$NC-Outcome’ksZ紅軟基地
             Then  ‘$C-Outcome’ksZ紅軟基地
              Else  ‘$N-Outcome’ksZ紅軟基地
投票法之四——根據(jù)把握程度匯總進行投票ksZ紅軟基地
建立不同模型的評分(scoring)模型ksZ紅軟基地
對不同模型得到評分(score)進行平均ksZ紅軟基地
轉化為二值預測問題ksZ紅軟基地
       Converting : If all_score>0.5 then ‘T’ else ‘F’ksZ紅軟基地
       Converting the confidence back                        If all_score > 0.5                        Then (all_score – 0.5) * 2                         Else (0.5 - all_score) * 2ksZ紅軟基地
練習2ksZ紅軟基地
應用data2分別應用神經網絡模型、C5.0模型和C&RT模型建立二值預測模型,再按照以上4中思路建立預測模型。對于test數(shù)據(jù)完成下表:ksZ紅軟基地
修正法之一——模型堆疊(stacking)ksZ紅軟基地
把模型的預測輸出作為另外模型的輸入ksZ紅軟基地
修正法之二——找出錯誤預測的規(guī)律(error modelling)ksZ紅軟基地
對于一個預測模型,我們能夠發(fā)現(xiàn)錯誤預測的規(guī)律嗎?ksZ紅軟基地
挑出那些錯誤的,建立模型(常常需要平衡數(shù)據(jù))ksZ紅軟基地
缺點:有些記錄會沒有預測ksZ紅軟基地
修正法之三——多個模型一致(agreement modelling) 處理投票法一中的不確定值ksZ紅軟基地
多個模型預測一致的作為預測ksZ紅軟基地
對那些不一致的重新建立模型進行預測ksZ紅軟基地
            Select node                  ‘$N-Outcome’ /== ‘$C-Outcome’ksZ紅軟基地
             Derive node (type: conditional)                   If           ‘$N-Outcome’ == ‘$C-Outcome’                   Then  ‘$N-Outcome’                   Else  ‘$N1-Outcome’ksZ紅軟基地
修正法之四——對模型建模 (speciallist modelling)ksZ紅軟基地
建立關于何時規(guī)則模型或神經網絡模型預測準確的模型,得出模型的適用條件(數(shù)據(jù)情況)ksZ紅軟基地
根據(jù)數(shù)據(jù)情況選擇使用不同的模型ksZ紅軟基地
練習3ksZ紅軟基地
對于數(shù)據(jù)集data1 to data5按照修正法思路1-思路4建立模型,對于數(shù)據(jù)集test完成下表:ksZ紅軟基地
總結——提高二值預測效果的幾種思路ksZ紅軟基地
離散問題向打分(scoring)問題的轉化ksZ紅軟基地
投票法之一——多個模型一致ksZ紅軟基地
投票法之二——建立奇數(shù)個模型ksZ紅軟基地
投票法之三——更高把握程度原則ksZ紅軟基地
投票法之四——根據(jù)把握程度匯總進行投票ksZ紅軟基地
修正法之一——模型堆疊(stacking)ksZ紅軟基地
修正法之二——找出錯誤預測的規(guī)律ksZ紅軟基地
修正法之三——多個模型一致ksZ紅軟基地
修正法之四——對模型建模ksZ紅軟基地
六、數(shù)據(jù)挖掘技術在電信行業(yè)中的應用ksZ紅軟基地
數(shù)據(jù)挖掘技術在電信行業(yè)中的應用ksZ紅軟基地
案例1:流失分析ksZ紅軟基地
案例2:流失癥狀與營銷預演ksZ紅軟基地
案例3:交叉銷售(套餐分析)ksZ紅軟基地
客戶生命周期理論—客戶分析的基礎ksZ紅軟基地
案例一ksZ紅軟基地
電信行業(yè)的流失分析ksZ紅軟基地
電信行業(yè)流失分析的數(shù)據(jù)挖掘模型ksZ紅軟基地
客戶流失分析之商業(yè)理解ksZ紅軟基地
移動通信業(yè)是一個競爭異常激烈的行業(yè),對于移動通信運營商來說,如何對其客戶進行有效的管理,盡可能的減少客戶的流失和跳網是一個緊迫的問題。在這里我們將介紹數(shù)據(jù)挖掘在移動通信業(yè)關于客戶流失研究中的應用。 ksZ紅軟基地
數(shù)據(jù)挖掘技術將提供功能強大的模型,可以回答“哪些客戶最可能流失?”和“為什么這些客戶會流失?”等問題。ksZ紅軟基地
客戶流失分析之商業(yè)理解ksZ紅軟基地
什么是流失,流失如何定義          ksZ紅軟基地
      連續(xù)欠費不交?號碼長期不用?二分標記變量?ksZ紅軟基地
流失和哪些因素相關ksZ紅軟基地
      顧客年齡?性別?收入?行業(yè)?話費水平?話務質量?ksZ紅軟基地
確定數(shù)據(jù)挖掘目標ksZ紅軟基地
(1)對客戶進行聚類分析,尋找那些流失量比較大的客戶群ksZ紅軟基地
(2)建立規(guī)則,描述那些易于流失的客戶群的特征ksZ紅軟基地
(3)建立打分模型,對客戶流失可能性(概率)進行評價ksZ紅軟基地
客戶流失分析之數(shù)據(jù)理解ksZ紅軟基地
客戶流失分析之數(shù)據(jù)理解ksZ紅軟基地
客戶流失分析之數(shù)據(jù)理解ksZ紅軟基地
客戶流失分析之數(shù)據(jù)準備ksZ紅軟基地
把CDR月度數(shù)據(jù)匯總成6個月的總體數(shù)據(jù)ksZ紅軟基地
根據(jù)CDR數(shù)據(jù)生成各種不同的平均數(shù)據(jù)和組合  數(shù)據(jù)ksZ紅軟基地
歸并客戶信息數(shù)據(jù)、CDR數(shù)據(jù)與話費數(shù)據(jù)ksZ紅軟基地
對客戶現(xiàn)在付費類型的合理性進行簡單分析ksZ紅軟基地
客戶流失分析之建立模型和模型評估ksZ紅軟基地
客戶流失分析之模型發(fā)布ksZ紅軟基地
對每個特定客戶的流失可能性進行打分評估ksZ紅軟基地
寫回數(shù)據(jù)庫ksZ紅軟基地
客戶流失分析之建模圖ksZ紅軟基地
案例二ksZ紅軟基地
流失癥狀與營銷預演ksZ紅軟基地
說明ksZ紅軟基地
本案例意在說明如何應用Clementine實現(xiàn)規(guī)則導出和營銷預演ksZ紅軟基地
本案例是一個簡化了的電信流失問題,我們不追求變量選擇的完整性ksZ紅軟基地
本案例目的是說明過程,不追求模型的準確性,對模型不進行任何調整ksZ紅軟基地
流失分析使用變量ksZ紅軟基地
目標變量:二分變量(是否流失)ksZ紅軟基地
輸入變量:ksZ紅軟基地
長途時長ksZ紅軟基地
國際時長ksZ紅軟基地
本地時長ksZ紅軟基地
通話時長合計ksZ紅軟基地
投訴次數(shù)ksZ紅軟基地
支付方式ksZ紅軟基地
本地話費支付方式ksZ紅軟基地
長途話費支付方式ksZ紅軟基地
年齡ksZ紅軟基地
性別ksZ紅軟基地
收入估計ksZ紅軟基地
婚姻狀態(tài)ksZ紅軟基地
孩子數(shù)量ksZ紅軟基地
是否有汽車ksZ紅軟基地
流失分析模型ksZ紅軟基地
在流失分析規(guī)則導出中我們應用C5.0模型建立模型ksZ紅軟基地
在流失分析營銷預演中我們應用神經網絡建立模型ksZ紅軟基地
流失分析規(guī)則導出ksZ紅軟基地
數(shù)據(jù)流——總體ksZ紅軟基地
超級節(jié)點1——規(guī)則總結ksZ紅軟基地
超級節(jié)點2——規(guī)則對應(Clementine自動生成)ksZ紅軟基地
超級節(jié)點3——指定客戶ksZ紅軟基地
  可以在該節(jié)點中根據(jù)需要指定對哪些客戶是否流失進行分析ksZ紅軟基地
主要結果1ksZ紅軟基地
生成了預測客戶是否流失的決策樹圖如下(片斷):ksZ紅軟基地
主要結果2ksZ紅軟基地
生成了客戶流失和不流失的若干規(guī)則如下:ksZ紅軟基地
主要結果3——針對指定客戶的流失規(guī)則(1)ksZ紅軟基地
例如針對年齡小于30歲的客戶我們可以得到如下流失情況和對應流失規(guī)則:ksZ紅軟基地
主要結果4——針對指定客戶的流失規(guī)則(2)ksZ紅軟基地
我們也可以針對某一個客戶給出詳細的預測(其中客戶編號由使用者指定):ksZ紅軟基地
流失分析營銷預演ksZ紅軟基地
數(shù)據(jù)流——總體ksZ紅軟基地
超級節(jié)點——營銷預演ksZ紅軟基地
主要結果1:計算成本收益情況ksZ紅軟基地
根據(jù)用戶指定的每個客戶的平均成本、營銷活動折扣率和市場活動預測回應率自動得出營銷活動的預計凈收益和市場活動的最優(yōu)覆蓋面及最優(yōu)流失評分臨界值。ksZ紅軟基地
主要結果2:營銷活動成本收益圖(1)ksZ紅軟基地
主要結果2:營銷活動成本收益圖(2)ksZ紅軟基地
案例三ksZ紅軟基地
電信行業(yè)的交叉銷售分析(套餐分析)ksZ紅軟基地
客戶交叉銷售模型ksZ紅軟基地
目的ksZ紅軟基地
發(fā)現(xiàn)客戶選擇數(shù)據(jù)業(yè)務的關聯(lián)性ksZ紅軟基地
根據(jù)客戶已經選擇數(shù)據(jù)業(yè)務,向客戶進行交叉銷售ksZ紅軟基地
研究客戶價值(或客戶分群)與產品組合之間的關系ksZ紅軟基地
分析各個產品之間的關聯(lián)性進行交叉銷售ksZ紅軟基地
關聯(lián)規(guī)則結果ksZ紅軟基地
關聯(lián)規(guī)則結果應用(1)ksZ紅軟基地
關聯(lián)規(guī)則結果應用(2)ksZ紅軟基地
業(yè)務人員輸入某一項業(yè)務后,可以列出應該向哪些客戶推薦這項業(yè)務,這些客戶目前選擇了哪些業(yè)務,向他們推薦這些業(yè)務的把握程度如何。 ksZ紅軟基地
關聯(lián)規(guī)則結果應用(3)ksZ紅軟基地
業(yè)務人員按照某種規(guī)則選出一部分客戶后,可以列出這些客戶選擇了何種業(yè)務,并提出應該向這些客戶推薦哪些數(shù)據(jù)業(yè)務以及這種推薦的把握程度。 ksZ紅軟基地
電信交叉效果實際應用效果ksZ紅軟基地
客戶價值與交叉銷售關系ksZ紅軟基地
電信行業(yè)的交叉銷售數(shù)據(jù)挖掘分析ksZ紅軟基地
數(shù)據(jù)流1——數(shù)據(jù)準備 (P4_basket) 數(shù)據(jù)變換,變換為市場籃數(shù)據(jù)ksZ紅軟基地
數(shù)據(jù)流2——數(shù)據(jù)準備(P5_custbasket)計算客戶價值ksZ紅軟基地
數(shù)據(jù)流3——探索選擇套餐之間的關系,確定套餐組合(E3_products)ksZ紅軟基地
數(shù)據(jù)流4——向用戶推薦套餐(D2_recommend)ksZ紅軟基地
數(shù)據(jù)流5——細分客戶群,并分析各個細分群體選擇套餐的傾向性(M3_prodassoc)ksZ紅軟基地
數(shù)據(jù)流6——不同價值客戶群體選擇套餐情況的探索性分析(E4_prodvalue)ksZ紅軟基地
數(shù)據(jù)流7——研究不同價值群體的選擇套餐組合的情況并預測(M4_prodprofile)ksZ紅軟基地
電信行業(yè)交叉銷售建模圖ksZ紅軟基地

培訓ppt課件模板:這是培訓ppt課件模板,包括了文章背景知識,認字識詞朗誦,課文賞析,拓展訓練/分組練習等內容,歡迎點擊下載。

幼兒教師師德培訓ppt1:這是幼兒教師師德培訓ppt1,包括了引言,幼兒園教師師德現(xiàn)狀,幼兒園師德建設存在的問題,原因分析,對策建議等內容,歡迎點擊下載。

釘釘培訓ppt:這是釘釘培訓ppt,包括了釘釘軟件介紹,釘釘常用功能,公司啟用釘釘考勤操作指南,公司啟用釘釘時間等內容,歡迎點擊下載。

PPT分類Classification

Copyright:2009-2024 紅軟網 rsdown.cn 聯(lián)系郵箱:rsdown@163.com

湘ICP備2024053236號-1