好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

clementine应用范例.ppt

23页
  • 卖家[上传人]:cl****1
  • 文档编号:590482914
  • 上传时间:2024-09-14
  • 文档格式:PPT
  • 文档大小:487KB
  • / 23 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • © ISL 20001第二十章 應用範例 20.1 概況 讀者可以學習每一個例子中資料採礦人員對具體問題的典型處理辦法例子所使用的資料集比資料採礦人員實際處理的資料要小得多,但這樣正好可以將讀者的注意力吸引到資料採礦的具體操作之上,而不是資料本身問題 對於複雜的資料採礦應用,讀者可以參考Clementine應用範本(CATs)上的指導手冊,可以和當地的SPSS辦事處聯繫索取這張CD © ISL 2000220.2 狀態監測範例 該例子是透過監測一台機器的狀態資訊來識別和預測故障狀態的問題資料是一些連續的時間序列每筆記錄是該機器狀態的“快照”,包含以下內容: • 時間 Time ,整數 • 功率 Power,整數 • 溫度 Temperature,整數 • 電壓 Pressure.,0表示正常,1表示瞬間電壓報警 • 正常執行時間 Uptime,上次正常運轉至今的時間 • 狀態 Status,0表示正常, 不同的故障狀態編碼101, 202,303 • 結果 Outcome,該序列中出現的故障碼,若無故障發生爲0 © ISL 20003 每一筆時間序列均是一組來自機器正常執行期間和後續故障期間的記錄組成,如下表所示 © ISL 2000420.2.1 審視資料 若溫度或功率的時間序列包含了可以察覺的模式,那麽我們就可以從故障條件來區分不同的機器故障,並有可能預測故障的出現。

      以溫度和功率爲觀察對象,該資料流程將時間序列按照三個不同的故障類型分類,産生了六個時序圖圖 20-1 condplot流 © ISL 20005圖20-2 溫度和功率時序圖 © ISL 20006 顯示了故障 202 的溫度和功率時序模式有別於故障 303 和 101在故障 202 的模式中,溫度隨時間遞增,而功率不斷震盪;其他故障模式則不然但是故障 303 和 101 的溫度和功率時序模式則區別不大兩者的溫度依時間不變,功率逐漸下降;但是看起來故障 303的功率隨時間下降得更快 從圖形看來,溫度和功率的變化以及波動程度,與故障的預測和識別是息息相關的 © ISL 2000720.2.2 資料準備圖20-3 流condlearn © ISL 20008節點序列說明如下:• Variable File nodeVariable File node:讀取資料檔案 COND1n• Derive Pressure WarningsDerive Pressure Warnings:計算瞬間電壓報警的數目,在時間回 復到0時重置 • Derive Derive TempIncTempInc:溫度變化率,運算式爲@DIFF1(Temp,Time)• Derive Derive PowerIncPowerInc:功率變化率,運算式爲@DIFF1(Power,Time)• Derive Derive PowerFluxPowerFlux.:功率變化反轉標記,用T標識 • Derive Derive PowerStatePowerState.:功率狀態標記,分爲 Stable 和 Fluctuating。

      • PowerChangePowerChange:在前五個時間段中PowerInc 的均值 • TempChangeTempChange:在前五個時間段中TempInc 的均值 • Discard Initial (select)Discard Initial (select):去掉每個時間序列中的第一條記錄 • Discard fieldsDiscard fields:過濾掉部分欄位元 • TypeType:定義 Outcome 的方向爲 Out © ISL 2000920.2.3 學習 文件 condlearn.str 中資料流程是用來訓練本範例的C5.0模型和神經網路模型的神經網路需要一定的時間進行訓練,但也可以提早的打斷訓練並保存産生出的合理的結果提示兩個新的模型節點已經産生了:其中一個是神經網路模型,一個是C5.0模型圖 20-4 帶有産生模型節點的模型管理器 © ISL 20001020.2.4 測試 把生成的模型節點加入到流程中,插入一個Type節點並連接到已産生的神經網路模型節點;將神經網路模型節點連接到生成的C5.0節點,再將C5.0節點連接到一個新的分析節點。

      然後編輯初始的來源節點並導入測試資料檔案COND2n 圖 20-5 測試訓練後的網路 © ISL 20001120.3 欺詐稽查範例 背景是關於農業發展貸款的申請,每一條記錄描述的是某一個農場對某種具體貸款類型的申請我們主要考慮兩種貸款類型:土地開發貸款和退耕貸款要解決的業務問題是找出那些就農場類型和大小說來申請貸款過多的“主兒”圖20-6 解釋fraud.str流操作的流程圖 © ISL 20001220.3.1 資料獲取 使用一個變數檔節點來連接到資料集grantfraudN.db 該資料包含九個欄位名: • id. 唯一的識別字 • name. 申請人名 • region.地理位置(midlands/north/southwest/southeast) • landquality. 整型—農場主對地産質量的聲明 • rainfall. 整型—農場的年降雨量 • farmincome. 實型—農場的年産量 • maincrop. 主要作物 (maize/wheat/potatoes/rapeseed) • claimtype.申請貸款類(decommission_land/arable_dev). • claimvalue. 實型—申請貸款數額 © ISL 20001320.3.2 資料探索 在這一環節上,使用探索性的圖形來分析資料是個好辦法。

      這有助於形成一些對建模有用的假設 我們首先考慮資料中可能存在的欺詐類型一種可能性是一個農場多次申請貸款援助假設在資料集每個農場有一個唯一的識別字,那麽計算出每個識別字出現的次數是件容易的事將資料連接到一個分佈節點(Distribution Node)並選定名爲 name 欄位圖20-7 顯示若干個農場存在多次申請 © ISL 200014圖20-7 撥款申請分佈 © ISL 200015 爲了探索其他可能的欺詐形式,我們可以撇開多次申請的記錄,將注意力集中到只申請過一次的記錄上來可以用選擇節點(Select Node)刪除相應的記錄圖20-8 去除多重申請 © ISL 200016 我們可以使用Clementine建立一個迴歸模型,以農場大小,主要作物類型,土壤質量等爲引數來估計一個農場的收入是多少在建模以前,需要在導出節點Derived Node中使用CLEM語言來生成一個新的欄位我們用如下的運算式來估計估計農場收入:圖20-9 估計農場收入 © ISL 200017 爲了發現那些偏離估計值的農場, 我們需要生成一個 diff 欄位,代表估計值與實際值偏離的百分數。

      圖 20-10 比較收入偏差 © ISL 200018 由diff的直方圖可以幫助我們發現偏離的特徵將直方圖按照 claimtype 進行層疊,進一步看看申報的類型對偏離有影響 圖20-11 偏差百分比的直方圖 看來所有較大的偏差都發生在 arable_dev類型的申請時,因此,我們只選擇 arable_dev類貸款申請作爲研究對象將一個選擇節點Select Node加到導出節點 diff 的後面,使用CLEM運算式——claimtype == ’arable_dev’——進行篩選 © ISL 20001920.3.3 訓練神經網路 經過探索性資料分析,我們發現將真實值和通過一系列因變數得到的期望值進行比較似乎是有用的神經網路可以用來處理此類問題神經網路使用資料中的變數,對目標變數或回應進行預測使用預測的結果,我們可以探索偏離正常值的記錄或記錄組 在建模之前,我們首先將一個類型節點Type Node 加到目前的流程中因爲需要用資料中的變數來預測所申請的貸款金額,所以將claimvalue的方向設置爲OUT © ISL 200020圖20-12 爲神經網路模型定義輸入和輸出變數 © ISL 200021 附加上一個神經網路節點並執行之。

      待此神經網路經過訓練後,將産生的模型加到流程中並給出預測值與實際申請值的對照圖圖20-13 比較預測和真實聲明值 © ISL 200022 導出一個名爲claimdiff 欄位,類似於前面導出的“income differences”欄位此導出節點使用如下的CLEM運算式: (abs(claimvalue - ’$N-claimvalue’) / ’claimvalue’) * 100 增加一個分隔帶到直方圖中,右擊帶區生成一個選擇節點,進一步察看那些claimdiff 值較大的資料,比如對 claimdiff > 50% 的申請進行深入地調查 © ISL 20002320.4 總結 本例建立了一個預測模型將模型預測值和資料集(農場收入)中的實際值進行比較我們發現偏差主要出現在一種撥款申請類型(可耕地開發)中,然後進行更深入的分析 通過一個訓練後的神經網路模型,歸納出申請額和農場大小、估計的收入,主要作物等等之間的關係然後與神經網路模型的估計值相比較,大於50%的將被認爲是需要進一步調查的當然,最終這些申請有可能是有效的,但是它們與正常值的差異卻是值得注意的。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.