国产午夜福利在线观看红一片,久久精品国产再热青青青,又硬又粗又大一区二区三区视频,中文字幕乱码免费,久久超碰97文字幕 ,中国精学生妹品射精久久

最新更新最新專題

您的位置:首頁(yè) > ppt下載 > PPT課件 > 公司管理PPT > 數(shù)據(jù)挖掘技術(shù)PPT

數(shù)據(jù)挖掘技術(shù)PPT下載

素材大。
2.4 MB
素材授權(quán):
免費(fèi)下載
素材格式:
.ppt
素材上傳:
ppt
上傳時(shí)間:
2018-05-15
素材編號(hào):
186556
素材類別:
公司管理PPT

素材預(yù)覽

數(shù)據(jù)挖掘技術(shù)PPT

這是一個(gè)關(guān)于數(shù)據(jù)挖掘技術(shù)PPT,包括了數(shù)據(jù)挖掘概述,數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘算法-分類與預(yù)測(cè),數(shù)據(jù)挖掘算法-聚類,數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析,序列模式挖掘,數(shù)據(jù)挖掘軟件,數(shù)據(jù)挖掘應(yīng)用等內(nèi)容,自動(dòng)化前沿第四講 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用 宋執(zhí)環(huán)浙江大學(xué)工業(yè)控制研究所 主要內(nèi)容 數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘算法-分類與預(yù)測(cè)數(shù)據(jù)挖掘算法-聚類數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析序列模式挖掘數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘應(yīng)用一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。 數(shù)據(jù)挖掘與KDD 知識(shí)發(fā)現(xiàn)(KD)輸出的是規(guī)則 數(shù)據(jù)挖掘(DM)輸出的是模型 共同點(diǎn)兩種方法輸入的都是學(xué)習(xí)集(learning sets) 目的都是盡可能多的自動(dòng)化數(shù)據(jù)挖掘過(guò)程 數(shù)據(jù)挖掘過(guò)程并不能完全自動(dòng)化,只能半自動(dòng)化 異常檢測(cè)異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來(lái)發(fā)現(xiàn)”小的模式”(相對(duì)于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。異常探測(cè)應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報(bào)金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測(cè)故障檢測(cè)與診斷等 什么是異常(outlier)?Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。聚類算法對(duì)異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測(cè)算法對(duì)異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點(diǎn),歡迎點(diǎn)擊下載數(shù)據(jù)挖掘技術(shù)PPT哦。

數(shù)據(jù)挖掘技術(shù)PPT是由紅軟PPT免費(fèi)下載網(wǎng)推薦的一款公司管理PPT類型的PowerPoint.

自動(dòng)化前沿第四講 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用 宋執(zhí)環(huán)浙江大學(xué)工業(yè)控制研究所 主要內(nèi)容 數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘算法-分類與預(yù)測(cè)數(shù)據(jù)挖掘算法-聚類數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析序列模式挖掘數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘應(yīng)用一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。 數(shù)據(jù)挖掘與KDD 知識(shí)發(fā)現(xiàn)(KD)輸出的是規(guī)則 數(shù)據(jù)挖掘(DM)輸出的是模型 共同點(diǎn)兩種方法輸入的都是學(xué)習(xí)集(learning sets) 目的都是盡可能多的自動(dòng)化數(shù)據(jù)挖掘過(guò)程 數(shù)據(jù)挖掘過(guò)程并不能完全自動(dòng)化,只能半自動(dòng)化 異常檢測(cè)異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來(lái)發(fā)現(xiàn)”小的模式”(相對(duì)于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。異常探測(cè)應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報(bào)金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測(cè)故障檢測(cè)與診斷等 什么是異常(outlier)? Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。 聚類算法對(duì)異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測(cè)算法對(duì)異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點(diǎn)。他們的行為與正常的行為有很大不同。異常檢測(cè)方法的分類基于統(tǒng)計(jì)(statistical-based)的方法基于距離 (distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測(cè)數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識(shí)的特征算法的特征數(shù)據(jù)的特征大容量 POS數(shù)據(jù)(某個(gè)超市每天要處理高達(dá)2000萬(wàn)筆交易)衛(wèi)星圖象(NASA的地球觀測(cè)衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)系統(tǒng)的特征知識(shí)發(fā)現(xiàn)系統(tǒng)需要一個(gè)前處理過(guò)程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換知識(shí)發(fā)現(xiàn)系統(tǒng)是一個(gè)自動(dòng)/半自動(dòng)過(guò)程知識(shí)發(fā)現(xiàn)系統(tǒng)要有很好的性能知識(shí)(模式)的特征知識(shí)發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識(shí)?計(jì)算學(xué)習(xí)理論COLT(Computational Learning Theory)以FOL為基礎(chǔ)的以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計(jì)現(xiàn)行的知識(shí)發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識(shí)規(guī)則分類關(guān)聯(lián)知識(shí)表示:規(guī)則 IF 條件 THEN 結(jié)論條件和結(jié)論的粒度(抽象度)可以有多種單值區(qū)間模糊值規(guī)則可以有確信度精確規(guī)則概率規(guī)則知識(shí)表示:分類樹數(shù)據(jù)挖掘算法的特征構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語(yǔ)言:反映了算法可以發(fā)現(xiàn)什么樣的知識(shí)模式評(píng)價(jià):反映了什么樣的模式可以稱為知識(shí)模式探索:包括針對(duì)某一特定模式對(duì)參數(shù)空間的探索和對(duì)模式空間的探索數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering) 相關(guān)規(guī)則(Association Rule) 回歸(Regression) 其他數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法,這些算法設(shè)計(jì)用來(lái)挖掘向量數(shù)據(jù)(vector-valued data),這些數(shù)據(jù)模型在挖掘時(shí)候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過(guò)支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語(yǔ)言(DMQL)增加系統(tǒng)的靈活性。 數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng) 第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對(duì)建立在異質(zhì)系統(tǒng)上的多個(gè)預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級(jí)別(first class)的支持。 第四代數(shù)據(jù)挖掘系統(tǒng) 第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 。二、數(shù)據(jù)預(yù)處理為什么需要預(yù)處理數(shù)據(jù)不完整含觀測(cè)噪聲不一致包含其它不希望的成分?jǐn)?shù)據(jù)清理通過(guò)填寫空缺值,平滑噪聲數(shù)據(jù),識(shí)別刪除孤立點(diǎn),并解決不一致來(lái)清理數(shù)據(jù)。污染數(shù)據(jù)形成的原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語(yǔ)重復(fù)記錄丟失值拼寫變化不同的計(jì)量單位過(guò)時(shí)的編碼含有各種噪聲數(shù)據(jù)清理的重要性污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。垃圾進(jìn)、垃圾出數(shù)據(jù)清理處理內(nèi)容格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達(dá)到相同或基本相同的分析結(jié)果主要策略: 數(shù)據(jù)聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值規(guī)約空缺值忽略元組人工填寫空缺值使用固定值使用屬性平均值使用最有可能值噪聲數(shù)據(jù)如何平滑數(shù)據(jù),去掉噪聲數(shù)據(jù)平滑技術(shù)分箱聚類計(jì)算機(jī)和人工檢查相結(jié)合回歸分箱箱的深度:表示不同的箱里有相同個(gè)數(shù)的數(shù)據(jù)。箱的寬度:每個(gè)箱值的取值區(qū)間是個(gè)常數(shù)。平滑方法: 按箱平均值平滑按箱中值平滑按箱邊界值平滑聚類每個(gè)簇中的數(shù)據(jù)用其中心值代替忽略孤立點(diǎn)先通過(guò)聚類等方法找出孤立點(diǎn)。這些孤立點(diǎn)可能包含有用的信息。人工再審查這些孤立點(diǎn) 回歸通過(guò)構(gòu)造函數(shù)來(lái)符合數(shù)據(jù)變化的趨勢(shì),這樣可以用一個(gè)變量預(yù)測(cè)另一個(gè)變量。線性回歸多線性回歸數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一直得數(shù)據(jù)存貯中。實(shí)體識(shí)別 實(shí)體和模式的匹配冗余:某個(gè)屬性可以由別的屬性推出。相關(guān)分析相關(guān)性rA,B . rA,B>0,正相關(guān)。A隨B的值得增大而增大 rA,B>0,正相關(guān)。AB無(wú)關(guān) rA,B>0,正相關(guān)。A隨B的值得增大而減少重復(fù) 同一數(shù)據(jù)存儲(chǔ)多次數(shù)據(jù)值沖突的檢測(cè)和處理數(shù)據(jù)變換平滑聚集數(shù)據(jù)概化規(guī)范化屬性構(gòu)造(特征構(gòu)造) 最小 最大規(guī)范化 小數(shù)定標(biāo)規(guī)范化 屬性構(gòu)造由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解 數(shù)據(jù)立方體聚集尋找感興趣的維度進(jìn)行再聚集維規(guī)約刪除不相關(guān)的屬性(維)來(lái)減少數(shù)據(jù)量。屬性子集選擇找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布如何選取?貪心算法逐步向前選擇逐步后向刪除向前選擇和后向刪除相結(jié)合判定樹歸納數(shù)據(jù)壓縮有損,無(wú)損小波變換將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D’. 對(duì)D’進(jìn)行剪裁,保留小波系數(shù)最強(qiáng)的部分。 數(shù)值規(guī)約回歸和對(duì)數(shù)線形模型線形回歸對(duì)數(shù)線形模型直方圖等寬等深 V-最優(yōu) maxDiff 數(shù)值規(guī)約 聚類多維索引樹 : 對(duì)于給定的數(shù)據(jù)集合,索引樹動(dòng)態(tài)的劃分多維空間。選樣簡(jiǎn)單選擇n個(gè)樣本,不放回簡(jiǎn)單選擇n個(gè)樣本,放回聚類選樣分層選樣 離散化和概念分層離散化技術(shù)用來(lái)減少給定連續(xù)屬性的個(gè)數(shù)通常是遞歸的。大量時(shí)間花在排序上。對(duì)于給定的數(shù)值屬性,概念分層定義了該屬性的一個(gè)離散化的值。分箱直方圖分析 數(shù)值數(shù)據(jù)離散化聚類分析基于熵的離散化通過(guò)自然劃分分段 3-4-5規(guī)則如果一個(gè)區(qū)間最高有效位上包括3 6 9 個(gè)不同的值,劃分為3個(gè)等寬區(qū)間。 7個(gè)不同值,按2-3-3劃分為3個(gè)區(qū)間最高位包含2,4,8個(gè)不同值,劃分為4個(gè)等寬區(qū)間最高位包含1 ,5,10個(gè)不同值,劃分為5個(gè)等寬區(qū)間最高分層一般在第5個(gè)百分位到第95個(gè)百分位上進(jìn)行分類數(shù)據(jù)的概念分層生成分類數(shù)據(jù)是離散數(shù)據(jù)。一個(gè)分類屬性可能有有限個(gè)不同的值。方法 由用戶和專家在模式級(jí)顯式的說(shuō)明屬性的部分序通過(guò)顯式的數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分說(shuō)明屬性集,但不說(shuō)明他們的偏序只說(shuō)明部分的屬性集三、數(shù)據(jù)挖掘算法 -分類與預(yù)測(cè)分類 VS. 預(yù)測(cè)分類:預(yù)測(cè)分類標(biāo)號(hào)(或離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù),并用來(lái)分類新數(shù)據(jù)預(yù)測(cè):建立連續(xù)函數(shù)值模型,比如預(yù)測(cè)空缺值典型應(yīng)用信譽(yù)證實(shí)目標(biāo)市場(chǎng)醫(yī)療診斷性能預(yù)測(cè)數(shù)據(jù)分類:兩步過(guò)程第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)類標(biāo)號(hào)屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況第一步:建立模型第二步:用模型進(jìn)行分類準(zhǔn)備分類和預(yù)測(cè)的數(shù)據(jù)通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測(cè)過(guò)程的準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲,處理空缺值,從而減少學(xué)習(xí)時(shí)的混亂相關(guān)性分析數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;刪除這些屬性可以加快學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化比較分類方法使用下列標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法預(yù)測(cè)的準(zhǔn)確率:模型正確預(yù)測(cè)新數(shù)據(jù)的類編號(hào)的能力速度:產(chǎn)生和使用模型的計(jì)算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能力可伸縮性:對(duì)大量數(shù)據(jù),有效的構(gòu)建模型的能力可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次用判定樹歸納分類什么是判定樹?類似于流程圖的樹結(jié)構(gòu)每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試每個(gè)分枝代表一個(gè)測(cè)試輸出每個(gè)樹葉節(jié)點(diǎn)代表類或類分布判定樹的生成由兩個(gè)階段組成判定樹構(gòu)建開始時(shí),所有的訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸的通過(guò)選定的屬性,來(lái)劃分樣本 (必須是離散值)樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹剪枝試圖檢測(cè)和剪去這種分枝判定樹的使用:對(duì)未知樣本進(jìn)行分類通過(guò)將樣本的屬性值與判定樹相比較判定歸納樹算法判定歸納樹算法(一個(gè)貪心算法)自頂向下的分治方式構(gòu)造判定樹樹以代表訓(xùn)練樣本的單個(gè)根節(jié)點(diǎn)開始使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化)遞歸的通過(guò)選擇相應(yīng)的測(cè)試屬性,來(lái)劃分樣本,一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何后代上出現(xiàn)測(cè)試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來(lái)進(jìn)行選擇(如:信息增益)遞歸劃分步驟停止的條件給定節(jié)點(diǎn)的所有樣本屬于同一類沒有剩余屬性可以用來(lái)進(jìn)一步劃分樣本——使用多數(shù)表決沒有剩余的樣本貝葉斯分類貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來(lái)預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的概率。 樸素貝葉斯分類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問題產(chǎn)生的影響都是一樣的。后向傳播分類后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個(gè)連接都與一個(gè)權(quán)相連。在學(xué)習(xí)階段,通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來(lái)學(xué)習(xí)。優(yōu)點(diǎn)預(yù)測(cè)精度總的來(lái)說(shuō)較高健壯性好,訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對(duì)目標(biāo)進(jìn)行分類較快缺點(diǎn)訓(xùn)練(學(xué)習(xí))時(shí)間長(zhǎng)蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解很難根專業(yè)領(lǐng)域知識(shí)相整合其他分類方法 k-最臨近分類給定一個(gè)未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個(gè)訓(xùn)練樣本;然后使用k個(gè)最臨近者中最公共的類來(lái)預(yù)測(cè)當(dāng)前樣本的類標(biāo)號(hào)基于案例的推理樣本或案例使用復(fù)雜的符號(hào)表示,對(duì)于新案例,先檢測(cè)是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例遺傳算法結(jié)合生物進(jìn)化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界什么是預(yù)測(cè)?預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。預(yù)測(cè)和分類的異同相同點(diǎn)兩者都需要構(gòu)建模型都用模型來(lái)估計(jì)未知值預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸不同點(diǎn)分類法主要是用來(lái)預(yù)測(cè)類標(biāo)號(hào)(分類屬性值)預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值(量化屬性值)回歸方法線性回歸:Y =  +  X 其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點(diǎn),通過(guò)最小二乘法來(lái)求得 多元回歸:Y =  + 1X1 + 2 X2 線性回歸的擴(kuò)展,設(shè)計(jì)多個(gè)預(yù)測(cè)變量,可以用最小二乘法求得上式中的,1 和2 非線性回歸:Y =  + 1X1 + 2 X22+ 3 X33 對(duì)不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解評(píng)估分類法的準(zhǔn)確性導(dǎo)出分類法后,再使用訓(xùn)練數(shù)據(jù)評(píng)估分類法,可能錯(cuò)誤的導(dǎo)致樂觀的估計(jì)保持方法給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合:訓(xùn)練集(2/3)和測(cè)試集(1/3) 訓(xùn)練集導(dǎo)出分類法,測(cè)試集對(duì)其準(zhǔn)確性進(jìn)行評(píng)估隨機(jī)子選樣:保持方法的一個(gè)變形,將保持方法重復(fù)k次,然后取準(zhǔn)確率的平均值 k-折交叉確認(rèn)初始數(shù)據(jù)被劃分為k個(gè)不相交的,大小大致相同的子集S1,S2…Sk 進(jìn)行k次訓(xùn)練和測(cè)試,第i次時(shí),以Si做測(cè)試集,其他做訓(xùn)練集準(zhǔn)確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)提高分類法的準(zhǔn)確性 Bagging技術(shù)和boosting技術(shù)都通過(guò)將T個(gè)學(xué)習(xí)得到的分類法C1,C2…CT組合起來(lái),從而創(chuàng)造一個(gè)改進(jìn)的分類法C* Bagging技術(shù)對(duì)訓(xùn)練集S進(jìn)行T次迭代,每次通過(guò)放回取樣選取樣本集St,通過(guò)學(xué)習(xí)St得到分類法Ct 對(duì)于未知樣本X,每個(gè)分類法返回其類預(yù)測(cè),作為一票 C*統(tǒng)計(jì)得票,并將得票最高的預(yù)測(cè)賦予X Boosting技術(shù)每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)值 Ct的權(quán)值取決于其錯(cuò)誤率四、數(shù)據(jù)挖掘算法-聚類聚類分析什么是聚類分析? 聚類分析中的數(shù)據(jù)類型主要聚類分析方法分類劃分方法(Partitioning Methods)分層方法基于密度的方法基于表格的方法基于模型(Model-Based)的聚類方法異常分析總結(jié) 什么是聚類分析? 簇(Cluster):一個(gè)數(shù)據(jù)對(duì)象的集合在同一個(gè)類中,對(duì)象之間0具有相似性;不同類的對(duì)象之間是相異的。聚類分析把一個(gè)給定的數(shù)據(jù)對(duì)象集合分成不同的簇;聚類是一種無(wú)監(jiān)督分類法: 沒有預(yù)先指定的類別;典型的應(yīng)用作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布; 作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟;聚類的常規(guī)應(yīng)用 模式識(shí)別空間數(shù)據(jù)分析 在GIS中,通過(guò)聚類發(fā)現(xiàn)特征空間來(lái)建立主題索引;在空間數(shù)據(jù)挖掘中,檢測(cè)并解釋空間中的簇;圖象處理經(jīng)濟(jì)學(xué) (尤其是市場(chǎng)研究方面) WWW 文檔分類分析WEB日志數(shù)據(jù)來(lái)發(fā)現(xiàn)相似的訪問模式應(yīng)用聚類分析的例子市場(chǎng)銷售: 幫助市場(chǎng)人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識(shí)來(lái)開展一個(gè)目標(biāo)明確的市場(chǎng)計(jì)劃;土地使用: 在一個(gè)陸地觀察數(shù)據(jù)庫(kù)中標(biāo)識(shí)那些土地使用相似的地區(qū);保險(xiǎn): 對(duì)購(gòu)買了汽車保險(xiǎn)的客戶,標(biāo)識(shí)那些有較高平均賠償成本的客戶;城市規(guī)劃: 根據(jù)類型、價(jià)格、地理位置等來(lái)劃分不同類型的住宅;地震研究: 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;聚類方法性能評(píng)價(jià)一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果——簇,這些簇要具備以下兩個(gè)特點(diǎn):高的簇內(nèi)相似性低的簇間相似性 聚類結(jié)果的好壞取決于該聚類方法采用的相似性評(píng)估方法以及該方法的具體實(shí)現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;聚類方法性能評(píng)價(jià)可伸縮性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇在決定輸入?yún)?shù)的時(shí)候,盡量不需要特定的領(lǐng)域知識(shí);能夠處理噪聲和異常對(duì)輸入數(shù)據(jù)對(duì)象的順序不敏感能處理高維數(shù)據(jù)能產(chǎn)生一個(gè)好的、能滿足用戶指定約束的聚類結(jié)果結(jié)果是可解釋的、可理解的和可用的兩種數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)矩陣 (two modes) 差異度矩陣 (one mode) 評(píng)價(jià)聚類質(zhì)量差異度/相似度矩陣: 相似度通常用距離函數(shù)來(lái)表示;有一個(gè)單獨(dú)的質(zhì)量評(píng)估函數(shù)來(lái)評(píng)判一個(gè)簇的好壞;對(duì)不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細(xì)討論;根據(jù)實(shí)際的應(yīng)用和數(shù)據(jù)的語(yǔ)義,在計(jì)算距離的時(shí)候,不同的變量有不同的權(quán)值相聯(lián)系;很難定義“足夠相似了”或者“足夠好了” 只能憑主觀確定;聚類分析中的數(shù)據(jù)類型區(qū)間標(biāo)度變量(Interval-scaled variables): 二元變量(Binary variables): 標(biāo)稱型,序數(shù)型和比例型變量(Nominal, ordinal, and ratio variables): 混合類型變量(Variables of mixed types): 區(qū)間標(biāo)度變量數(shù)據(jù)標(biāo)準(zhǔn)化計(jì)算絕對(duì)偏差的平均值: 其中計(jì)算標(biāo)準(zhǔn)度量值 (z-score) 使用絕對(duì)偏差的平均值比使用標(biāo)準(zhǔn)偏差更健壯(robust)計(jì)算對(duì)象之間的相異度通常使用距離來(lái)衡量?jī)蓚(gè)對(duì)象之間的相異度。常用的距離度量方法有: 明考斯基距離( Minkowski distance): 其中 i = (xi1, xi2, …, xip) 和 j = (xj1, xj2, …, xjp) 是兩個(gè)p維的數(shù)據(jù)對(duì)象, q是一個(gè)正整數(shù)。當(dāng)q = 1時(shí), d 稱為曼哈坦距離( Manhattan distance) 計(jì)算對(duì)象之間的相異度當(dāng)q=2時(shí), d 就成為歐幾里德距離: 距離函數(shù)有如下特性: d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j) 可以根據(jù)每個(gè)變量的重要性賦予一個(gè)權(quán)重序數(shù)型變量一個(gè)序數(shù)型變量可以是離散的也可以是連續(xù)的 離散的序數(shù)型變量類似于標(biāo)稱變量,除了它的M個(gè)狀態(tài)是以有意義的序列排序的,比如職稱連續(xù)的序數(shù)型變量類似于區(qū)間標(biāo)度變量,但是它沒有單位,值的相對(duì)順序是必要的,而其實(shí)際大小并不重要。序數(shù)型變量相異度的計(jì)算 與區(qū)間標(biāo)度變量的計(jì)算方法相類似將xif 用它對(duì)應(yīng)的秩代替 將每個(gè)變量的值域映射到[0.0,1.0]上,使得每個(gè)變量都有相同的權(quán)重。這通過(guò)用zif來(lái)替代rif來(lái)實(shí)現(xiàn) 用前面所述的區(qū)間標(biāo)度變量的任一種距離計(jì)算方法來(lái)計(jì)算 比例標(biāo)度型變量比例標(biāo)度型變量(Ratio-scaled variable) : 總是取正的度量值,有一個(gè)非線性的標(biāo)度,近似的遵循指數(shù)標(biāo)度,比如 AeBt or Ae-Bt 計(jì)算相異度的方法: 采用與處理區(qū)間標(biāo)度變量相同的方法 — 不是一個(gè)好的選擇進(jìn)行對(duì)數(shù)變換,對(duì)變換得到的值在采用與處理區(qū)間標(biāo)度變量相同的方法 yif = log(xif) 將其作為連續(xù)的序數(shù)型數(shù)據(jù),將其秩作為區(qū)間標(biāo)度的值來(lái)對(duì)待;旌项愋偷淖兞恳粋(gè)數(shù)據(jù)庫(kù)可能包含了所有這6中類型的變量 用以下公式計(jì)算對(duì)象i,j之間的相異度. 其中,p為對(duì)象中的變量個(gè)數(shù) 如果xif或xjf 缺失(即對(duì)象i或?qū)ο骿沒有變量f的值),或者xif = xjf =0,且變量f是不對(duì)稱的二元變量,則指示項(xiàng)δij(f)=0;否則δij(f)=1 混合類型的變量 f 是二元變量或標(biāo)稱變量: if xif = xjf dij(f) = 0, else dij(f) = 1 f 是區(qū)間標(biāo)度變量: dij(f) = | xif-xjf |/maxhxhf-minhxhf 其中h遍取變量f的所有非空缺對(duì)象 f 是序數(shù)型或比例標(biāo)度型計(jì)算秩 rif 計(jì)算 zif并將其作為區(qū)間標(biāo)度變量值對(duì)待 主要聚類方法 Partitioning algorithms: Construct various partitions and then evaluate them by some criterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterion Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other 五、數(shù)據(jù)挖掘算法-關(guān)聯(lián)什么是關(guān)聯(lián)挖掘? 關(guān)聯(lián)規(guī)則:基本概念規(guī)則度量:支持度與可信度關(guān)聯(lián)規(guī)則挖掘:路線圖關(guān)聯(lián)規(guī)則挖掘—一個(gè)例子關(guān)鍵步驟:挖掘頻繁集多層關(guān)聯(lián)規(guī)則項(xiàng)通常具有層次底層的項(xiàng)通常支持度也低某些特定層的規(guī)則可能更有意義交易數(shù)據(jù)庫(kù)可以按照維或?qū)泳幋a可以進(jìn)行共享的多維挖掘挖掘多層關(guān)聯(lián)規(guī)則自上而下,深度優(yōu)先的方法:先找高層的“強(qiáng)”規(guī)則:牛奶 ® 面包 [20%, 60%]. 再找他們底層的“弱”規(guī)則:酸奶 ® 黃面包 [6%, 50%]. 多層關(guān)聯(lián)規(guī)則的變種層次交叉的關(guān)聯(lián)規(guī)則: 酸奶 ® 面包房 黃面包不同種分層方法間的關(guān)聯(lián)規(guī)則:酸奶 ® 面包房面包多層關(guān)聯(lián)規(guī)則支持度不變: 在各層之間使用統(tǒng)一的支持度 + 一個(gè)最小支持度閾值. 如果一個(gè)項(xiàng)集的父項(xiàng)集不具有最小支持度,那他本身也不可能滿足最小支持度。 – 底層項(xiàng)不會(huì)成為頻繁集,如果支持度太高  丟失底層關(guān)聯(lián)規(guī)則太低  生成太多的高層關(guān)聯(lián)規(guī)則支持度遞減: 隨著層次的降低支持度遞減 4種搜索策略:層與層獨(dú)立用k-項(xiàng)集跨層過(guò)濾用項(xiàng)跨層過(guò)濾用項(xiàng)進(jìn)行可控跨層過(guò)濾支持度不變支持度遞減多層關(guān)聯(lián):冗余過(guò)濾由于“祖先”關(guān)系的原因,有些規(guī)則可能是多余的。例子牛奶  白面包 [support = 8%, confidence = 70%] 酸奶  白面包 [support = 2%, confidence = 72%] 我們稱第一個(gè)規(guī)則是第二個(gè)規(guī)則的祖先參考規(guī)則的祖先,如果他的支持度與我們“預(yù)期”的支持度近似的話,我們就說(shuō)這條規(guī)則是冗余的。多層挖掘:深度優(yōu)先自頂向下,深度優(yōu)先的方法:先挖掘高層頻繁項(xiàng): 牛奶 (15%), 面包 (10%) 再挖掘他們底層的相對(duì)較弱的頻繁項(xiàng): 酸奶 (5%), 白面包 (4%) 跨層時(shí)對(duì)支持度的不同處理方法,對(duì)應(yīng)了不同的算法: 層之間支持度不變:如果t的祖先是非頻繁的,則不用考慮t 支持度隨層遞減:則只考慮那些其祖先是頻繁的/不可忽略的項(xiàng)數(shù)據(jù)挖掘查詢的逐步精化為什么要逐步精化挖掘操作的代價(jià)可能高或低,結(jié)果可能細(xì)致或粗糙在速度和質(zhì)量之間折衷:逐步精化超集覆蓋特征:預(yù)存儲(chǔ)所有正面答案—允許進(jìn)一步正確性驗(yàn)證,而不必驗(yàn)證已經(jīng)錯(cuò)誤的 2或多步挖掘:先執(zhí)行粗糙的、容易的操作 (超集覆蓋) 然后在減少后的候選集上進(jìn)行計(jì)算量大的算法 (Koperski & Han, SSD’95). 逐步求精空間關(guān)聯(lián)規(guī)則挖掘逐步求精空間關(guān)聯(lián)規(guī)則挖掘空間關(guān)聯(lián)規(guī)則的兩步算法:步驟 1: 粗糙空間計(jì)算 (用于過(guò)濾) 用 MBR 或 R-tree 做粗糙估計(jì)步驟 2: 細(xì)致空間算法 (用于精化) 只計(jì)算已經(jīng)通過(guò)空間計(jì)算的對(duì)象多維關(guān)聯(lián)規(guī)則:概念單維規(guī)則: buys(X, “milk”)  buys(X, “bread”) 多維規(guī)則: 2個(gè)以上維/謂詞維間關(guān)聯(lián)規(guī)則 (維詞不重復(fù)) age(X,”19-25”)  occupation(X,“student”)  buys(X,“coke”) 混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù)) age(X,”19-25”)  buys(X, “popcorn”)  buys(X, “coke”) 類別屬性有限個(gè)值, 值之間無(wú)順序關(guān)系數(shù)量屬性數(shù)字的,值之間隱含了順序關(guān)系挖掘多維關(guān)聯(lián)的技術(shù)搜索頻繁k-維詞集合:如: {age, occupation, buys} 是一個(gè)3-維詞集合。按照對(duì) age 處理方式的不同,分為: 1. 用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預(yù)定義的概念層次加以離散化。 2. 帶數(shù)量的關(guān)聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布動(dòng)態(tài)的把數(shù)值屬性離散化到不同的“箱”。 3. 基于距離的關(guān)聯(lián)規(guī)則用數(shù)據(jù)點(diǎn)之間的距離動(dòng)態(tài)的離散化數(shù)值屬性的靜態(tài)離散化帶數(shù)量的關(guān)聯(lián)規(guī)則 ARCS (關(guān)聯(lián)規(guī)則聚集系統(tǒng)) ARCS 流程 1. 分箱 2. 查找頻繁維詞 集合 3. 聚集 4. 優(yōu)化 ARCS的局限性基于距離的關(guān)聯(lián)規(guī)則挖掘分箱的方法沒有體現(xiàn)數(shù)據(jù)間隔的語(yǔ)義 基于距離的分割是更有“意義”的離散化方法,考慮:區(qū)間內(nèi)密度或點(diǎn)的個(gè)數(shù)區(qū)間內(nèi)點(diǎn)的“緊密程度聚集和距離度量聚集和距離度量 六、序列模式挖掘序列模式概念序列模式的概念最早是由Agrawal和Srikant 提出的序列模式定義:給定一個(gè)由不同序列組成的集合,其中,每個(gè)序列由不同的元素按順序有序排列,每個(gè)元素由不同項(xiàng)目組成,同時(shí)給定一個(gè)用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值序列模式實(shí)例例1:在兩年前購(gòu)買了Ford 牌轎車的顧客,很有可能在今年采取貼舊換新的購(gòu)車行動(dòng)例2:在購(gòu)買了自行車和購(gòu)物籃的所有客戶中,有70%的客戶會(huì)在兩個(gè)月后購(gòu)買打氣筒例3:工業(yè)過(guò)程控制領(lǐng)域:過(guò)程變量采樣值時(shí)時(shí)間序列;變量之間的關(guān)系是動(dòng)態(tài)的;系統(tǒng)故障模式;等等 序列模式應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域:客戶購(gòu)買行為模式預(yù)測(cè) Web訪問模式預(yù)測(cè)疾病診斷自然災(zāi)害預(yù)測(cè) DNA序列分析工業(yè)控制序列模式表示符號(hào)化表示:項(xiàng)目集(Itemset)是各種項(xiàng)目組成的集合序列(Sequence)是不同項(xiàng)目集(ItemSet)的有序排列,序列s可以表示為s = ,sj(1 <= j <= l)為項(xiàng)目集(Itemset),也稱為序列s的元素序列的元素(Element)可表示為(x1x2…xm), xk(1 <= k <= m)為不同的項(xiàng)目,如果一個(gè)序列只有一個(gè)項(xiàng)目,則括號(hào)可以省略一個(gè)序列包含的所有項(xiàng)目的個(gè)數(shù)稱為序列的長(zhǎng)度。長(zhǎng)度為l的序列記為l-序列序列模式表示符號(hào)化表示:設(shè) = , = ,如果存在整數(shù)1 <= j1 < j2 <…< jn <= m,使得a1  bj1,a2  bj2,…, an  bjn,則稱序列為序列的子序列,又稱序列包含序列,記為  序列在序列數(shù)據(jù)庫(kù)S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫(kù)S中包含序列的序列個(gè)數(shù),記為Support() 給定支持度閾值,如果序列在序列數(shù)據(jù)庫(kù)中的支持?jǐn)?shù)不低于,則稱序列為序列模式長(zhǎng)度為l的序列模式記為l-模式序列模式表示例子:設(shè)序列數(shù)據(jù)庫(kù)如下圖所示,并設(shè)用戶指定的最小支持度min-support = 2。序列模式挖掘問題描述:給定序列數(shù)據(jù)庫(kù)和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫(kù)中所有的序列模式 系統(tǒng)規(guī)定:由于同一個(gè)元素中的項(xiàng)目之間排列沒有順序,為了表達(dá)的唯一性,我們將同一個(gè)元素內(nèi)部的不同項(xiàng)目按照字典順序排列序列模式挖掘算法序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法:類似于Apriori算法 PrefixSpan(Prefix-project Sequential Pattern mining)算法:采用分治的思想,不斷產(chǎn)生序列數(shù)據(jù)庫(kù)的多個(gè)更小的投影數(shù)據(jù)庫(kù),然后在各個(gè)投影數(shù)據(jù)庫(kù)上進(jìn)行序列模式挖掘序列模式挖掘算法上述算法存在的主要問題:缺少時(shí)間限制:用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。例如,一個(gè)序列模式可能會(huì)發(fā)現(xiàn)客戶在購(gòu)買了物品A后的第三年購(gòu)買物品B。我們需要的卻是給定時(shí)間間隔內(nèi)用戶的購(gòu)買意向事務(wù)的定義過(guò)于嚴(yán)格:一個(gè)事務(wù)中包含在客戶的一次購(gòu)買行為中所購(gòu)買的所有物品?赡苄枰付ㄒ粋(gè)滑動(dòng)時(shí)間窗口,客戶在滑動(dòng)時(shí)間窗口的時(shí)間段內(nèi)的所有的購(gòu)買行為均作為一個(gè)事務(wù)缺少分類層次:只能在項(xiàng)目的原始級(jí)別上進(jìn)行挖掘七、數(shù)據(jù)挖掘軟件 八、數(shù)據(jù)挖掘應(yīng)用 數(shù)據(jù)挖掘應(yīng)用—— 時(shí)間序列模式挖掘工業(yè)過(guò)程變量時(shí)間序列生產(chǎn)過(guò)程的類型連續(xù)過(guò)程:工藝參數(shù)(設(shè)定值)均為常量。批量過(guò)程:工藝參數(shù)(設(shè)定值)通常為變量。工藝參數(shù)的數(shù)據(jù)類型數(shù)值型、邏輯型、枚舉型產(chǎn)品質(zhì)量的數(shù)據(jù)類型邏輯型:只判斷產(chǎn)品的好壞數(shù)值型:給出產(chǎn)品質(zhì)量好壞的程度 批量型生產(chǎn)過(guò)程連續(xù)型生產(chǎn)過(guò)程數(shù)據(jù)挖掘?qū)ο蟮幕緲?gòu)成樣本的抽。ㄅ可a(chǎn)過(guò)程)連續(xù)生產(chǎn)過(guò)程的樣本抽取連續(xù)過(guò)程  批量過(guò)程 關(guān)于生產(chǎn)質(zhì)量改變的模式假設(shè)生產(chǎn)質(zhì)量不良的原因是工藝參數(shù)設(shè)計(jì)或控制有問題:設(shè)計(jì)階段:工藝參數(shù)設(shè)計(jì)有錯(cuò)誤;控制階段:工藝參數(shù)未能控制在設(shè)計(jì)值;上述因素都可通過(guò)生產(chǎn)過(guò)程中工藝參數(shù)的時(shí)間序列實(shí)測(cè)樣本反映出來(lái)。工藝參數(shù)的時(shí)間序列中某些特征的改變,引起生產(chǎn)質(zhì)量從量變到質(zhì)變。時(shí)間序列的特征,可以用模式來(lái)描述。時(shí)間序列的模式改變,是生產(chǎn)質(zhì)量不良的原因。數(shù)據(jù)挖掘的目的,就是要尋找引起生產(chǎn)質(zhì)量不良的工藝參數(shù)模式。 時(shí)間序列的模式抽取目的:將時(shí)間序列樣本集合轉(zhuǎn)換為特征模式樣本集合,每一種模式(或若干種模式的一種組合)用一個(gè)整數(shù)來(lái)編碼,從而將數(shù)據(jù)挖掘的對(duì)象從時(shí)間序列空間轉(zhuǎn)換為整數(shù)空間。 其中,mi 為 xi (t) 所包含的特征模式的集合。注意: mi 不再是時(shí)間序列 mi 可能是多元素的集合,即 xi(t) 可包含多種模式時(shí)間序列的模式抽取時(shí)間序列分析理論中已給出一類模式抽取的方法:根據(jù)時(shí)間序列建立 ARMA模型。或理解為把時(shí)間序列空間映射到 ARMA模型中的參數(shù)空間,也稱為時(shí)間序列的 ARMA特征空間。這一方法的優(yōu)點(diǎn)是:成熟有嚴(yán)密的數(shù)學(xué)基礎(chǔ)缺點(diǎn)是: ARMA特征沒有物理意義,難以據(jù)其改進(jìn)產(chǎn)品質(zhì)量。時(shí)間序列的模式抽。ㄓ形锢硪饬x的)模式抽取問題:給定(有物理意義的)模式集合,尋找時(shí)間序列中存在的模式種類。給定模式集合的方法:有先驗(yàn)知識(shí) —— 根據(jù)先驗(yàn)知識(shí)構(gòu)造與產(chǎn)品質(zhì)量有關(guān)的模式類沒有先驗(yàn)知識(shí) —— 窮舉構(gòu)造所有可能的有物理意義的模式只有部分先驗(yàn)知識(shí) —— 上述兩種方法的組合尋找時(shí)間序列中模式的方法:給出模式的特征給出計(jì)算特征匹配的指標(biāo)在時(shí)間序列中進(jìn)行特征匹配常見的有物理意義的特征模式統(tǒng)計(jì)模式均值、方差(標(biāo)準(zhǔn)差)、最大值、最小值、中間值、局部極值出現(xiàn)頻率趨勢(shì)模式單調(diào)性(單增、單減)、變化性(最大、最小、平均、中值)、凹凸性偏差模式與標(biāo)準(zhǔn)值(設(shè)定值)之間的偏差(最大、最小、平均、中值)累積模式時(shí)間累計(jì)、絕對(duì)值時(shí)間累計(jì)、偏差值時(shí)間累計(jì)、平均值時(shí)間累計(jì)數(shù)據(jù)挖掘的兩種應(yīng)用方式質(zhì)量分類模型的挖掘給定特征模式樣本的集合 {(mi, yi)}i=1,2,,n , 構(gòu)造分類器 f (m),滿足 f (mi) = yi 。在復(fù)雜情況下,可構(gòu)造分類決策樹。這是一個(gè)類別已知( yi, i=1, 2, , n 已知)情況下的分類模型建立問題。質(zhì)量分析結(jié)論的挖掘給定特征模式樣本的集合 {(mi, yi)}i=1,2,,n , 建立質(zhì)量指標(biāo) yi 與特征模式 mi 之間的相關(guān)關(guān)系。該相關(guān)關(guān)系直接作為結(jié)論提供給用戶。一個(gè)示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘生產(chǎn)工藝:間歇式加熱過(guò)程(均熱爐) 一個(gè)示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘質(zhì)量指標(biāo):鋼錠內(nèi)裂影響質(zhì)量的因素(先驗(yàn)知識(shí)):各加熱段之間切換時(shí)溫度變化太快;各加熱段的溫度設(shè)定值相差太大;燃料燃燒不充分;加熱時(shí)間太短;某些鋼種的鋼錠特別容易裂;大型鋼錠比小型鋼錠容易裂。 一個(gè)示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘參加挖掘的工藝參數(shù)(共7個(gè)參數(shù)):爐膛溫度(500℃ — 1700 ℃,采樣周期:1 sec)煙道成分(1% — 10% ,采樣周期:1 min)加熱時(shí)間(0.6 hr — 2.2 hr)鋼錠鋼種(高碳、中碳、低碳、鎮(zhèn)靜、沸騰、硅鋼)鋼錠規(guī)格(0.5 T、 1.0 T、 1.5 T、 2.0 T)燃料流量(1000 m3/hr — 2000 m3/hr ,采樣周期:1 sec)翻板開度(0% — 100%)一個(gè)示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘時(shí)間序列的模式抽取(共10個(gè)特征模式,均有物理意義)爐膛溫度:各加熱段的平均溫度、各加熱段之間的最大溫差、各加熱段內(nèi)的最大溫度波動(dòng);煙道成分:各加熱段的平均煙道氣含氧量;加熱時(shí)間:各加熱段的加熱時(shí)間;鋼錠鋼種:鋼種;鋼錠規(guī)格:規(guī)格;燃料流量:各加熱段的平均流量、各加熱段內(nèi)的最大流量波動(dòng);翻板開度:各加熱段的翻板開度。一個(gè)示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘樣本抽。好考訜嵋粻t鋼錠的生產(chǎn)歷史數(shù)據(jù)記錄為一組樣本。數(shù)據(jù)挖掘步驟:數(shù)據(jù)清洗:去除野值、數(shù)據(jù)平滑(移動(dòng)平均)模式抽。核袠颖靖鞒槿10個(gè)特征模式若用于質(zhì)量預(yù)測(cè):主元分析:去除次要特征模式;分類分析:建立質(zhì)量分類模型(決策樹); 若用于質(zhì)量分析:主元分析:去除次要特征模式;相關(guān)分析:計(jì)算主要特征模式與鋼錠內(nèi)裂之間的相關(guān)度;結(jié)果驗(yàn)證:用測(cè)試樣本集對(duì)挖掘結(jié)果進(jìn)行測(cè)試結(jié)果輸出:輸出質(zhì)量分類決策樹或質(zhì)量相關(guān)分析結(jié)果。 謝謝!39B紅軟基地

大數(shù)據(jù)數(shù)據(jù)挖掘ppt:這是大數(shù)據(jù)數(shù)據(jù)挖掘ppt,包括了大數(shù)據(jù)平臺(tái)生態(tài)系統(tǒng),應(yīng)用與研究,軟件著作權(quán),大數(shù)據(jù)是什么?數(shù)據(jù)挖掘是什么,解決方案-比賽任務(wù)等內(nèi)容,歡迎點(diǎn)擊下載。

數(shù)據(jù)挖掘課件ppt:這是數(shù)據(jù)挖掘課件ppt,包括了華院分析公司簡(jiǎn)介,華院分析為客戶提供數(shù)據(jù)挖掘整體解決方案,華院分析團(tuán)隊(duì)介紹,在中國(guó)移動(dòng)集團(tuán)內(nèi)部的主要工作介紹,虛增放號(hào)與不穩(wěn)定的用戶群體進(jìn)一步增大了銷售成本等內(nèi)容,歡迎點(diǎn)擊下載。

數(shù)據(jù)挖掘ppt王燦:這是數(shù)據(jù)挖掘ppt王燦,包括了電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合,電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù),豐富的記錄信息,“干凈的數(shù)據(jù)”,投資收益容易衡量,對(duì)電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘,Web Usage Mining的作用,Web Usage Mining的基本過(guò)程,課后思考等內(nèi)容,歡迎點(diǎn)擊下載。

PPT分類Classification

Copyright:2009-2024 紅軟網(wǎng) rsdown.cn 聯(lián)系郵箱:rsdown@163.com

湘ICP備2024053236號(hào)-1