WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据).docx
5页WEKA对wisconsin-breast-cancer数据挖掘分析报告数据集实验采用UCI数据集中的Wisconsin医学院的William H.Wolberg博士提供的乳 腺 癌的数 据样本 (http://archive.ics.uci.edu/ml/machineTearning- databases/breast-cancer-wisconsin/)所有数据来自真实临床案例,每个案例有10 个属性其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测 指标最正常,10表示最不正常第十个属性是分类属性,指示该肿瘤是否为恶性数据 集中的肿瘤性质是通过活检得出的结果肿块厚度细胞大小的均匀性细胞形状的均匀性 边缘粘性单上皮细胞的大小裸核乏味染色体正常核有丝分裂肿瘤性质 该数据集共有669个实例Clump_Thickness integer [1,10]Cell_Size_Uniformity integer [1,10]Cell_Shape_Uniformity integer [1,10]Marginal_Adhesion integer [1,10]Single_Epi_Cell_Size integer [1,10]Bare_Nuclei integer [1,10]Bland_Chromatin integer [1,10]Normal_Nucleoli integer [1,10]Mitoses integer [1,10]Class { benign, malignant}本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉weka软 件的操作使用,并尝试挖掘数据中的实际价值。
分类中,尝试用前九个属性值来预测肿 瘤的性质(良性、恶性);聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特 征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性二、分类1. 数据预处理将Wisconsin-breast-cancer数据集分割为两个,分别作为train set (469个)和test set (200 个)2. 实验过程用j48分类树对train set进行分类运算,结果如下:Cl uai£L«x 'O'utpube 1.口口 isci 匚rK3.ci.i r>a ■■■ c==C&CE--G'CT:ly! 1C lc-d 工lbs 匚4 8012E.LQ24Hnun =*£*•■ ut: 1 y CLa a1 f 1-heL 工 *LflS.BOTE1Efappa statl 5T1O:■打EE4Ro-z-'t DH*n> 3'flicco-Era. i e 4 eFe abs口LLtbe erro-rL4,31B7Bjaor ielarlve err口工3^asassJo-ral WLinl:亡三 of In.9T:an.ces, 1*ecI Ely £]_.巴 9 ===7P RAra ELar-BP 细亡 11F-M4a.sur4RDC JlmnCl SiSa::.AST 口-口3D.-9B口 . D37d..口 -”T6寻7Db9S3a .977口石丘0- Confusion Matrix表明有13例良性肿瘤 被错位的归类为恶性(4.5%);有6例恶性肿瘤被错误的归类为良性(3.1%)将以上模型应用于test set以检验预测准确率,运行结果如下:CLu-sifiuf 口口i^Lit=Evaluation 口 n test a-st A=吕ma如工丫 =■CDE-recrly Classified Io=icaj3.cea19E954InDorreurLy Claaslfl-ed Instances2iKappa i 匚D・Mean aiz-EDLuLe tira-E-D・0291ELt mean aqiiEred =rroz-aeLariVr! iabJcLuie ±r:ror6.5359Root relffitiv?! squalid erroi21r3S21电T-atal Ksmb-ez sf I"31 aace?20D=== De tai Led 上匸匸 uca 匚# By Cltaja =rP Rote FP RatePreciaRecallF-MecijutcROC Are-aClfll3 3a.937 01OuSa?0.994a .997i oaai30,5-57iDr?7Sd r 557TTWllflnarLtW=igh.b=日 Avg. 0.99 0.0D30.99ELMa. as?= CcKifusioa Hatrixa b C-- classified154 2 I a = benlgti0 丽 I b - malignanT结果表明,预测准确率达到了 99%。 Confusion Matrix表示有2例良性肿瘤被错误 的归类为恶性(1.3%);而恶性肿瘤均被正确分类3.结果分析'=7 勺丁 ^=3' 匕•翠首先,通过检验,j48方法通过训练集生成的决策树对肿瘤性质的预测准确率可以 稳定在较高水平,因此可以将此模型用于临床诊断这对于因医疗条件不佳而不能进行 活检或病灶位置不易进行活检的病人来说具有较高的实用价值其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性”“裸核”属性的关联度较 高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏味染色体”“有丝分 裂”对肿瘤良、恶性的诊断几乎没有参考意义这表明在日常诊断中,若受医疗条件和 治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施最后,通过对Confusion Matrix的分析可知,该模型存在两类错误:将良性误诊为 恶性、将恶性误诊为良性这两类错误都是应该极力避免的,第一类错误可能导致病人 情绪低落、不配合治疗,最终导致病情恶化;第二类错误可能导致治疗方案的错误,过 于激进的治疗可能适得其反很难评判这两类错误哪种更为严重,但模型的结果表明, 犯第二类错误的概率较低,特别在测试集中,准确率达到了100%。 三、聚类1. 数据预处理由于聚类中对于离散属性将显示其众数,不利于了解数值结构,所以将Class属性类 型由Nominal转换为Numeric用0表示benign,即良性;1表示malignant,即恶性这 样各个簇中的数值越接近1,表明该簇中恶性肿瘤比例越高2. 实验过程用SimplekMeans算法,设置参数numClusters=5, seed=50进行聚类运算,得到结果 如下:Nuxioer IveraLlansi 22WLchla cluaMit aim of ssjuaMd errorss 193,5S3850 9B52088 MLsslng valuta rrplactd with mtan/TiDdeCluster ee-ntcsi-ds eCLuirP-TJilcJmsasCel L_S l zt^nltcizinL 匚主, Ce L L_Sh.npe-_ITn.if Dimity 赳■二 g jjHiak L_JL-ah-5iciiS Lnal«_Eci_C*ll_S i ze Bare□:TuslelBL and_jCJiraffia cln Norirai_Nucl coll HLED3ESCLSJ3SS17)(2531«1LO)[LSD,41775,05864,0871,24477,15457.2234.3S291-27271.12234.4SLSS.3232„2£1741.4191.21284.79-06*60694x17651*3430i.iaes4-3455«-55733*31£52*035Glu97313-66364.5036« 5-947"5251.2495!.・ 3L537・ 9D5匚.33244.11752,04351,9947^,5455€,■3313Z.Sfi-75.41LB1-18131,06333,77Z71"€133.5S94L.1TS5L.£] 2771.1OLL1.77273.274S.3^40□11FllLL Data 0143Tlie talreri w build modsl[full training tLatn)DrOa aecQn<13===JMod-=L and e^va L action, on t:匚je.ini.ng s-et ===ClL15teZ-=d Id? tOK 匚匕手0 L7〔 2 时1 Z53 [我码3 LSB [ 271)3 LIO (4 131 ( ISi?3.结果分析上述聚类结果共有五个簇,而且恰巧Class属性的均值均为整数,这表明每一个簇中 的各实例的肿瘤性质相同。 0:这一簇中各属性偏离正常值的成都相对较高,但肿瘤性质为良性这种情况仅有17个实例,表明该情况出现的概率很低1 :除“肿块厚度”这一属性外,其他指标都很正常,肿瘤性质为良性这种情况有 253个实例,甚至超过了 “典型良性”簇中的实例数,这表明“肿块厚度”这一属性 要较大程度偏离正常值才可能对应恶性肿瘤2:我们可以称这一簇为“典型良性”,其各属性偏离正常程度都很低3:除“肿块厚度”“裸核”外,其他属性值都不是很高,但肿瘤性质为恶性这种 情况占比约为所有恶性肿瘤患者一半4:这一簇可称为“典型恶性”,几乎每一个属性都很不正常,然而只有约一半的恶 性肿瘤患者属于这种情况根据聚类分析结果,可以帮助医生针对可能的几种发病情况,制定不同的治疗计划 另外,对各个簇所占比例的研究可以帮助医药工作者更好地了解乳腺癌症状的分布四、关联规则1. 数据预处理为使用Apriori算法,将前九个属性数据类型改为离散型使用 filter中的NumericToNominal 方法将 integer [1,10]离散化为{1,2,3,4,5,6,7,8,9,10}2. 实验过程首先选用置信度作为衡量参数,设置接受的最小参数值为0.8,结果如下:Beat rules zound:1 . Normal_Nuc-le□ 1 i —1 Class-*k>enigri 402 —> Ei。

卡西欧5800p使用说明书资料.ppt
锂金属电池界面稳定化-全面剖析.docx
SG3525斩控式单相交流调压电路设计要点.doc
话剧《枕头人》剧本.docx
重视家风建设全面从严治党治家应成为领导干部必修课PPT模板.pptx
黄渤海区拖网渔具综合调查分析.docx
2024年一级造价工程师考试《建设工程技术与计量(交通运输工程)-公路篇》真题及答案.docx
【课件】Unit+3+Reading+and+Thinking公开课课件人教版(2019)必修第一册.pptx
嵌入式软件开发流程566841551.doc
生命密码PPT课件.ppt
爱与责任-师德之魂.ppt
制冷空调装置自动控制技术讲义.ppt


