好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据仓库与数据挖掘综述.ppt

81页
  • 卖家[上传人]:汽***
  • 文档编号:590072951
  • 上传时间:2024-09-12
  • 文档格式:PPT
  • 文档大小:968.52KB
  • / 81 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 数据仓库与数据挖掘综述数据仓库与数据挖掘综述概念、体系结构、趋势、应用概念、体系结构、趋势、应用报告人:朱建秋报告人:朱建秋报告人:朱建秋报告人:朱建秋 20012001年年年年6 6月月月月7 7日日日日 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据仓库概念数据仓库概念vv基本概念基本概念vv对数据仓库的一些误解对数据仓库的一些误解 基本概念基本概念—数据仓库数据仓库vvData warehouse is a subject oriented, Data warehouse is a subject oriented, Data warehouse is a subject oriented, Data warehouse is a subject oriented, integrated,non-volatile and time variant integrated,non-volatile and time variant integrated,non-volatile and time variant integrated,non-volatile and time variant collection of datacollection of datacollection of datacollection of data in support of in support of in support of in support of managementmanagementmanagementmanagement’ ’s decision s decision s decision s decision ———— [ [ [ [InmonInmonInmonInmon,1996],1996],1996],1996]. . . .vvData warehouse is Data warehouse is Data warehouse is Data warehouse is a set of methods, a set of methods, a set of methods, a set of methods, techniques,and toolstechniques,and toolstechniques,and toolstechniques,and tools that may be leveraged that may be leveraged that may be leveraged that may be leveraged together to produce a vehicle that delivers together to produce a vehicle that delivers together to produce a vehicle that delivers together to produce a vehicle that delivers data to end-users on an integrated platform data to end-users on an integrated platform data to end-users on an integrated platform data to end-users on an integrated platform ———— [ [ [ [LadleyLadleyLadleyLadley,1997],1997],1997],1997]. . . .vvData warehouse is Data warehouse is Data warehouse is Data warehouse is a processa processa processa process of crating, of crating, of crating, of crating, maintaining,and using a decision-support maintaining,and using a decision-support maintaining,and using a decision-support maintaining,and using a decision-support infrastructure infrastructure infrastructure infrastructure ———— [Appleton,1995][Haley,1997][Gardner 1998].[Appleton,1995][Haley,1997][Gardner 1998].[Appleton,1995][Haley,1997][Gardner 1998].[Appleton,1995][Haley,1997][Gardner 1998]. 基本概念基本概念—数据仓库特征数据仓库特征[ [InmonInmon,1996],1996]vv面向主题面向主题面向主题面向主题n n一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;定单处理;应收帐目;应付帐目;定单处理;应收帐目;应付帐目;定单处理;应收帐目;应付帐目;……))))n n典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目n n主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现n n相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号Customer IDCustomer ID))))n n每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期……))))n n主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)vv集成集成集成集成n n数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载vv稳定性稳定性稳定性稳定性n n批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改变vv随时间而变化(时间维)随时间而变化(时间维)随时间而变化(时间维)随时间而变化(时间维)vv管理决策支持管理决策支持管理决策支持管理决策支持 基本概念基本概念—Data Mart, ODSvvData MartData Martn n数据集市数据集市数据集市数据集市 -- -- -- -- 小型的,面向部门或工作组级小型的,面向部门或工作组级小型的,面向部门或工作组级小型的,面向部门或工作组级数据仓库。

      数据仓库数据仓库数据仓库vvOperation Data StoreOperation Data Storen n操作数据存储操作数据存储操作数据存储操作数据存储 —— ODSODSODSODS是能支持企业日常的全是能支持企业日常的全是能支持企业日常的全是能支持企业日常的全局应用的数据集合局应用的数据集合局应用的数据集合局应用的数据集合, , , ,是不同于是不同于是不同于是不同于DBDBDBDB的一种新的数的一种新的数的一种新的数的一种新的数据环境据环境据环境据环境, , , , 是是是是DW DW DW DW 扩展后得到的一个混合形式扩展后得到的一个混合形式扩展后得到的一个混合形式扩展后得到的一个混合形式四个基本特点:面向主题的四个基本特点:面向主题的四个基本特点:面向主题的四个基本特点:面向主题的( ( ( (Subject -Subject -Subject -Subject -Oriented)Oriented)Oriented)Oriented)、、、、集成的、可变的、集成的、可变的、集成的、可变的、集成的、可变的、 当前或接近当前或接近当前或接近当前或接近当前的。

      当前的 基本概念基本概念—ETL, 元数据,粒度,分割元数据,粒度,分割vvETLn nETLETL((((Extract/Transformation/LoadExtract/Transformation/Load))))——数据装载、转数据装载、转数据装载、转数据装载、转换、抽取工具换、抽取工具换、抽取工具换、抽取工具Microsoft DTS; IBM Visual Microsoft DTS; IBM Visual Warehouse etc.Warehouse etc.vv元数据元数据n n关于数据的数据,关于数据的数据,关于数据的数据,关于数据的数据,用于构造、维持、管理、和使用数据用于构造、维持、管理、和使用数据用于构造、维持、管理、和使用数据用于构造、维持、管理、和使用数据仓库,仓库,仓库,仓库,在数据仓库中尤为重要在数据仓库中尤为重要在数据仓库中尤为重要在数据仓库中尤为重要vv粒度粒度n n数据仓库的数据单位中保存数据的细化或综合程度的级数据仓库的数据单位中保存数据的细化或综合程度的级数据仓库的数据单位中保存数据的细化或综合程度的级数据仓库的数据单位中保存数据的细化或综合程度的级别。

      细化程度越高,粒度越小细化程度越高,粒度越小细化程度越高,粒度越小细化程度越高,粒度越小vv分割分割n n数据分散到各自的物理单元中去,它们能独立地处理数据分散到各自的物理单元中去,它们能独立地处理数据分散到各自的物理单元中去,它们能独立地处理数据分散到各自的物理单元中去,它们能独立地处理 对数据仓库的一些误解对数据仓库的一些误解vv数据仓库与数据仓库与OLAPn n星型数据模型星型数据模型星型数据模型星型数据模型n n多维分析多维分析多维分析多维分析vv数据仓库不是一个虚拟的概念数据仓库不是一个虚拟的概念vv数据仓库与范式理论数据仓库与范式理论n n需要非范式化处理需要非范式化处理需要非范式化处理需要非范式化处理 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据仓库体系结构及组件数据仓库体系结构及组件vv体系结构体系结构vvETL工具工具vv元数据库元数据库(Repository)及元数据管理及元数据管理vv数据访问和分析工具数据访问和分析工具 体系结构体系结构 [ [PieterPieter ,1998 ,1998] ]SourceDatabasesData Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisEnd-UserDW ToolsCentral DataWarehouseCentral DataWarehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeMDBDataCleansingToolRelationalAppl. PackageLegacyExternalRDBMSRDBMS 带带ODS的体系结构的体系结构SourceDatabasesHub - Data Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisCentral Data Ware-house and ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl. PackageLegacyExternalMDBEnd-UserDW Tools 现实环境现实环境—异质性异质性[ [Douglas Hackney ,2001Douglas Hackney ,2001] ]CustomCustomMarketingMarketingData Data WarehouseWarehousePackagedPackagedOracle Oracle FinancialFinancialData Data WarehouseWarehousePackagedPackagedI2 Supply ChainI2 Supply ChainNon- Non- ArchitectedArchitectedData MartData MartSubsetSubsetData MartsData MartsOracle FinancialsOracle Financialsi2 Supply Chaini2 Supply ChainSiebelSiebel CRM CRM3 3rd Partyrd Partye-Commercee-Commerce 联合型数据仓库联合型数据仓库/数据集市体系结构数据集市体系结构Real TimeReal TimeODSODSFederatedFederatedFinancialFinancialData Data WarehouseWarehouseSubsetSubsetData MartsData MartsCommonCommonStagingStagingAreaAreaOracle FinancialsOracle Financialsi2 Supply Chaini2 Supply ChainSiebelSiebel CRM CRM3 3rd Partyrd PartyFederatedFederatedPackagedPackagedI2 SupplyI2 SupplyChainChainData MartsData MartsAnalyticalAnalyticalApplicationsApplicationse-Commercee-CommerceReal TimeReal TimeData MiningData Miningand Analyticsand AnalyticsReal TimeReal TimeSegmentation,Segmentation,Classification, Classification, Qualification,Qualification,Offerings, etc.Offerings, etc.FederatedFederatedMarketingMarketingData Data WarehouseWarehouse ETL tools & DW ETL tools & DW templatestemplatesData profiling & Data profiling & reengineering toolsreengineering toolsDemand-driven data Demand-driven data acquisition & analysisacquisition & analysisMetadata InterchangeMetadata InterchangeFederated data Federated data warehouse and data warehouse and data mart systemsmart systemsDecision engine Decision engine models, rules and models, rules and metricsmetricsOLAP & data mining OLAP & data mining tools, tools, Analysis templatesAnalysis templatesAnalytic application Analytic application development tools & development tools & componentscomponentsAnalytic applicationsAnalytic applicationsFront- and back-Front- and back-office OLTPoffice OLTPe-Business e-Business systemssystemsExternal information External information providersprovidersCRM CRM Analytics & Analytics & ReportingReportingSupply Chain Supply Chain Analytics & Analytics & ReportingReportingEKP - Enterprise EKP - Enterprise Knowledge Knowledge Management PortalManagement PortalEPM EPM Analytics & Analytics & ReportingReportingBusiness Business information & information & recommendationsrecommendationsInformed Informed decisions decisions & actions& actionsFinancial Financial Analytics & Analytics & ReportingReportingHR Analytics HR Analytics & Reporting& Reporting闭环的联合型闭环的联合型BI体系结构体系结构 数据仓库的焦点问题数据仓库的焦点问题-数据的获得、存储和使用数据的获得、存储和使用数据的获得、存储和使用数据的获得、存储和使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse DatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolvv数据仓库和集市的加载能力至关重要数据仓库和集市的加载能力至关重要vv数据仓库和集市的查询输出能力至关重数据仓库和集市的查询输出能力至关重要要 ETL工具工具vv去掉操作型数据库中的不需要的数据去掉操作型数据库中的不需要的数据vv统一转换数据的名称和定义统一转换数据的名称和定义vv计算汇总数据和派生数据计算汇总数据和派生数据vv估计遗失数据的缺省值估计遗失数据的缺省值vv调节源数据的定义变化调节源数据的定义变化 ETL工具体系结构工具体系结构 元数据库及元数据管理元数据库及元数据管理vv元元数数据据分分类类::技技术术元元数数据据;;商商业业元元数数据据;;数据仓库操作型信息。

      数据仓库操作型信息[ -[Alex Alex Berson Berson etc, 1999etc, 1999] ]vv技术元数据技术元数据n n包包包包括括括括为为为为数数数数据据据据仓仓仓仓库库库库设设设设计计计计人人人人员员员员和和和和管管管管理理理理员员员员使使使使用用用用的的的的数数数数据据据据仓仓仓仓库库库库数数数数据信息,用于执行数据仓库开发和管理任务包括:据信息,用于执行数据仓库开发和管理任务包括:据信息,用于执行数据仓库开发和管理任务包括:据信息,用于执行数据仓库开发和管理任务包括:n n数据源信息数据源信息数据源信息数据源信息n n转换描述(从操作数据库到数据仓库的映射方法,以转换描述(从操作数据库到数据仓库的映射方法,以转换描述(从操作数据库到数据仓库的映射方法,以转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)及转换数据的算法)及转换数据的算法)及转换数据的算法)n n目标数据的仓库对象和数据结构定义目标数据的仓库对象和数据结构定义目标数据的仓库对象和数据结构定义目标数据的仓库对象和数据结构定义n n数据清洗和数据增加的规则数据清洗和数据增加的规则数据清洗和数据增加的规则数据清洗和数据增加的规则n n数据映射操作数据映射操作数据映射操作数据映射操作n n访问权限,备份历史,存档历史,信息传输历史,数访问权限,备份历史,存档历史,信息传输历史,数访问权限,备份历史,存档历史,信息传输历史,数访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等据获取历史,数据访问,等等据获取历史,数据访问,等等据获取历史,数据访问,等等 元数据库及元数据管理元数据库及元数据管理vv  商业元数据商业元数据n n给用户易于理解的信息,包括:给用户易于理解的信息,包括:给用户易于理解的信息,包括:给用户易于理解的信息,包括:n n主题区和信息对象类型,包括查询、报表、图像、音主题区和信息对象类型,包括查询、报表、图像、音主题区和信息对象类型,包括查询、报表、图像、音主题区和信息对象类型,包括查询、报表、图像、音频、视频等频、视频等频、视频等频、视频等n nInternetInternet主页主页主页主页n n支持数据仓库的其它信息,例如对于信息传输系统包支持数据仓库的其它信息,例如对于信息传输系统包支持数据仓库的其它信息,例如对于信息传输系统包支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业括预约信息、调度信息、传送目标的详细描述、商业括预约信息、调度信息、传送目标的详细描述、商业括预约信息、调度信息、传送目标的详细描述、商业查询对象,等查询对象,等查询对象,等查询对象,等vv数据仓库操作型信息数据仓库操作型信息n n例如,数据历史(快照,版本),拥有权,抽取的审例如,数据历史(快照,版本),拥有权,抽取的审例如,数据历史(快照,版本),拥有权,抽取的审例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法计轨迹,数据用法计轨迹,数据用法计轨迹,数据用法 元数据库及元数据管理元数据库及元数据管理vv元数据库(元数据库(metadata repository))和工具和工具 — — [ [Martin Martin StardtStardt,,,,20002000] ] 数据访问和分析工具数据访问和分析工具vv报表报表vvOLAPvv数据挖掘数据挖掘 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据仓库设计数据仓库设计vv自上而下(自上而下(Top-Down))vv自底而上(自底而上(Bottom Up))vv混合的方法混合的方法vv数据仓库建模数据仓库建模 Top-down ApproachvBuild Enterprise data warehouseHCommon central data modelHData re-engineering performed onceHMinimize redundancy and inconsistencyHDetailed and history data; global data discoveryvBuild datamarts from the Enterprise Data Warehouse (EDW)HSubset of EDW relevant to departmentHMostly summarized dataHDirect dependency on EDW data availabilityLocal Data MartLocal Data MartExternal DataLocal Data MartOperational DataEnterprise Warehouse 自底而上设计方法自底而上设计方法创建部门的数据集市创建部门的数据集市n范围局限于一个主题区域n快速的 ROI -- 局部的商业需求得到满足H本部门自治 -- 设计上具有灵活性H对其他部门数据集市是一个好的指导H容易复制到其他部门 H需要为每个部门做数据重建H有一定级别的冗余和不一致性H一个切实可行的方法一个切实可行的方法v扩大到企业数据仓库扩大到企业数据仓库n创建EDB作为一个长期的目标局部数据集市局部数据集市外部数据外部数据操作型数据操作型数据 (全部全部)操作型数据操作型数据(局部局部)操作型数据操作型数据(局部局部)局部数据集市局部数据集市企业数据仓库企业数据仓库EDB 数据仓库建模数据仓库建模 — 星型模式星型模式vvExample of Star SchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore 数据仓库建模数据仓库建模 — 雪片模式雪片模式 DateMonthDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStorevvExample of Snowflake Schema 操作型(操作型(OLTP))数据源数据源 --- 销售库销售库 星形模式星形模式时间维时间维事实表事实表 多维模型多维模型事实事实度量度量(Metrics)时间维时间维时间维的属性时间维的属性 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据仓库技术数据仓库技术 — [ [InmonInmon,,,,1996]1996]1.1.1.1.管理大量数据管理大量数据管理大量数据管理大量数据n n能够管理大量数据的能力能够管理大量数据的能力能够管理大量数据的能力能够管理大量数据的能力n n能够管理好的能力能够管理好的能力能够管理好的能力能够管理好的能力2.2.2.2.管理多介质(层次)管理多介质(层次)管理多介质(层次)管理多介质(层次)n n主存、扩展内存、高速缓存、主存、扩展内存、高速缓存、主存、扩展内存、高速缓存、主存、扩展内存、高速缓存、DASDDASDDASDDASD、、、、光盘、缩微胶片光盘、缩微胶片光盘、缩微胶片光盘、缩微胶片3.3.3.3.监视数据监视数据监视数据监视数据n n决定是否应数据重组决定是否应数据重组决定是否应数据重组决定是否应数据重组n n决定索引是否建立得不恰当决定索引是否建立得不恰当决定索引是否建立得不恰当决定索引是否建立得不恰当n n决定是否有太多数据溢出决定是否有太多数据溢出决定是否有太多数据溢出决定是否有太多数据溢出n n决定剩余的可用空间决定剩余的可用空间决定剩余的可用空间决定剩余的可用空间4.4.4.4.利用多种技术获得和传送数据利用多种技术获得和传送数据利用多种技术获得和传送数据利用多种技术获得和传送数据n n批模式,联机模式并不非常有用批模式,联机模式并不非常有用批模式,联机模式并不非常有用批模式,联机模式并不非常有用5.5.5.5.程序员程序员程序员程序员/ / / /设计者对数据存放位置的控制(块设计者对数据存放位置的控制(块设计者对数据存放位置的控制(块设计者对数据存放位置的控制(块/ / / /页)页)页)页)6.6.6.6.数据的并行存储数据的并行存储数据的并行存储数据的并行存储/ / / /管理管理管理管理7.7.7.7.元数据管理元数据管理元数据管理元数据管理 数据仓库技术数据仓库技术 — [ [InmonInmon,,,,1996]1996]8.8.8.8.数据仓库语言接口数据仓库语言接口数据仓库语言接口数据仓库语言接口n n能够一次访问一组数据能够一次访问一组数据能够一次访问一组数据能够一次访问一组数据n n能够一次访问一条记录能够一次访问一条记录能够一次访问一条记录能够一次访问一条记录n n支持一个或多个索引支持一个或多个索引支持一个或多个索引支持一个或多个索引n n有有有有SQLSQLSQLSQL接口接口接口接口9.9.9.9.数据的高效装入数据的高效装入数据的高效装入数据的高效装入10.10.10.10.高效索引的利用高效索引的利用高效索引的利用高效索引的利用n n用位映像的方法、多级索引等用位映像的方法、多级索引等用位映像的方法、多级索引等用位映像的方法、多级索引等11.11.11.11.数据压缩数据压缩数据压缩数据压缩n nI/OI/OI/OI/O资源比资源比资源比资源比CPUCPUCPUCPU资源少得多,因此数据解压缩不是主要问题资源少得多,因此数据解压缩不是主要问题资源少得多,因此数据解压缩不是主要问题资源少得多,因此数据解压缩不是主要问题12.12.12.12.复合键码(因为数据随时间变化)复合键码(因为数据随时间变化)复合键码(因为数据随时间变化)复合键码(因为数据随时间变化)13.13.13.13.变长数据变长数据变长数据变长数据14.14.14.14.加锁管理(程序员能显式控制锁管理程序)加锁管理(程序员能显式控制锁管理程序)加锁管理(程序员能显式控制锁管理程序)加锁管理(程序员能显式控制锁管理程序)15.15.15.15.单独索引处理(查看索引就能提供某些服务)单独索引处理(查看索引就能提供某些服务)单独索引处理(查看索引就能提供某些服务)单独索引处理(查看索引就能提供某些服务)16.16.16.16.快速恢复快速恢复快速恢复快速恢复 数据仓库技术数据仓库技术 — [ [InmonInmon,,,,1996]1996]17.17.17.17.其他技术特征,传统技术起很小作用其他技术特征,传统技术起很小作用其他技术特征,传统技术起很小作用其他技术特征,传统技术起很小作用n n事务集成性、高速缓存、行事务集成性、高速缓存、行事务集成性、高速缓存、行事务集成性、高速缓存、行/ / / /页级锁定、参照完整性、数据视图页级锁定、参照完整性、数据视图页级锁定、参照完整性、数据视图页级锁定、参照完整性、数据视图18.18.18.18.传统传统传统传统DBMSDBMSDBMSDBMS与数据仓库与数据仓库与数据仓库与数据仓库DBMSDBMSDBMSDBMS区别区别区别区别n n为数据仓库和决策支持优化设计为数据仓库和决策支持优化设计为数据仓库和决策支持优化设计为数据仓库和决策支持优化设计n n管理更多数据:管理更多数据:管理更多数据:管理更多数据:10101010GB/100GB/TBGB/100GB/TBGB/100GB/TBGB/100GB/TBn n传统传统传统传统DBMSDBMSDBMSDBMS适合记录级更新,提供:锁定适合记录级更新,提供:锁定适合记录级更新,提供:锁定适合记录级更新,提供:锁定LockLockLockLock、、、、提交提交提交提交CommitCommitCommitCommit、、、、检测点检测点检测点检测点CheckPointCheckPointCheckPointCheckPoint、、、、日志处理日志处理日志处理日志处理LogLogLogLog、、、、死锁处理死锁处理死锁处理死锁处理DeadLockDeadLockDeadLockDeadLock、、、、回退回退回退回退 RoolbackRoolbackRoolbackRoolback. . . .n n基本数据管理,如:块管理,传统基本数据管理,如:块管理,传统基本数据管理,如:块管理,传统基本数据管理,如:块管理,传统DBMSDBMSDBMSDBMS需要预留空间需要预留空间需要预留空间需要预留空间n n索引区别:传统索引区别:传统索引区别:传统索引区别:传统DBMSDBMSDBMSDBMS限制索引数量,数据仓库限制索引数量,数据仓库限制索引数量,数据仓库限制索引数量,数据仓库DBMSDBMSDBMSDBMS没有限制没有限制没有限制没有限制n n通用通用通用通用DBMSDBMSDBMSDBMS物理上优化便于事务访问处理,而数据仓库便于物理上优化便于事务访问处理,而数据仓库便于物理上优化便于事务访问处理,而数据仓库便于物理上优化便于事务访问处理,而数据仓库便于DSSDSSDSSDSS访问分析访问分析访问分析访问分析19.19.19.19.改变改变改变改变DBMSDBMSDBMSDBMS技术技术技术技术20.20.20.20.多维多维多维多维D D D DBMSBMSBMSBMS和数据仓库和数据仓库和数据仓库和数据仓库n n多维多维多维多维DBMSDBMSDBMSDBMS作为数据仓库的数据库技术,这种想法是不正确的作为数据仓库的数据库技术,这种想法是不正确的作为数据仓库的数据库技术,这种想法是不正确的作为数据仓库的数据库技术,这种想法是不正确的n n多维多维多维多维DBMSDBMSDBMSDBMS((((OLAPOLAPOLAPOLAP))))是一种技术,数据仓库是一种体系结构的基础是一种技术,数据仓库是一种体系结构的基础是一种技术,数据仓库是一种体系结构的基础是一种技术,数据仓库是一种体系结构的基础21.21.21.21.双重粒度级别(双重粒度级别(双重粒度级别(双重粒度级别(DASD/DASD/DASD/DASD/磁带)磁带)磁带)磁带) 数据仓库技术数据仓库技术 — [ [InmonInmon,,,,1996]1996]22.22.22.22.数据仓库环境中的元数据数据仓库环境中的元数据数据仓库环境中的元数据数据仓库环境中的元数据n nDSSDSSDSSDSS分析人员和分析人员和分析人员和分析人员和ITITITIT专业人员不同,需要元数据的帮助专业人员不同,需要元数据的帮助专业人员不同,需要元数据的帮助专业人员不同,需要元数据的帮助n n操作型环境和数据仓库环境之间的映射需要元数据操作型环境和数据仓库环境之间的映射需要元数据操作型环境和数据仓库环境之间的映射需要元数据操作型环境和数据仓库环境之间的映射需要元数据n n数据仓库包含很长时间的数据,必须有元数据标记数据结构数据仓库包含很长时间的数据,必须有元数据标记数据结构数据仓库包含很长时间的数据,必须有元数据标记数据结构数据仓库包含很长时间的数据,必须有元数据标记数据结构/ / / /定义定义定义定义23.23.23.23.上下文和内容(上下文维)上下文和内容(上下文维)上下文和内容(上下文维)上下文和内容(上下文维)n n简单上下文信息(数据结构简单上下文信息(数据结构简单上下文信息(数据结构简单上下文信息(数据结构/ / / /编码编码编码编码/ / / /命名约定命名约定命名约定命名约定/ / / /度量)度量)度量)度量)n n复杂上下文信息(产品定义复杂上下文信息(产品定义复杂上下文信息(产品定义复杂上下文信息(产品定义/ / / /市场领域市场领域市场领域市场领域/ / / /定价定价定价定价/ / / /包装包装包装包装/ / / /组织结构)组织结构)组织结构)组织结构)n n外部上下文信息(经济预测:通货膨胀、金融、税收外部上下文信息(经济预测:通货膨胀、金融、税收外部上下文信息(经济预测:通货膨胀、金融、税收外部上下文信息(经济预测:通货膨胀、金融、税收/ / / /政治信息政治信息政治信息政治信息/ / / /竞争信竞争信竞争信竞争信息息息息/ / / /技术进展)技术进展)技术进展)技术进展)24.24.24.24.刷新数据仓库刷新数据仓库刷新数据仓库刷新数据仓库n n数据复制(触发器)数据复制(触发器)数据复制(触发器)数据复制(触发器)n n变化数据捕获(变化数据捕获(变化数据捕获(变化数据捕获(CDCCDCCDCCDC)()()()(日志)日志)日志)日志) 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据仓库性能数据仓库性能 — [— [InmonInmon, 1999], 1999]vv使用使用vv数据数据vv平台平台vv服务管理服务管理王天佑王天佑王天佑王天佑 等译,《数据仓库管理》,等译,《数据仓库管理》,等译,《数据仓库管理》,等译,《数据仓库管理》, 电子工业出电子工业出电子工业出电子工业出版社,版社,版社,版社,20002000年年年年5 5月月月月 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据仓库应用数据仓库应用 — DW用户数的调查用户数的调查“DW系统的用户系统的用户在在100-500以内或以上以内或以上是未来一段时期内是未来一段时期内的主要部分的主要部分“DW用户用户的调查的调查最近一年最近一年Meta Group Survey调查对象:调查对象:3000+ 用户或意向用户用户或意向用户 DW数据规模的调查数据规模的调查DW规模的调查规模的调查最近一年最近一年Meta Group Survey调查对象:调查对象:3000+ 用户或意向用户用户或意向用户 How Much?vv$3-6m for mid-size company, less if smaller, more if largervv$10m+ for large organizations, large data setsvv10-50+% annual maintenance costsvv33% Hardware / 33% Software / 33% Services How Long?vv2-4 years for 80/20 of full system for mid-size companyvv6-12 months for initial iterationvv3-6 months for subsequent iterations How Risky?vvFor EDW Projects, 20% (Meta) to 70% (OTR, For EDW Projects, 20% (Meta) to 70% (OTR, DWN) failDWN) failvvHigh failure rate for non-business driven High failure rate for non-business driven initiativesinitiativesvvVery few systems meet the expectations of Very few systems meet the expectations of the businessthe businessvvFailure not due to technology, due to “soft” Failure not due to technology, due to “soft” issuesissuesvvMassive upside to successful projects (100% Massive upside to successful projects (100% - 2000+% ROI)- 2000+% ROI)vv99% 99% politics - 1% technologypolitics - 1% technology 参考文献参考文献vvInmonInmon,W.H.,” Building the Data Warehouse” ,,W.H.,” Building the Data Warehouse” ,JohmJohm Wiley and Sons,1996. Wiley and Sons,1996.vvLadleyLadley,John,”Operational Data Stores:Building an Effective Strategy”,Data ,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:warehouse:Pratical Pratical Advice form the Experts,Prentice Hall,Englewood Advice form the Experts,Prentice Hall,Englewood Cliffs,NJ,1997.Cliffs,NJ,1997.vvGardmerGardmer,Stephen R., “Building the Data warehouse”,Communication of ACM, ,Stephen R., “Building the Data warehouse”,Communication of ACM, September 1998, Volume 41, September 1998, Volume 41, Numver Numver 9, 52-60.9, 52-60.vvDouglas Hackney , Http:// Douglas Hackney , Http:// , DW101: A Practical Overview, 2001, DW101: A Practical Overview, 2001vv PieterPieter R. R. MimnoMimno, “The Big Picture - How Brio Competes in the Data , “The Big Picture - How Brio Competes in the Data Warehousing Market”, Presentation to Brio Technology - August 4, 1998.Warehousing Market”, Presentation to Brio Technology - August 4, 1998.vvAlex Alex BersonBerson, Stephen Smith, Kurt , Stephen Smith, Kurt TherlingTherling, “Building Data Mining Application , “Building Data Mining Application for CRM”, McGraw-Hill, 1999for CRM”, McGraw-Hill, 1999vvMartin Martin StardtStardt, , Anca VaduvaAnca Vaduva, Thomas , Thomas VetterliVetterli, “The Role of Meta for Data , “The Role of Meta for Data Warehouse”, 2000Warehouse”, 2000vvW.H.W.H.InmonInmon, Ken , Ken RudinRudin, Christopher K. Buss, Ryan Sousa, “Data Warehouse , Christopher K. Buss, Ryan Sousa, “Data Warehouse Performance”, John Wiley & Sons , 1999Performance”, John Wiley & Sons , 1999 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据挖掘应用综述数据挖掘应用综述vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台数据挖掘应用平台 数据挖掘应用概述数据挖掘应用概述vv应用比例应用比例vvData Mining UpsidesvvData Mining DownsidesvvData Mining UsevvData Mining Industry and ApplicationvvData Mining Costs 应用比例应用比例Clustering Clustering 22%22%Direct Marketing Direct Marketing 14% 14% Cross-Sell Models Cross-Sell Models 12% 12% m 2001/6/11 News 2001/6/11 News vvDiscovery of previously unknown relationships, trends, anomalies, etc. vvPowerful competitive weaponvvAutomation of repetitive analysisvvPredictive capabilitiesData Mining Upsides vvKnowledge discovery technology immaturevvLong learning and tuning cycles for some technologiesvv“Black box” technology minimizes confidencevvVLDB (Very Large Data Base) requirementsData Mining Downsides Data Mining UsesvvDiscover anomalies, outliers and exceptions in process datavvDiscover behavior and predict outcomes of customer relationshipsn nChurn managementChurn managementn nTarget marketing (market of one)Target marketing (market of one)n nPromotion managementPromotion managementn nFraud detectionFraud detectionvvPattern ID & matching (dark programs, science) Data Mining Industry and ApplicationsvvFrom research prototypes to data mining products, languages, and standardsn nIBM Intelligent Miner, SAS Enterprise Miner, SGI IBM Intelligent Miner, SAS Enterprise Miner, SGI MineSetMineSet, , ClementineClementine, MS/, MS/SQLServerSQLServer 2000, 2000, DBMinerDBMiner, , BlueMartiniBlueMartini, , MineItMineIt, , DigiMineDigiMine, etc., etc.n nA few data mining languages and standards (esp. A few data mining languages and standards (esp. MS OLEDB for Data Mining).MS OLEDB for Data Mining).vvApplication achievements in many domainsn nMarket analysis, trend analysis, fraud detection, Market analysis, trend analysis, fraud detection, outlier analysis, Web mining, etc.outlier analysis, Web mining, etc. Data Mining CostsvvDesktop tools: $500 and up (MSFT coming at low price point)vvServer / MF based: $20,000 to $700,000+vvMust also add cost of extensive consulting for high end toolsvvDon’t forget long training and learning curve timevvOngoing process, not task automation software 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据挖掘趋势数据挖掘趋势vv历史回顾历史回顾vv多学科交叉多学科交叉vv数据挖掘从多个角度分类数据挖掘从多个角度分类vv最近十年的研究进展最近十年的研究进展vv数据挖掘的趋势数据挖掘的趋势vv数据挖掘与标准化进程数据挖掘与标准化进程 历史回顾历史回顾vv1989 1989 IJCAI Workshop on Knowledge Discovery in IJCAI Workshop on Knowledge Discovery in Databases Databases n nKnowledge Discovery in Databases (G. Knowledge Discovery in Databases (G. PiatetskyPiatetsky-Shapiro and W. -Shapiro and W. FrawleyFrawley, , 1991)1991)vv1991-1994 Workshops on Knowledge Discovery in 1991-1994 Workshops on Knowledge Discovery in DatabasesDatabasesn nAdvances in Knowledge Discovery and Data Mining (U. Advances in Knowledge Discovery and Data Mining (U. FayyadFayyad, G. , G. PiatetskyPiatetsky- -Shapiro, P. Smyth, and R. Shapiro, P. Smyth, and R. UthurusamyUthurusamy, 1996), 1996)vv1995-1998 International Conferences on Knowledge 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98)Discovery in Databases and Data Mining (KDD’95-98)n nJournal of Data Mining and Knowledge Discovery (1997)Journal of Data Mining and Knowledge Discovery (1997)vv1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD Explorationsand SIGKDD ExplorationsvvMore conferences on data miningMore conferences on data miningn nPAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaKDaWaK, SPIE-DM, etc., SPIE-DM, etc. Data Mining: Confluence of Multiple Disciplines Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning (AI)Visualization A Multi-Dimensional View of Data MiningvvDatabases to be minedDatabases to be minedn nRelational, transactional, object-relational, active, spatial, time-Relational, transactional, object-relational, active, spatial, time-series, text, multi-media, heterogeneous, legacy, WWW, etc.series, text, multi-media, heterogeneous, legacy, WWW, etc.vvKnowledge to be minedKnowledge to be minedn nCharacterization, discrimination, association, classification, Characterization, discrimination, association, classification, clustering, trend, deviation and outlier analysis, etc.clustering, trend, deviation and outlier analysis, etc.vvTechniques utilizedTechniques utilizedn nDatabase-oriented, data warehouse (OLAP), machine learning, Database-oriented, data warehouse (OLAP), machine learning, statistics, visualization, neural network, etc.statistics, visualization, neural network, etc.vvApplications adaptedApplications adaptedn nRetail, telecommunication, banking, fraud analysis, DNA mining, stock Retail, telecommunication, banking, fraud analysis, DNA mining, stock market analysis, Web mining, market analysis, Web mining, WeblogWeblog analysis, etc. analysis, etc. Research Progress in the Last DecadevvMulti-dimensional data analysis: Data warehouse Multi-dimensional data analysis: Data warehouse and OLAP (on-line analytical processing)and OLAP (on-line analytical processing)vvAssociation, correlation, and causality analysisAssociation, correlation, and causality analysisvvClassification: scalability and new approachesClassification: scalability and new approachesvvClustering and outlier analysisClustering and outlier analysisvvSequential patterns and time-series analysisSequential patterns and time-series analysisvvSimilarity analysis: curves, trends, images, texts, Similarity analysis: curves, trends, images, texts, etc.etc.vvText mining, Web mining and Text mining, Web mining and WeblogWeblog analysis analysisvvSpatial, multimedia, scientific data analysisSpatial, multimedia, scientific data analysisvvData preprocessing and database compressionData preprocessing and database compressionvvData visualization and visual data miningData visualization and visual data miningvvMany others, e.g., collaborative filteringMany others, e.g., collaborative filtering Research Directions — [Han J. W. , 2001]— [Han J. W. , 2001]vvWeb miningvvTowards integrated data mining environments and toolsn n“Vertical” (or application-specific) data mining “Vertical” (or application-specific) data mining n nInvisible data miningInvisible data miningvvTowards intelligent, efficient, and scalable data mining methods Towards Integrated Data Mining Environments and ToolsvvOLAP Mining: Integration of Data OLAP Mining: Integration of Data Warehousing and Data MiningWarehousing and Data MiningvvQuerying and Mining: An Integrated Querying and Mining: An Integrated Information Analysis EnvironmentInformation Analysis EnvironmentvvBasic Mining Operations and Mining Query Basic Mining Operations and Mining Query OptimizationOptimizationvv“Vertical” (or application-specific) data “Vertical” (or application-specific) data mining mining vvInvisible data miningInvisible data mining Querying and Mining: An Integrated Information Analysis EnvironmentvvData mining as a component of DBMS, data Data mining as a component of DBMS, data warehouse, or Web information systemwarehouse, or Web information systemn nIntegrated information processing environmentIntegrated information processing environment• •MS/MS/SQLServerSQLServer-2000 (Analysis service)-2000 (Analysis service)• •IBM IBM IntelligentMiner IntelligentMiner on DB2on DB2• •SAS SAS EnterpriseMinerEnterpriseMiner: data warehousing + mining: data warehousing + miningvvQuery-based miningQuery-based miningn nQuerying database/DW/Web knowledgeQuerying database/DW/Web knowledgen nEfficiency and flexibility: preprocessing, on-line processing, Efficiency and flexibility: preprocessing, on-line processing, optimization, integration, etc.optimization, integration, etc. “Vertical” Data MiningvvGeneric data mining tools? —Too simple to Generic data mining tools? —Too simple to match domain-specific, sophisticated match domain-specific, sophisticated applicationsapplicationsn nExpert knowledge and business logic represent many years of Expert knowledge and business logic represent many years of work in their own fields!work in their own fields!n nData mining + business logic + domain expertsData mining + business logic + domain expertsvvA multi-dimensional view of data minersA multi-dimensional view of data minersn nComplexity of data: Web, sequence, spatial, multimedia, … Complexity of data: Web, sequence, spatial, multimedia, … n nComplexity of domains: DNA, astronomy, market, telecom, …Complexity of domains: DNA, astronomy, market, telecom, …vvDomain-specific data mining toolsDomain-specific data mining toolsn nProvide concrete, killer solution to specific problemsProvide concrete, killer solution to specific problemsn nFeedback to build more powerful toolsFeedback to build more powerful tools Invisible Data MiningvvBuild mining functions into daily information Build mining functions into daily information servicesservicesn nWeb search engine (link analysis, authoritative pages, user Web search engine (link analysis, authoritative pages, user profiles)—adaptive web sites, etc.profiles)—adaptive web sites, etc.n nImprovement of query processing: history + dataImprovement of query processing: history + datan nMaking service smart and efficientMaking service smart and efficientvvBenefits from/to data mining researchBenefits from/to data mining researchn nData mining research has produced many scalable, Data mining research has produced many scalable, efficient, novel mining solutionsefficient, novel mining solutionsn nApplications feed new challenge problems to researchApplications feed new challenge problems to research Towards Intelligent Tools for Data MiningvvIntegration paves the way to intelligent Integration paves the way to intelligent miningminingvvSmart interface brings intelligence Smart interface brings intelligence n nEasy to use, understand and manipulateEasy to use, understand and manipulatevvOne picture may worth 1,000 wordsOne picture may worth 1,000 wordsn nVisual and audio data miningVisual and audio data miningvvHuman-Centered Data MiningHuman-Centered Data MiningvvTowards self-tuning, self-managing, self-Towards self-tuning, self-managing, self-triggering data miningtriggering data mining Integrated Mining: A Booster for Intelligent MiningvvIntegration paves the way to intelligent miningIntegration paves the way to intelligent miningn nData mining integrates with DBMS, DW, Data mining integrates with DBMS, DW, WebDBWebDB, etc, etcn nIntegration inherits the power of up-to-date information Integration inherits the power of up-to-date information technology: querying, MD analysis, similarity search, etc.technology: querying, MD analysis, similarity search, etc.n nMining can be viewed as querying database knowledgeMining can be viewed as querying database knowledgevvIntegration leads to standard Integration leads to standard interface/language, function/process interface/language, function/process standardization, utility, and standardization, utility, and reachabilityreachabilityvvEfficiency and scalability bring intelligent Efficiency and scalability bring intelligent mining to realitymining to reality 数据挖掘与标准化进程数据挖掘与标准化进程vvCRISP—DMn n过程标准化过程标准化过程标准化过程标准化((((CRossCRoss-Industry Standard Process -Industry Standard Process for Data Miningfor Data Mining))))vvXMLn n与数据预处理相结合与数据预处理相结合与数据预处理相结合与数据预处理相结合vvSOAP((Simple Object Access Protocol ))n n数据库与系统互操作的标准数据库与系统互操作的标准数据库与系统互操作的标准数据库与系统互操作的标准vvPMMLn n预言模型交换标准预言模型交换标准预言模型交换标准预言模型交换标准vvOLE DB For Data Miningn n数据挖掘系统基于数据挖掘系统基于数据挖掘系统基于数据挖掘系统基于APIAPI的接口的接口的接口的接口 提纲提纲vv数据仓库概念数据仓库概念vv数据仓库体系结构及组件数据仓库体系结构及组件vv数据仓库设计数据仓库设计vv数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)vv数据仓库性能数据仓库性能vv数据仓库应用数据仓库应用vv数据挖掘应用概述数据挖掘应用概述vv数据挖掘技术与趋势数据挖掘技术与趋势vv数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目) 数据挖掘应用平台数据挖掘应用平台vv项目最终目标项目最终目标vv研究内容(含系统结构、层次等)研究内容(含系统结构、层次等)vv技术路线和实现方法技术路线和实现方法vv关键技术分析关键技术分析vv成果形式和考核指标成果形式和考核指标 项目最终目标(项目最终目标(1))vv一年内,研究数据挖掘技术,实现数据挖掘一年内,研究数据挖掘技术,实现数据挖掘一年内,研究数据挖掘技术,实现数据挖掘一年内,研究数据挖掘技术,实现数据挖掘主要算法,开发出拥有自主知识产权并具有主要算法,开发出拥有自主知识产权并具有主要算法,开发出拥有自主知识产权并具有主要算法,开发出拥有自主知识产权并具有扩充性好、便于应用的特点的数据挖掘应用扩充性好、便于应用的特点的数据挖掘应用扩充性好、便于应用的特点的数据挖掘应用扩充性好、便于应用的特点的数据挖掘应用平台,建立一套规范实用的数据挖掘实际应平台,建立一套规范实用的数据挖掘实际应平台,建立一套规范实用的数据挖掘实际应平台,建立一套规范实用的数据挖掘实际应用方法论用方法论用方法论用方法论 项目最终目标(项目最终目标(2))vv所研究的数据挖掘技术达到国际先进水平所研究的数据挖掘技术达到国际先进水平vv实现主要的数据挖掘算法,如关联规则、聚实现主要的数据挖掘算法,如关联规则、聚集、分类等集、分类等vv所开发的数据挖掘应用平台拥有自主知识产所开发的数据挖掘应用平台拥有自主知识产权,并具有扩充性好,便于应用的特点权,并具有扩充性好,便于应用的特点vv所建立的数据挖掘应用的方法论规范实用所建立的数据挖掘应用的方法论规范实用 研究内容研究内容vv层次结构层次结构n n数据挖掘数据挖掘数据挖掘数据挖掘 + + 商业逻辑商业逻辑商业逻辑商业逻辑 + + 行业应用行业应用行业应用行业应用vv可扩展性的体系结构可扩展性的体系结构vv软件结构软件结构vv数据挖掘平台的应用数据挖掘平台的应用n n针对行业的解决方案针对行业的解决方案针对行业的解决方案针对行业的解决方案n n软件开发商二次开发软件开发商二次开发软件开发商二次开发软件开发商二次开发 层次结构:层次结构:数据挖掘数据挖掘数据挖掘数据挖掘 + + 商业逻辑商业逻辑商业逻辑商业逻辑 + + 行业应用行业应用行业应用行业应用数据挖掘算法层商业逻辑层行业应用层数据挖掘应用平台数据挖掘应用平台 可扩展性的体系结构可扩展性的体系结构数据挖掘应用平台数据挖掘应用平台探索数据仓库模型库行业应用知识数据挖掘应用服务器数据挖掘应用服务器信息系统信息系统行业客户端行业客户端 软件结构软件结构vv供数据挖掘使用的数据仓库供数据挖掘使用的数据仓库vvETL工具工具vv数据挖掘应用服务器数据挖掘应用服务器vv数据挖掘应用服务器管理平台数据挖掘应用服务器管理平台vv针对行业的分析平台针对行业的分析平台 数据挖掘平台的应用:数据挖掘平台的应用:针对行业的解决方案针对行业的解决方案针对行业的解决方案针对行业的解决方案信息系统数据源针对行业的数据挖掘应用模型使用 数据挖掘平台的应用数据挖掘平台的应用:软件开发商二次开发软件开发商二次开发信息系统数据源软件产品:MIS、ERP、CRM……模型使用原来的软件产品增加数据挖掘决策支持模块 技术路线和实现方法技术路线和实现方法阶段一阶段一阶段二阶段二阶段三阶段三 关键技术分析关键技术分析vv商业模型在数据仓库中的实现商业模型在数据仓库中的实现 vv商业模型可视化研究商业模型可视化研究vv模型平滑地嵌入其他应用(模型平滑地嵌入其他应用(ERPERP,,CRMCRM))vvETL((抽取、转换、装载)工具的研制抽取、转换、装载)工具的研制 vv挖掘算法与商业模型之间的映射关系挖掘算法与商业模型之间的映射关系 vv数据挖掘算法的优化数据挖掘算法的优化 Any Questions?Zhujianqiu@ 。

      点击阅读更多内容
      相关文档
      2025国开山东开大《土质学与土力学》形成性考核123答案+终结性考核答案.docx 中学综合素质知识点梳理【中学教师资格证】.docx 2025国开山东开大《特许经营概论》形成性考核123答案+终结性考核答案.doc 2025年高考英语全国一卷真题(含答案).docx 2025国开山东《农民专业合作社创建与管理》形成性考核123答案+终结性考核答案.docx 2025国开山东开大《自然现象探秘》形成性考核123答案+终结性考核答案.docx 2025国开山东《消费心理学》形成性考核123答案+终结性考核答案.doc 2025国开山东《小微企业管理》形成性考核123答案+终结性考核答案.doc 2025国开山东开大《资本经营》形成性考核123答案+终结性考试答案.docx 2025国开山东《小学生心理健康教育》形考123答案+终结性考试答案.docx 2025国开《视频策划与制作》形考任务1-4答案.docx 2025国开《亲子关系与亲子沟通》形考任务234答案+期末大作业答案.docx 2025国开电大《煤矿地质》形成性考核123答案.docx 2025国开电大《冶金原理》形考任务1234答案.docx 2025国开《在线学习项目运营与管理》形考任务1234答案.doc 2025国开电大《在线教育的理论与实践》阶段测验1-4答案.docx 2024 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 环保工程师---2023 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 2025国开《液压与气压传动》形考任务一参考答案.docx 2025年春江苏开放大学教育研究方法060616计分:形成性作业2、3答案.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.