
浅析数据挖掘在化学化工中的研究进展论文.docx
4页浅析数据挖掘在化学化工中的研究进展论文随着数据库技术的不断发展,各行各业所积累的数据也越来越多,人们已不能满足数据 表面所提供的信息,并且逐渐开始尝试挖掘出大量数据背后所隐藏的更加有用的信息,数据 挖掘技术便由此应运而生随后,数据挖掘技术便在信息产业和商业服务等领域产生了重大 影响,人们利用数据挖掘技术从所积累的数据库中得到了过去所不可能获取的知识随着数 据挖掘技术取得成效之后,许多不同领域的研究人员也显示出了极大的兴趣自计算机诞生以来,信息技术便不断地推动着化工行业的发展信息化时代的到来,促 进了信息技术和化学工业的进一步结合,为数据挖掘技术在化工领域的应用打下了坚实的基 础随着大数据时代的来临,数据挖掘技术势必会对化学与化工领域产生更加深远、更加全 面的影响近年来,很多研究者针对以往积累的数据,将数据挖掘技术运用到自己的研究课 题中,取得了很多极具应用价值的研究成果本文通过整合近年来数据挖掘技术在化学化工 领域所取得的突破性进展,评述了数据挖掘技术在化工建模、工艺条件的优化、数据库平台 的创建和安全生产等方而的应用1数据挖掘技术数据挖掘技术是智能系统理论的重要内容,同样也是数据库处理的重要的技术手段。
它 是利用关联规则、分类、聚类等分析方法从大量无序的、存在噪声的、冗余的或缺损的数据 中提取出有用的潜在信息,并为进一步的研究提供数据支撑的数据库处理技术数据挖掘技 术的操作流程一般为:信息收集、数据集成、数据预处理、数据挖掘过程、模式评估和知识 表示几个阶段其中数据挖掘过程为该流程的技术核心,运用的主要方法有:统计方法、决 策树、规则推理、模糊集、遗传算法、神经网络、主元分析、偏最小二乘法等2数据挖掘在化学化工中的应用2. 1化工建模的应用化工过程建模一直是化工领域的难点因为在实际过程中,化工过程系统的很多条件因 素具有交互性和严重的非线性,因此化工过程建模具有很大的困难.然而数据挖掘技术具有 丰富的算法,神经网络算法能够以任意精度逼近任意非线性映射,对处理含噪声和非线性数 据具有较大的优势;遗传算法在解决非线性问题时不依赖于问题模型的特性,不仅具有鲁棒 性和全局最优性,还具有高效率和可并行性等特点;主元分析在解决非线性数据时能够做到 数据简化、数据压缩、建模等;偏最小二乘法对多因变量对多自变量的回归建模具有较为明 显的优势孔德根等对18种酚类化合物的量子化学参数进行了优化计算,采用多元线性回归分析 和人工神经网络反传误差算法,研究了酚类化合物对抑制黑曲霉毒性的定量构效关系,并采 用去一法通过对模型的预测能力和稳健性的验证筛选出了最佳的计算模型。
分析表明酚类化 合物的分子体积和苯环上的净电荷增量与其对黑曲客的抑制毒性呈正相关,而最低空轨道能 与黑曲霉的抑制毒性呈负相关该文章的建模方法为评估和预测其他化合物对抑制黑曲霸的 毒性提供了参考林凌等提出了一种针对体表组织内进行的高谱图技术该技术通过对组织内的光谱信息 和图像信息等多元信息进行关联,然后采用数据挖掘技术,对数据和病症进行分析建模通 过该模型挖掘出组织的图像、光谱以及二者交互项与疾病之间的关系,大大提高了临床皮肤 病的诊断精度和准确度还能够有效地改善光谱技术和光学相干层析技术对组织成分和位置 信息探测不足和缺乏系统性、多元性等局限性,为皮肤病的早期诊断提供了技术支撑,并且 对人体内更深层组织以及器官的检测提供了思路Kusiak等通过收集2008〜2010年间甲烷生产的工业数据,对甲烷生产的参数进行了 探究,采用自适应神经模糊推理系统(ANFIS)对甲烷的生产预测进行建模并通过百分比误 差、偏差因子、均方根误差、归一化均方根误差和一致性指数等五个指标对该模型进行了评 估结果表明,利用自适应神经模糊推理系统所建立的模型性能优异,所预测的数据与实测 值显示出了高度的一致性与采用神经网络、支持向量机、随机森林等算法所建立的甲烷生 产预测模型比较也显示出了更好的预测精度。
该模型不仅能够对甲烷的生产过程进行更准确 的模拟和预测,而且能够指导并优化甲烷的生产过程刘天玲等采用主成分分析、局部线性嵌入、支持向量机、偏最小二乘和小波变换五种模 式识别方法,利用NIR技术建立了玉米种子的分类识别模型该模型已成功运用于108玉 米杂交种和母本178种子的识别,而且具有较高的识别精度和分类精度Rommel等提出了 一种基于机器学习算法和电感耦合等离子体质谱法测定有机甘蔗样品真实性的识别模型该 模型可以采用Random Forest和Naive Bayes算法对样品进行分析识别,RandomFores算 法通过检测32个化学元素作为参考,准确率约为90%; Naive Bayes算法只需检测8个化 学元素作为参考,但是准确率却提升到了 95. 4%o此模型能够方便且高效的区分出样品中的 有机甘蔗Sabanci等则使用UCI机器学习数据库分别运用KNN、Naive Bayes、J48和多层 感知器的数据集等数据挖掘算法建立了种子物种分类的数学模型并成功运用于小麦种子的 分类,当神经元数目为7时,分类成功的准确率约为97. 174 9%, MAE误差和均方根误差分 别为0. 029 8和0. 118 1,显示出较好的分类识别效果。
2. 2优化工艺条件的应用数据挖掘能从海量的交互、高维、无序的自变量数据库中发现潜在的且能够导向因变量 的有用信息.并且能够对特定的因变量借助分类决策树算法、聚类算法和分类树算法等对多 维无序的自变量进行择优利用数据挖掘的这一特点,可以对化工工艺条件进行优化将多 维、非线性的工艺条件作为自变量,特定的工艺结果作为因变量采用不同的算法进行优化, 直至找到最佳的工艺条件姜求宇等运用数据挖掘技术实现了对固相合成纳米氧化银工艺参 数的优化通过均匀设计方法分析了多因素对纳米氧化银透光率的影响,并对实验结果进行 了逐步回归分析和最优化计算,最终得到固相合成纳米氧化银的最优工艺参数,在该条件下 得到的氧化银的收率为95. 5%,平均粒径在7 nmo该方法对科研工作中的小型的数据库的 工艺条件的优化处理具有较强的实用性周永生等针对生化企业的复杂性和所产生的数据的无序性、交互性等特点提出了带有确 定性决策项的关联规则挖掘算法相较于传统的关联规则挖掘算法,该算法从环境因子和环 境因子数据项的关系入手,减少了无关频繁项目集的产生,缩短了算法的运行时间,提高了 算法的运行效率该算法对生化企业生产环境的优化具有很好的适应性。
同年,该算法已成 功的运用于发酵法生产柠檬酸的实验中,并能够较快的得到高转化率和高总酸量的优化生产环境该算法的提出有利于提高生化企业优化工艺参数的效率和准确性He等通过对基因组进行数据挖掘,找出了在甘露醇作为底物的条件下,NADH还原酶 (PgCR)对4-氯乙酰乙酸乙酯(COBE)还原成(S) -4-氯-3-羟基丁酸乙酯((S) -CHBE)具 有较高的催化活性和优良的立体选择性并对其反应条件进行了优化,在反应温度为30 反应pH 为 7,底物甘露醇为 2. 5 mmol /mmol COBE, NAD + 为 0. 1 Mmol /( mmol COBE), 细胞用量为1 g /mL时,CHBE的产量可达到99队高对映体过量值99%,郭羽婷等以吉林 大学“无机制备与合成化学国家重点实验室”所建立的开放骨架磷酸铝合成反应数据库为研 究对象,采用MWMR算法,探究了溶剂、模板剂等合成参数对于开放骨架磷酸铝合成的影响 该研究成果对含有(8, 6)元环结构开放竹架磷酸铝定向合成参数的优化具有一定的指导意 义2. 3数据库平台的应用数据库是指支持管理决策过程的、集成的、交互的一个数据集合它是对大量无序、非 线性的数据通过聚类、关联、模糊集、最大权重和最小冗余等特征算法等整合的信息系统。
通过一个直观的、简洁的人机交互界而,人们可以方便的查找与分析各种数据之间的关联, 并且在查询的条件中引入模糊偏好,使得搜索的结果更具有灵活性因而通过数据挖掘技术 对收集的数据进行关联、聚类,建立化工数据库或开发化工应用软件,也是数据挖掘技术在 化学化工领域的一个应用热点杨善升等运用数据挖掘技术,开发了一种适用于合成级过程优化和监测的应用软件该 软件集成了模式识别、人工智能、统计学习理论等多种优化方法,具有操作简单、功能强大 和适应性强等特点而且该软件已成功运用于云南云维集团有限公司合成氨过程的生产优化 中,并取得了良好的效果Peng等基于J2EE通过对中药中有效成分的信息进行归纳、总结、关联、聚类等研究建 立了中药有效成分化合物的数据库通过该数据库可以方便研究者对药物的化学性质和药理 性质有一个系统的认识,并且通过各类化合物的化学性质与药理性质的关联与聚类,有助于 研究者进行新药的开发Ghadbeigi等对200个出版刊物中锂离子电池材料进行了数据挖 掘,整合并创建了包括各类电池材料的超过16 000个数据的锂离子电池的大型数据库该 数据库不仅包含了电极材料的关键性能参数,如能量密度、功率密度、放电容量等,还对相 关电极材料的资源分布和储量等信息也进行了分析。
利用该数据库不仅可以分析出阴极材料 和阳极材料所具有的特性,而且根据对不同材料性能的挖掘,有助于研究人员探索新型的锂 离子电极材料肖建茂等利用数据挖掘技术探究了各种锂离子电池材料的物理化学性质与材 料组成和组织结构等的关系,并根据材料基因工程的基本思想通过高通量第一性原理构建了 锂电池材料设计的技术平自该平台通过数据挖掘可以总结出性能优良的锂离子电池材料的 结构特性,有助于新型锂离子电池材料的探索和现有材料的改性研究2. 4安全生产的应用化工厂是安全事故频发的一类企业,控制安全事故的传统办法小心防范和密切监控只能 被动的对安全事故进行排查,对安全事故的控制效果不佳随着数据挖掘技术的不断发展, 使得化工厂在安全事故的管控方而占据主动成为了可能数据挖掘技术提供了模糊集理论、主观Bayes算法等不确定性推理方法,来对事故原因和事故征兆之间具有的模糊性和随机性 等不确定关系进行研究根据化工厂存储的大量的运行数据,通过数据挖掘技术的特定算法, 挖掘出各个事故征兆对结论的支持度,得到相应地征兆权值,进而计算出相应的阀限值通 过采集到的事故征兆的多少,根据合理的规则可信度公式,改变规则可信度,从而对生产进 行监控并对潜在的危险进行预测。
曹顺安针对火电厂的水汽化学过程的故障的诊断方法的缺乏,利用FP_growth算法设冲 了一种基于可信度理论的诊断模型该模型不仅适用性较广,而且对故障具有较强的识别能 力,能够在故障初期征兆尚未完全出现、某些次要征兆值未能获取等情况下,对可能会发生 的故障进行识别,并作出警告这对于火电厂的安全生产具有十分重要的意义Cheng等通过对2000〜2010年之间在台湾发生的349例石化行业的重大职业事故进 行了数据挖掘技术的分类和回归树分析,并对事故的分布和发生的原因以及事故的频发点进 行了统计学分析认为对于石化行业,天气的变化、材料结构的缺陷、内部材料温度和压力 的变化、人们的疏忽等都会导致安全事故的发生故因对事故的频发点定期进行风险评估, 制造商也应该提高机械和设备入口点的安全和保护装置,高危作业的施工人员也应当定期进 行安全教育培训李鹏等运用数据挖掘技术对中国石油化工股份有限公司的催化裂化装置所积累的海量数 据进行深入探索研究与分析,解决催化裂化装置报警问题、结焦问题和收率问题,进一步提 高了催化裂化装置运行能力,并取得了良好的经济收益和社会效益石荣雪等通过对文献数 据库进行大数据分析,挖掘出了国内因锅炉化学水工况选取不当而造成事故情况,并进行了 数据分析,确定了一些常见锅炉机组的最适化学水工况,并给出了相应的建议。
对国内锅炉 安全生产具有一定的参考价值3结束语自20世纪90年代以来,。
