
大创申报书样本.docx
8页XXXX大学大学生创新训练计划项目申报书项目名称 基于XXXXXXX 的研究与实现一、项目研究的目的和主要研究内容研究目的:随着大数据时代的到来,教育数据正如漂浮在海岸的冰,第一眼只能看到冰山一角,绝 大部分都隐藏在表面之下而发掘教育数据价值以及政府教育数据海洋的“动力”就是教育 数据挖掘但是随着教育数据挖掘技术的不断深入,教育数据的多元化、不确定性、非关系 性和网络化使得传统数据库软件工具的捕捉、储存、管理和分析成为了教育数据挖掘的一大 难题针对高校教育中存在的学生质量参差不齐、专业课程存在差异、学生学习行为复杂且不 统一以及高校教学数据库中的累计的数据巨大而教育从业者能获得的即时信息极少的现状, 项目组通过运用教育数据挖掘的知识的学习和研究,通过对学生成绩、课程安排、学习 时段以及时长等学生行为进行分析处理,挖掘出数据中隐藏信息,用于对学生个体以及整体 的预测和聚类,对学生的潜在学习方向和能力定位,提高学生的学习效率和明确学生的学习 方向,为教育者更好地进行个性化教学提供帮助主要研究内容:1、 教育数据挖掘的实际应用研究针对高校的教育数据分析的现状,研究讨论开发平 台的需求和设计方案。
2、 数据获取通过网络爬虫的方式采集数据,并保存到服务器,服务器对数据进行初 步处理、保存数据3、 数据筛选为了获得针对性的训练集数据,需要从爬取的众多数据中寻找出需要的 数据4、 数据预处理筛选后的数据进行预处理操作,删除明显错误、补全数据等保证数据 的完整性,方便后续模型功能的实现5、 高校学生学习行为分类模型的建立朴素贝叶斯模型具有良好的分类正确率和效率, 使其在诸多领域中表现出良好的性能,尤其在数据挖掘和人工智能方面有着广泛的应用,但 是由于传统朴素贝叶斯分类模型忽略了属性间依赖关系造成了分类准确性降低为此建立了 基于属性加权的改进模型6、 基于贝叶斯神经网络的预测模型的建立通过对朴素贝叶斯的优化,采用贝叶斯神 经网络可以实现预测和分类,通过贝叶斯神经网络的模型构建实现对于教育数据的预测,使 得分类和预测相结合,挖掘出更多对于教育者和学生可用的信息7、 高校学生学习行为分析模型建立通过分类和预测的相互结合,通过预处理后的数 据进行分析处理,输出需要的训练结果,完成高校学生分析平台模型的建立8、 软件开发开发包括数据输入、数据分析和结果呈现为一体的软件平台,设计前台、 后台及数据库,实现数据录入、数据分析,并将数据进行汇总,采用图、表等直观形式呈现 统计预测结果。
二、国、内外研究现状和发展动态1、国内外研究现状大数据是近年来快速发展的技术领域关于大数据的研究与应用与日俱增,并不断深入 影响社会生活2016年3月,AlphaGo与李世石的人机大战,让人们从更深层次上认识了大 数据驱动下的人工智能对人类社会的深层影响,根据大数据版图3.0版本的描绘,大数据相 关基础设施、分析工具和应用系统都在快速发展中在教育领域,大数据已经在多方面引起了研究者和实践者的关注,教育大数据正在成为 教育领域不可忽视的新型驱动力,在教育教学研究与实践中发挥着越来越重要的作用目前,国外教育数据挖掘研究主要涉及到理论探索和方法介绍的描述性研究、可行性分 析论证研究、教育数据挖掘方法的具体应用等方面,如美国将教育数据应用到医疗、保险、 户籍等多个方面,通过数据的关联分析与挖掘为用户提供精准服务国外对新兴技术与新媒 体应用于教学的研究呈多元化趋势,而这些研究也推动了一系列教育应用的发展,国外对于 教育数据开放的研究相对成熟,从法律到基础设施都相对完善相对国外而言,国内对大数据的研究处于起步阶段,国内教育大数据研究主要集中在教 育教学改革、教学模式及应用、教育数据分析和个性化学习研究、人才培养、教师专业发展 等方面,主要侧重于理论层面的探索以及对国外案例介绍。
基于数据挖掘技术在成绩预测上 的运用在国内仍不是特别成熟,相应的软件平台更是少之又少2、发展动态在教育大数据日趋瞩目的今天,分析教育大数据的定义内涵、实践范例、发展趋势与面 临挑战,有助于我们把握教育大数据的整体图景,顺应技术发展,推动教育的系统化变革我国教育大数据领域正处于起步阶段,教育大数据研究与应用的发展需要将大数据技术 与教育领域进行深度融合在“互联网+”时代,为了更好地应对教育大数据所面临的一系 列挑战,教育主管部门可以推动教育大数据方面的相关法律、法规的制定,划定边界,明晰 责权,建立更加全面的教育数据标准,为国家层面的大规模数据共享和分析奠定基础;以学 校为代表的教育机构,可以提升数据驱动教学与管理的意识,构建综合数据采集环境,并建 立数据管理与应用机制;一些研究机构可以将教育科学与数据科学紧密结合,开展多学科协 同研究,并注重研究成果的转化;公司、企业则可以从教学与管理的整体流程出发,设计与 开发多元化产品,并根据教育需求提供灵活可扩展的定制化服务,从而共同促进教育大数据 的健康发展,更好地服务于教育事业三、项目的创新点和特色1、 学生行为和表现的相互结合现有对于教育数据挖掘的高校学生分析系统更多的是针对学生的表现进行挖掘分析,学 生的表现主要包括了学生的课程成绩、课程安排、考勤记录等进行分析。
对于学生的行为进行 分析的平台少之又少,所以通过行为模型和表现模型相互结合的方式,可以更加立体的对学生 的情况的了解和分析,便于模型做出正确的分类和预测2、 基于属性加权的贝叶斯分类改进模型的建立和应用在实际情况下,属性对于分类的影响效果不一定是相同的,并且可能存在一些对于分类结 果影响力及其小的属性对于分类的效率和准确性的影响,利用了属性分组的方式和属性加权 相结合的方式,提出了基于属性加权的朴素贝叶斯分类模型,通过此种方式可以反映出各属性 对于分类的权重,并显著提高分类模型的性能将改进后的模型应用到平台的实际开发中,提 高分类的效率和准确性3、 多技术综合应用1)通过对相关文献的收集和研究后,形成了本项目的研究目的和研究思路,初步选定了 数据挖掘的方法和流程2) 对大学生的学习成绩进行处理,抽取专业相关的课程,对数据进行预处理,将连续的 成绩数据进行量化,转换成离散属性,以便于进行数据挖掘及关联规则的研究3) 通过应用教育数据挖掘中的预测和分类技术相结合的方式,形成了项目的整体框架和 功能实现4) 对于模型输出结果,通过Python库等方式进行可视化处理,便于分析和查看4. 信息推送为了用户可以更加便捷的获取高校分析平台的结果,系统还设计了信息推送的功能,便于 用户可以登陆网站便可以得到消息推送。
4.开发高校学生行为分析平台目前虽然有许多对教育大数据关联规则挖掘技术研究的报道,但都局限于报告和文献,数 据孤立,说服力差本项目开发一个集数据输入、数据分析和结果呈现为一体的软件平台,有 利于高校相关人员掌握第一手资料和数据四、技术路线、拟解决的问题及预期成果(_).技术路线1)教育数据准备(数据收集阶段)为了对高校大学生在校期间的表现进行建模并进行预测和分类,需要收集大学生在校的 学习表现、学习行为的具体数据通过对网站网页内容的大量数据,用于建立合适的模型,并 保存到现有的数据库中具体网页爬虫的流程图如下所示图1爬虫流程图2)数据预处理阶段为了能够获得需求分析的训练集,需要对爬虫所获得数据进行筛选处理,从众多数据中 筛选出符合所需的数据,此过程可以称之为简单的数据挖掘数据筛选的过程既可以操作数 据库实现,也可以通过编码自动实现,若筛选的数据量较小,则操作数据库相对方便简洁; 若筛选的数据量较大,则可以借助编程来实现自动筛选对筛选出的数据进行预处理,删除 明显错误、不全的数据,对简录、少录且能补上的数据进行增补,以保证数据的完整性,之 后对数据进行重新分类,做到条例清楚,已被后续数据转换之用。
在本次研究中,需要利用数理统计、数据挖掘或预定义的清理规则对学生成绩原始数据 进行重新审查和校验,删除重复信息、纠正存在的错误和残缺的数据,将脏数据转化为满足 数据质量要求的数据,提供数据一致性对学生源数据文件中的缺失的数据处理在学生属性的项目成绩中,将值为NULL的数 据,均用统一的数值进行替换,使得数据保持一致,达到清理的目的错误值的检测及解决方法用统计分析的方法识别学生相关属性可能的错误值或异常 值,如偏差分析、识别不遵守分布或回归方程的值,同时用简单规则库(常识性规则、业务 特定规则等)检查学生成绩中各个属性的数据值,或使用不同属性间的约束、外部的数据来 检测和清理数据学生源数据中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等 来检测记录是否相等,相等的学生属性记录合并为一条记录不一致性(数据源内部及数据源之间)的检测及解决方法从学生数据源集成的数据可 能有语义冲突,可定义完整性约束用于检测不一致性,通过分析学生成绩数据发现联系,使 数据类型保持一致;数据清洗工具使用教育领域特有的知识对数据作清洗;采用语法分析和 模糊匹配技术完成对学生成绩数据源数据的清理;使用数据审计工具通过扫描学生成绩数据 发现规律和联系。
3) 数据转换将预处理后的数据依照数据挖掘变量的格式要求进行组合变换对于预测分析而言,甚 至需要对字符进行赋值操作,将其转化为数值变量,进而参与数据挖掘预测模型的建立对 分类而言,则不需要对字符变量进行定量话操作,仅需要对变量进行归类有时数据转化结 果的好坏对教育数据挖掘的结果具有较大的影响4) 基于属性加权的贝叶斯分类模型的建立对于训练集中的先验概率的计算采用拉普拉斯校准进行0点优化然后计算属性组合的 斯皮尔曼系数,对于相关性大的组合进行属性融合,更新数据集求出各类的先验概率和类 条件概率;采用属性加权的方法来进行加权,提高分类的准确率;最后采用改进后的算法进 行分类5) 基于贝叶斯神经网络的预测模型的建立贝叶斯神经网络的建模过程中,首先融入模型参数的先验知识,在给定数据样本以及模 型假设下进行后验概率的贝叶斯推理,使用马尔可夫链蒙特卡洛算法来优化模型控制参数, 实现对神经网络模型不同部分复杂度的可控制,获得模型参数的后验分布以及预测模型6) 高校学生分析平台模型建立通过分类和预测模型的相互结合,通过预处理后的数据进行分析处理,输出需要的训练 结果,完成高校学生分析平台模型的建立7) 数据呈现使用Python的Pandas,Seaborn等工具包,将相关结论可视化,以柱状图、条形图、散 点图等多种方式呈现。
二).拟解决的问题1. 反爬策略策略的限制当同一 IP短时间内多次搜索相关主题,会被要求填写验证码,是爬虫收到限制无法继 续爬取,需要建立相关代理池,使用代理池内的IP随机访问2. 爬虫数据抓取条数限制使用爬虫抓取网页数据单词抓取条数的限制,为了获得更加完整的数据,丰富数据的种 类,需要调整抓取策略,按照年限以年为单位抓取,取消之前的一次性抓取,分批次多次采 集3. 处理结果的图形化显示将模型处理后的输出结果,通过使用E-Chart的可视化技术,将结论以图形化的形式进 行展示4. 系统易扩展和可兼容采用可定制化设计,系统呈现可根据需求定制呈现,便于系统扩展其他行业应用三).预期成果1、 申请1 -2个软件著作权2、 核心论文1篇3、 基于教育数据挖掘的高校学生行为分析平台软件五、项目研究进度安排1.年度研究计划及预期进展(1) 2019年1月-2月:完成对前期研究成果的整理和完善,进一步调研相关文献,建 立下一步研究工作的思路和计划2) 2019年3月-4月:完成系统的需求分析整理和仿真原型设计3) 2019年3。












