好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于大数据文本聚类关联的网络招聘信息挖掘.doc

15页
  • 卖家[上传人]:cl****1
  • 文档编号:428597019
  • 上传时间:2023-12-31
  • 文档格式:DOC
  • 文档大小:198.50KB
  • / 15 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 教学单位湖北工程学院学生**7本科毕业论文(设计)题  目基于大数据文本聚类关联的网络招聘信息挖掘学生姓名 郑小乐专业名称统计学指导教师张学新2016年4月5日目 录1、引言11、引言12、网络招聘信息挖掘综述1文本挖掘定义及特点1文本挖掘的定义1文本挖掘的特点1文本挖掘及其网络招聘信息挖掘的现状23、网络招聘信息挖掘步骤3读取网页招聘信息文本文件3招聘信息文本分词4分词4设置频繁出现的领域干扰词5词频统计与词云6招聘信息文本聚类分析7特征词权重7法计算关键词权重8相似度计算8创立文本—词条矩阵9均值聚类94、招聘信息文本Web图分析125、建议13参考文献15附录16致谢18基于大数据文本聚类关联的网络招聘信息挖掘摘 要:随着计算机网络技术的迅速开展,网络招聘信息平台已成为招聘者发布信息和应聘者获取职位的主要途径大量的网络招聘信息蕴含着用人单位丰富的需求知识,诸如对人才的能力、素质等方面的要求本文自行爬取2015年11月-2016年4月拉钩网24万5千多条企业招聘信息,使用R语言编程,通过中文分词,设置频繁出现的领域干扰词,词频统计,文本向量化,应用k-均值聚类及网状Web图方法分析社会各行业对人才的能力及素质要求,描绘企业根本信息、薪资水平、工作经历要求间的关联强度,给高校及时了解社会对人才的需求变化,有针对性的调整人才培养方案以及应届毕业生求职提出有益建议。

      关键词:大数据;网络招聘信息;聚类分析;Web图;R语言编程Online recruitment information mining by vast amounts of te*t clustering and associatingAbstract:Companying with computer network technology rapid development, network recruitment information platform has become a main way for recruiter to release information and for job seeker to get job. A large number of network recruitment information contains the knowledge of demand of units for employees, such as the requirement of talents' ability and quality, etc. In this paper, more than 24, 5 thousands enterprises net recruitment information, from November 2015 to April 2016 in Lagou net are crawled out. through setting frequent field disturbance terms, Chinese word segmentation, word frequency statistics, te*t vectorization, k-means clustering using R language programming and Web diagram method are applied to e*cavate ability and quality requirements from social various industries for talents, to describe the correlation strengths among enterprise basic information, wages, job e*perience requirements for employees .Finally, some beneficial suggestions are put forward for colleges and universities to timely understand of the social demand for talents and targeted adjust the talent training scheme ,and some reference are provided for the fresh graduates to apply for a job.Key words: Big data; Network recruitment information; Clustering analysis; Web graph;R language programming. >.1、引言随着互联网技术的迅速开展,网上信息呈爆发式增长,这种增长超过了创造机器的速度,甚至超过了人们的想象。

      数据库中以文本形式存储的信息越来越多,包含各种数据源的文本,如研究报告、研究论文、数字图书馆、电子邮件和页面等这些信息的存储方式分为两大类:一是可以用数字、符号等表示的构造化数据,另一类则是非构造化数据其中非构造化数据的挖掘更难当今,众多用户开场显示出对文本挖掘的兴趣,希望挖掘出有用的信息、规则例如,企业把人才招聘信息越来越多的发布到互联网上,这些招聘信息含有用人单位对人才的需求及能力要求,在一定程度上代表了人才需求的未来走向高校希望利用现代技术手段从互联网上获取有用信息,分析用人单位对人才的需求特点,及时了解社会对人才的需求变化情况,有针对性的调整人才培养方案和设置相关课程,培养出更多的优秀人才以满足社会的需求应聘者也需要从网络招聘信息平台获取信息,做好求职前的准备工作本文利用八爪鱼采集器自行爬取拉勾网24万多海量企业招聘信息,应用R语言编程挖掘出一些有用的知识2、网络招聘信息挖掘综述文本挖掘定义及特点文本挖掘的定义网络招聘信息挖掘是一种文本挖掘文本挖掘是指从大量文本数据中获取先前未知的模式,这种发现必须是可理解的、潜在有用的分析文本数据,抽取文本信息,目标是发现文本知识文本挖掘的主要难点在于它必须处理那些本来就模糊而且非构造化的文本数据,是一个多学科混杂的领域,涵盖了统计学、机器学习、数据库技术以及专业软件使用等技术。

      文本挖掘的特点1. 面对的是大量文本集合2. 文本挖掘发现的知识是以前未发现的3. 文本挖掘的知识具有潜在价值,是用户感兴趣的直接可用的4. 文本挖掘算法具有较高的复杂度5. 文本挖掘涉及多个学科穿插,包括模式识别、统计学、自然语言处理、可视化技术、数据库技术等文本挖掘及其网络招聘信息挖掘的现状文本挖掘最近几年在国外开展迅速,广泛应用于电子会议、邮件分类、垃圾信息过滤等多个方面[1]-[3]国内文本挖掘研究则较晚早期主要是对Web文本挖掘技术研究的介绍[4]稍后主要聚焦于对各种改进的k-均值聚类算法的精度进展实验研究王智勇[5]应用基于词条互信息的统计降维和Kohonen网络相结合的文本聚类算法,测试搜狐网下载的类别的486篇文本的聚类精度李伯阳[6]在网格聚类算法根底上进展文本聚类,将其应用于14524个垃圾邮件的甄别蔡坤[7]基于topN特征词的文本聚类算法,采用复旦大学国际数据库中心自然语言处理小组公开提供的测试语料,从中随机抽取了五大类共200篇文本实证聚类效果现在的研究则关注中文分词及应用曾路平[8]采用中科院开发的ICTCLAS2009共享版进展中文分词,利用单词间的语义相关性,对公安情报系统中的舆情信息聚类分析。

      钟晓旭[9]-[10]先后对2010年的3家招聘网站的78481条招聘信息及新安人才网上计算机类专业招聘信息进展聚类,统计各个职位的需求量,计算职位间的相关系数王静[11]选择2011年的4家招聘网站,包括六种职业的2262个招聘网页,采用伪二维隐马尔可夫模型来分割,抽取其中的职位名、机构名等信息马力[12]对302个浏览页面聚类分析,获得用户兴趣序列的频繁模式王盛明,卢秉亮[13]从校图书馆读者借阅量表中抽取200名学生的记录,应用加权聚类算法划分读者群体刘玉华等人[14]对*城市假设干高校历年毕业生的就业数据进展聚类分析、关联分析,开发毕业生和企业间的双向推荐系统总的来说,国内以上文本挖掘的研究深度有限,所用数据不是真正意义上的网络招聘数据,各种改进的聚类算法的精度可信度不高鲜见对网页里大量非构造化的招聘数据的挖掘研究统计分析方法简单,特别的,很少使用软件编程本文自行爬取2015年11月-2016年4月拉勾网〔.lagou./〕24万多海量企业招聘信息,应用k-均值聚类分析社会各行业对人才的能力及素质要求,网状Web图方法描绘企业规模、金融状态、所在行业领域、工作性质、职位类型、薪资水平、应聘者工作经历间的关联强度,为高校了解社会对人才的需求变化情况及时提供信息,设置实践性选修课程提供科学依据。

      网络招聘信息挖掘的流程文本解析文本向量化文本预处理聚类与关联挖掘中文分词停用词处理词频统计与词云TF-IDF计算权重文档-词条矩阵K-均值聚类网络招聘信息文本集合聚类结果分析Apriori关联挖掘Web图分析图1 网络招聘信息挖掘流程图3、网络招聘信息挖掘步骤读取网页招聘信息文本文件本文首先通过八爪鱼采集器抓取拉钩网的招聘信息,然后汇总到一张csv表格,数据格式如图2所示:图2 网络招聘信息原始数据样例招聘信息文本分词分词为了统计分析,必须对获取的大量非构造化数据进展中文分词,提取有意义的中文单词所谓中文分词指的是将一个汉字序列切分成单独的有意义的词条,以便为其建立索引经过中文分词后,句子按照一定的标准重新组合成词序列分词的准确性直接影响着文本挖掘结果的有效性,词分的越准确,对文本的挖掘与分析越能有效提取文本中蕴含的有用信息本文采用ICTCLAS分词软件包对csv文本中的文本数据进展中文分词ICTCLAS的分词速度快,精度高,具有词性标注、未登录词识别等功能,是当前世界上最好的汉语词法分析器为了提高切词的准确率,在分词之前需要导入一些与文本数据相关的自定义词典本文中文分词例如图3:图3 网络招聘信息文本分词设置频繁出现的领域干扰词在分词结果中存在很多连词、介词、助词、感慨词及标点符号,或者一些通用名称词,如"公司〞、"描述〞等,称做停用词,它们对区分文本没有作用,需要将其删除。

      首先创立一个停词表,添加招聘内容中出现的停用词然后,在程序里自定义删除停顿词的函数,删除文本中无实际意义的词,得到结果如图4:图4 删除停用词后的分词 相比之前的分词结果,这次精简了很多,剔除了诸如"对〞、"的〞、"和〞等无意义的词词频统计与词云对分词的结果做一个词频统计,计算出每个词出现的次数并排序,然后取排名前50的50个词语,用wordcloud()的方法来绘制词云词云是现在很常见的一种分析图,把这些词语放在一张图中,按频次出现的多少来显示词语的大小判断分词结果的好坏,最快捷的方法是绘制词云,从而可以清晰的查看哪些词不该出现或哪些词分割的不准确图5 词频统计图6 词云从词云可以看出,除了少数无意义的词未被完全剔除外,分词结果总体上还是比较令人满意的此外,招聘信息的内容有很明显的特征。

      点击阅读更多内容
      相关文档
      2025国开山东开大《土质学与土力学》形成性考核123答案+终结性考核答案.docx 中学综合素质知识点梳理【中学教师资格证】.docx 2025国开山东开大《特许经营概论》形成性考核123答案+终结性考核答案.doc 2025年高考英语全国一卷真题(含答案).docx 2025国开山东《农民专业合作社创建与管理》形成性考核123答案+终结性考核答案.docx 2025国开山东开大《自然现象探秘》形成性考核123答案+终结性考核答案.docx 2025国开山东《消费心理学》形成性考核123答案+终结性考核答案.doc 2025国开山东《小微企业管理》形成性考核123答案+终结性考核答案.doc 2025国开山东开大《资本经营》形成性考核123答案+终结性考试答案.docx 2025国开山东《小学生心理健康教育》形考123答案+终结性考试答案.docx 2025国开《视频策划与制作》形考任务1-4答案.docx 2025国开《亲子关系与亲子沟通》形考任务234答案+期末大作业答案.docx 2025国开电大《煤矿地质》形成性考核123答案.docx 2025国开电大《冶金原理》形考任务1234答案.docx 2025国开《在线学习项目运营与管理》形考任务1234答案.doc 2025国开电大《在线教育的理论与实践》阶段测验1-4答案.docx 2024 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 环保工程师---2023 年注册环保工程师《专业基础考试》真题及答案解析【完整版】.docx 2025国开《液压与气压传动》形考任务一参考答案.docx 2025年春江苏开放大学教育研究方法060616计分:形成性作业2、3答案.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.