好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于内容管理系统中内容分类实现策略的研究毕业论文范文.doc

3页
  • 卖家[上传人]:ss****gk
  • 文档编号:232638632
  • 上传时间:2021-12-31
  • 文档格式:DOC
  • 文档大小:63.57KB
  • / 3 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 基于内容管理系统中内容分类实现策略的研究论文关键词:内容管理系统内容分类策略 论文摘要:随着信息量以爆炸般的速度在急剧增加,当前在信息管理方面所面 对的最严峻的挑战不再是信息匾乏,而是缺少时间和精力来对如此众多的信息 进行浅析、归类与操作本文探讨了在内容管理系统中内容分类的实现策略0引言随着信息量以爆炸般的速度在急剧增加,当前在信息管理方面所面对的最 严峻的挑战不再是信息匾乏,而是缺少吋间和精力来对如此众多的信息进行浅 析、归类与操作因此内容的分类不仅有利于更快捷地实现内容的杳询,而且 有效的分类策略同样有助于对纷杂的信息进行组织与归类,有助于人们缩小杳 询的范围,节省吋间和精力可见内容管理对内容分类的要求是十分必要的现在分类的策略大体上分为人工分类、自动化分类以及人机结合的混和策 略三种显而易见,人工分类是最容易被想到的但是这种策略显而易见的过 多的依赖于个人,且成本太高并且当内容量过大的吋候,单单依靠手工策略 进行分类也不太现实,很容易成为系统的瓶颈因此,人们更加关注于自动化 分类策略现在主要运用的自动化分类策略主要有以下几种策略1自动化分类策略1.1基于规则的分类策略:这种策略需要由对相关内容极为了解的专家创 建与维护一套规则用于将某篇文档划分到某个类中。

      专家使用If-Then的规则 形式组织归类的相关概念规则能够支持复杂的操作,而且建立在规则之上的 决策树也相当准确规则衡量了一个给定的文档是否符合某个主题的判断标 准显然,建立这样一种规则并不容易,并且专家对相关内容知识的了解程度 也相当重要1.2基于自然语言的学习算法:该策略利用神经网络的策略,通过浅析文 档的内容区分文档并将文档进行分类由于这种策略具有较高的容错能力及语 言独立的操作性等特点,正在成为一种相对稳定的分类策略这种策略通过选 择文档的表示方式或可能的格式,利用神经网络实现对内容的分类,可以被运 用到文本文档或文本片断的分类中去1. 3语义浅析:这是以以文档中提取关键的概念作为分类与检索的基础 语义浅析过程共分为两个阶段,第一个阶段的工作主要集中于一系列的语言算 法以及语言独立的统计技术的实现当用户对系统中收集的信息进行杳询时则 触发该过程的第二阶段,系统可以根据用户的杳询需求以及可视化的分类结构 呈现给用户个性化的、相关的杳询结果1. 4方式匹配:这种策略是指寻找经常聚在一起的一组词或词组的过程 一个主题可能通过语义浅析进行处理其他的识别方式还包括词在文档当中的 出现频率、词的位置、词与词之间的亲近程度以及相关词的聚类。

      方式匹配策 略具有语言独立的特点1. 5聚类浅析:这是通过识别内容中的共性元素将内容划分为相似内容子 集每篇文档可以看作一些内容的合集,聚类本质上就是将每一袋中的相似内 容聚为~组以上每一种分类策略都有其自身的优点与不足,没有哪一种单一的分类策 略是十全十的每种策略都有其适用的方面所以,现在人们往往采用混合的 分类策略下面我们着重浅析一种基于神经网络的分类策略欣跟E2基于聚类浅析的分类策略聚类浅析是一种解决分类不足的探测性的数据浅析策略它的目标是把 人、事务、事件等聚为组或类,每一类描述它的对象所属的类该策略是通过 建立一个对象间的相似性度量,使得类间的相似性尽量小,而类内的相似性尽 量大,以而得到在某种判别准则之下的最佳分类,这种分类的结果未必使用简 单的概念就可以描述的换言之,其分类的标准并不是显而易见的假设特点向量由n个特点参数X, X,…,X组成聚类浅析按照一定的准 则,将这些特点向量点划分为若干个群聚类也用于将一个内容的集合划分为 子集,也就是类每一类内的对象之间都比该类对象与属于其它类的对象之间 具有更大的相似性芬兰学者T. Kohonen提出一种可以使得输入信号映射到低维空间,且保持 相同特点的输入信号在空间上对应邻近区域的学习方式,称为Kohonen自组织 特点映射(self-organizingfeaturemaps, S0FM)也称 Kohonen 自组织神经网络。

      本文来源:华融经济学论文网http://www. ihrd. com. cnKohonen自组织神经网 络是一种前馈型网络在这种类型的神经网络中各神经元接受前一层的输入, 并输出给下一层,没有反馈节点分为两类,即输入单元和计算单元,每一计 算单元可有任意多个输入,但只有一个输出前馈网络可分为不同的层,第I 层的输入只与第IT层的输出相连,输入和输出节点与外界相连,而其它中间 层则称为隐层前馈型网络,由于Kohonen自组织特点映射网络除了具备以下主要性能, 因此采用Kohonen自组织神经网络来实现内容的聚类①对输入数据有聚类作 用,并可用聚类中心代表原输入,起到数据压缩作用②保持拓扑有序性,输 入中特性相似的点映射后在空间上是邻近的③分布密度匹配,原数据中分布 密的区域在映射图上对应较大的区域,分布稀的则对应的区域也较小自组织网络采用没有指导的学习过程,不必给定应有的输出,训练数据只 有输入而没有输出,网络只靠输入方式本身的特点,根据一定的判断标准自行 修改单元连接的强度,使权矢量在输入向量空间中的分布近似于样本的分布 这也就是为什么采用自组织神经网络来解决内容的分类不足的理由和依据,因 为在对内容进行聚类前,可以分成什么样的类以及不同的内容归属的类别本来 就是未知的。

      3实现的步骤及策略在此探讨一种利用智能技术得到内容的分类结构的策略该策略通过人或 统计工具对文本内容进行预处理,将文本内容以标准化的特点向量表示,然后 利用Kohonen自组织特点映射网络实现内容的自动聚类现将对文本内容进行 聚类的策略与步骤简单描述如下:3.1用标准的矢量形式表示文本内容要实现内容的自动聚类,首先要把 待聚类的内容集用标准的矢量形式表示出来由于给不同的文本内容建立关键 字是可行的,而且关键字又是最易于代表文本内容语义的,因此可以通过文本 内容的关键字作为中间桥梁将内容表示成标准的矢量形式用标准的矢量形式 表示文本内容,这是利用神经网络实现内容的自动聚类的基础3. 2选择样本文档Kohonen网络采用的是无监督学习算法,因此在通过该 网络对内容进行聚类前需要选择样本内容作为训练集,使自组织网络学习如何 对内容进行聚类样本的选择应当具有代表性与广泛性3. 3初始化网络的输入节点、输出节点以及连接权值将以n个关键字或 文本特点表示文本内容的n维矢量作为输入向量,同吋生成含有m个输出节点 的二维映射3. 4将代表文本内容的特点向量输入到网络中3. 5在输出节点中选择最佳匹配节点。

      计算输入节点与所有的输出节点权 值的接近程度,选择距离最小,即输出节点权值与输入值最接近的节点作为获 胜节点3. 6调整权值调整获胜节点及其邻域的节点的权值,以而使这些输出节 点的权值与输入值更接近3. 7标注代表不同类的输出节点不断重复以上过程,学习算法结束后, 各输出节点的权值显示了聚类中心,将不同的类加以标注,以示区分经过训 练的网络可以用上述同样的策略对新的文本内容进行聚类3. 8对分类结果中包含大量输入样本的类别,递归运用以上步骤,继续在 大类下划分更小的类经过以上过程便可以得到文本内容的分类结构,该分类结构可能是类与类 之间相互独立的结构,也可能是层次结构基于这种由智能聚类得到的分类结 构,我们便可以利用经过训练的网络用同样的策略实现对不同文本内容的分 类参考文献:[1] 朱爱华•基于语义网格的内容管理系统[J].广播与电视技术.2009. (01).[2] 薛勤,何险峰.内容分类与元数据在内容管理系统中的运用[J].四川气 象.2007. (04)本文来源:华融经济学论文网http://www. ihrd. com. cn。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.