
ROST CM6使用手册.pdf
26页ROST CM6 使用手册 1ROST 内容挖掘 系统 ROST Content Mining System User Manual Version 6.0 2010.9.23 武汉大学 ROST 虚拟学习团队 ROST CM6 使用手册 2目 录 一、功能性分析…………………………………………………………………… 4 1)分词………………………………………………………………………… 4 2)字频分析…………………………………………………………………… 4 3)英文词频分析……………………………………………………………… 4 null 文件词频统计 ……………………………………………………………… 4 null 剪切板词频统计 ………………………………………………………… 5 null 查看统计表格 …………………………………………………………… 5 null 查看大纲列表 …………………………………………………………… 5 null 描红超纲词 ……………………………………………………………… 5 null 查看非词表 ……………………………………………………………… 6 null 加密词表 ………………………………………………………………… 6 null 打开词典目录 …………………………………………………………… 6 4)汉语频度分析……………………………………………………………… 6 5)社会网络和语义网络分析 ……………………………………………… 6 6)情感分析 ………………………………………………………………… 8 7)流量分析 ………………………………………………………………… 9 8)相似分析…………………………………………………………………… 9 9)网络环境分析……………………………………………………………… 10 10) /IDF 批量词频分析……………………………………………………… 10 11)聚类分析 ………………………………………………………………… 10 12)分类分析 ………………………………………………………………… 11 二、文本操作……………………………………………………………………… 11 1)字段抽取 ………………………………………………………………… 11 2)一般性行处理…… ……………………………………………………… 11 3)基于正则的特定信息抽取………………………………………………… 12 4)基于字段特征的行处理…………………………………………………… 12 5)基于辅助词群的行抽取及处理…………………………………………… 12 6)文本的替换和增补 ……………………………………………………… 13 三、 可视化 ……………………………………………………………………… 14 1)标签云……………………………………………………………………… 14 四、工具…………………………………………………………………………… 14 1)剪贴板控制器……………………………………………………………… 14 2)域名排名查询器…………………………………………………………… 15 3)批量文件格式转换器……………………………………………………… 15 4)批量文件处理器…………………………………………………………… 16 5)浏览网页文本实时抓取器………………………………………………… 17 6) NetDraw …………………………………………………………………… 17 7) ROST WebSpider …………………………………………………………… 17 8)调试用 …………………………………………………………………… 18 9)程序目录 …………………………………………………………………… 19 ROST CM6 使用手册 310)数据目录…………………………………………………………………… 19 11)第三方工具………………………………………………………………… 19 12)自定义文件………………………………………………………………… 19 五、聊天分析……………………………………………………………………… 19 六、全网分析……………………………………………………………………… 20 1)全网数据中的摘要或标题数据中的词语、机构的共现关系…………… 20 2)情感分析…………………………………………………………………… 20 3)域名的批量流量分析 …………………………………………………… 20 4)将网址列表载入到迅雷中进行下载……………………………………… 20 七、网站分析……………………………………………………………………… 21 1)获得网站数据……………………………………………………………… 21 2)分析………………………………………………………………………… 22 八、浏览分析……………………………………………………………………… 22 九、微博分析……………………………………………………………………… 23 1)扫描数据…………………………………………………………………… 23 2)分析………………………………………………………………………… 23 十、期刊分析……………………………………………………………………… 23 ROST CM6 使用手册 4一、 功能性分析 ( 1)分词 点击 功能性分析 下拉列表框中的 分词 选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队 2010‐8‐7.txt” ,则系统按照程序目录下的 User 目录下的 User.txt 文档, 自动在输出文件框中生成“虚拟学习团队 2010‐8‐7_分词后 .txt”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。
点击 确定 按钮,即可打开该文档 如果需要自己增加一些词, 则点击 工具 下拉列表框中的 自定义文件 → 分词自定义词表 ,系统将自动在记事本中打开 user 目录下的user.txt 文件,编辑后点击保存存盘,再次重新启动本软件,方可生效 ( 2)字频分析 点击 功能性分析 下拉列表框中的 字频分析 选项, 打开字频分析窗口,在待处理文件框中载入待 处理文件,如“虚拟学习团队2010‐8‐7.txt” ,则系统自动在输出文件框中生成“虚拟学习团队2010‐8‐7_字频 .txt”文件,点击 确定 按钮,即可打开该文档 ( 3)英文词频分析 null 文件词频统计 点击 功能性分析 下拉列表框中的 英文词频分析 选项 , 打开 ROST ROST CM6 使用手册 5英文词频统计和超纲单词分析窗口 点击 文件 菜单下的 打开 菜单项或点击工具栏上的 打开 按钮,打开要统计的英文文档,然后选择 统计 菜单下的 统计文件词频 菜单项或工具栏上的 统计 按钮, 即可统计出文档的所有单词点击单选按钮 纲内, 可统计该文档的纲内词;点击单选按钮 超纲, 可统计该文档中的超纲词。
选择复选框 全选 ,可全选表格所有单词;选择复选框 归并单词变形 ,可将变形单词进行归并 对统计出的单词,在表格上点击右键,弹出快捷菜单,可以将选择的词汇添加到常用词语表,或者将选择的词 汇从常用词语表中删除 要在文本框中高亮显示某单词,可以勾选该单词的检查框;如果取消勾选,则文本框中该单词恢复普通显示状态 null 剪切板词频统计 如果要统计剪切板词频, 则选择 统计 菜单下的 统计剪切板词频 菜单项,则剪切板上的单词会显示在打开文件框中,再点击工具栏上的统计 按钮即可 null 查看统计表格 点击 查看 菜单下的 统计表格 菜单项,即可查看空的统计表格 null 查看大纲列表 点击 查看 菜单下的 大纲列表 菜单项,打开大纲列表窗口,即可查看大纲列表如果要查看某大纲,双击该行即可在大纲列表窗口,还可以自定义某个词汇表,方法是在 大纲名称 文本框中输入大纲名称,然后在 大纲文件 文本框中载入大纲文件,再点击 添加 按钮即可ROST CM6 使用手册 6若要删除某词汇表,则选中该词汇表后,点击 删除 按钮即可 null 描红超纲词 如果要查看所有勾选的超纲词 汇在文章中的位置,则首先点击 统计 、然后选择 超纲 ,再勾选 全选 ,然后点击查看菜单中的描 红选定的超纲的词汇 即可。
null 查看非词表 非词表你不想统计的单词或者 字符的列表,该文件位于程序目录下的 dict 子目录下的 notwords.txt要查看非词表,点击 工具 菜单下的 查看非词表 即可如果要启动非词表,则 工具 菜单下的点击 启动非词表 null 加密词表 如果要对词表加密,则点击 工具 菜单下的 加密词表 ;如果要解密词表,则则点击 工具 菜单下的 解密词表 即可 null 打开词典目录 点击 工具 菜单下的 打开词典目录 即可 ( 4)汉语频度分析 点击 功能性分析 下拉列表框中的 汉语词频分析 选项,打开 汉语词频统计 窗口,在 分词后待统计词频 文件文本框中载入分词后的文件,如“虚拟学习团队 2010‐8‐7_分词后 .txt” ,则系统自动载入过滤词表,并在输出文件文本框中生成词频统计文件“虚拟学习团队 2010‐8‐7_分词后 _词频 .txt” 在归并词群表文本框中载入归并词群表,还可以对文档中的词进行归并在保 留词表文本框中载入保留词表,则可ROST CM6 使用手册 7以将文档中在保留词表中的词保留下来 ( 5)社会网络和语义网络分析 点击 功能性分析 下拉列表框中的 社会网络分析 选项,打开 ROST语义网络和社会网络生成工具,在待 处理文本框中载入待处理文件(待处理文件格式可以是一行一句的未分词文 件,比如聊天记录,全网分析中的摘要文件等;也可以是一句若干词的已分词文件;还可以是多行有关联的已分词文件) ,然后点击 高频词 按钮,可以生成高频词表;点击 过滤无意义词 按钮,可以生成过滤后的高频词和共现矩阵词表;点击 提取行特征按钮 ,可以生成行特征词;点击 构建网络 按钮可以生成语义网络的 .VNA 文件和 .txt 文件,如果进一步点击 启动NetDraw 按钮,则可以打开 NetDraw 工具,查看图形结果;点击 构建矩阵 按钮则可以生成共现矩阵文件。
双击文件框可查看相应结果 如果想进行快速分析,则载入待处理文件后,点击“ 快速分析 ”按钮,即可一次生成上述文件可以 是聊天内容文件,文件格式是 例如,以下是对“虚拟学习团队摘要文件”分析的结果: ROST CM6 使用手册 8( 6)情感分析 点击 功能性分析 下拉列表框中的 情感分析 选项,在待分析文件路径文本框中载入待分析的文件,点击 分析 ,然后双击各文本框后的查看 ,即可查看情感分析详细结果、情感分段统计结果、中性情绪结果文件和情感分布统计视图结果 ROST CM6 使用手册 9( 7)流量分析 点击 功能。
