
虚拟社会网络中用户行为特性与模式研究.pdf
79页南京航空航天大学 硕士学位论文 虚拟社会网络中用户行为特性与模式研究 姓名:朱永真 申请学位级别:硕士 专业:计算机科学与技术 指导教师:夏正友 2010-12 南京航空航天大学硕士学位论文 I 摘 要 网络虚拟社会是现实社会在网络上的映射和延伸,具有独特的性质和特征由于网络虚拟 社会的开放性、虚拟性、交互性,挖掘网络虚拟社会的特性及其成员行为特征成为研究的热点, 同时发现其潜在的社团组织也受到越来越多研究者的关注 本文以天涯论坛“国际观察”版作为研究对象,通过收集五年的网络数据,分析天涯社区 的结构特性、成员交互关系网以及探究其潜在的社团组织主要工作包括以下: 1. 开发网络爬虫程序,自动收集 “国际观察”版的数据集该数据集涵盖了 2005-2009 五 年的论坛主题内容信息根据研究的需要,具体分为三类:1)321027 条用户信息,包含用户 ID、昵称;2)96073 条主题信息,包含主题 ID、主题名字、主题作者、主题的发布时间等;3) 5241338 条回复关系信息,包含回复者 ID、回复者昵称、所回复的主题、回复的时间、回复的 内容等为后文的分析研究直接提供了丰富的数据源,保证了研究的真实可靠性。
2. 根据用户参与主题时所呈现出的各种复杂情况,提出了基于共同回复关系研究用户兴趣 的算法实验发现不同类型的主题具有不同数量的回复者,一般而言,用户只参与部分主题的 讨论,假设一个类型的主题对应一个兴趣爱好,则用户参与讨论不同类型的主题,可以看作是 拥有不同的兴趣爱好因此,根据共同回复关系研究用户的兴趣具有重要的意义 3. 基于用户兴趣,分别提出了基于时间和基于空间的社团划分算法用户一般会根据相同 或者相似的兴趣爱好聚集成“团” ,因此,研究虚拟社区中潜在的社团组织对分析网络虚拟社会 具有重要的作用 关键词:关键词:网络,网络人际交往,虚拟社区,用户兴趣,社团结构 虚拟社会网络中用户行为特性与模式研究 II ABSTRACT Network virtual community is a mapping and extension of real social network on the Internet, with unique properties and characteristics. Because of the openness, virtualization, interaction of networked virtual community, mining network virtual community and its member behavior has become hot, while the study on the potential of community organizations is also subject to more and more researchers. With the forum of “TianYa on international” as research subjects, base on the network data in five years, the structural characteristics of community, the Member website and the relationship between the potential of community organizations is analyzed, the main works of the thesis are summarized as follows: Firstly, Network crawler is developed to automatically collect the data set on “international observation “. The data set covers the information on the topic during the five years from 2005 to 2009. According to the needs of specific research, they are divided into three categories: 1) 321027 user information, including user ID, nick name; 2) 96073 article topic information, containing topic ID, subject name, subject, author, subject, time and so on; 3) 5241338 replies relationship information that contains the reply is ID, respondents nickname, the topic that is replied, the time, the content, etc. Which provides rich data sources for later analysis directly, therefore, the reliability of the real is guaranteed. Secondly, According to the various complex situations presented when the users taking part in the subjects, an algorithm of user interest based on the common response relationship was proposed. Based on an existing Data Set, the regulation that different type of theme has a different number of respondents is discovered. In General, the users only participate in the discussion of some topics, suppose a type of the topics corresponds to one of interest, users participate in the discussion of different types of topics can be viewed as having different hobbies. Thus, it is of great significance to discover user's interest according to the relationship between the same reply. Finally, Societies partitioning algorithm is put forward base on time and space according to user interest. The user will gather into a “group“ based on the same or similar hobbies, therefore, it is important for the virtual social to study the potential of community organizations in virtual communities. Key Words: On-line Network, Network Communication, Virtual Communities, User Interest, Community Structure 虚拟社会网络中用户行为特性与模式研究 VI 图表清单 图 1. 1 虚拟社会的形成 1 图 1. 2 网络虚拟社会的特点 2 图 1. 3 产生的问题 3 图 1. 4 网络人际交往的动机 4 图 1. 5 网络人际交往的特点 5 图 1. 6 人际交往分类 6 图 1. 7 网络人际交往的形式 7 图 1. 8 网络人际交往的影响 9 图 1. 9 虚拟社区的分类 11 图 1. 10 虚拟社区的作用 12 图 2. 1 六度分离推断 14 图 2. 2 Bacon 游戏 15 图 2. 3 Kleinberg 消息传递过程 . 17 图 2. 4 层次树产生原理 18 图 2. 5 Watts 的模型 19 图 2. 6 Watts 实验中的消息传递 19 图 2. 7 Adami 模型 . 20 图 2. 8 策略对比 21 图 2. 9 消息传递过程 22 图 2. 10 广度优先策略寻找节点之间的路径 23 图 2. 11 广度优先策略寻找文件的流程 23 图 2. 12 广度优先策略查找最短路径的实现 24 图 2. 13 随机游走的实现流程 24 图 2. 14 随机游走策略寻找节点之间的路径 25 图 2. 15 策略-模型 26 图 2. 16 最大度搜索实现 27 图 2. 17 最大度优先策略寻找节点之间的路径 28 图 3. 1 国际观察版 29 南京航空航天大学硕士学位论文 VII 图 3. 2 国际观察版的主题信息页 30 图 3. 3 网页爬虫模块 31 图 3. 4 获取主题信息流程图 32 图 3. 5 成员信息获取的正则表达式 33 图 3. 6 提取信息的结果图 33 图 3. 7 有效信息在数据库中存储形式 35 图 3. 8 2005-2009 主题发布数量 . 36 图 3. 9 作者数量-主题数量 37 图 3. 10 主题的发布率 37 图 3. 11 主题的回复率 38 图 3. 12 主题的回复者数量关系 38 图 3. 13 被回复最多的主题的时间分析 39 图 3. 14 基于主题回复的成员交互数量关系 40 图 3. 15 用户回复的主题数量 41 图 3. 16 用户划分 42 图 4. 1 用户的行为和兴趣 43 图 4. 2 用户兴趣度的确定 45 图 4. 3 共同回复关系的形成 47 图 4. 4 有效节点数的变化趋势图 48 图 4. 5 边的数目的变化趋势图 48 图 4. 6 平均最短路径的变化趋势图 49 图 4. 7 平均聚类系数的变化趋势 50 图 4. 8 共同回复关联网络 50 图 5. 1 网络的社团结构 53 图 5. 2 二分算法 54 图 5. 3 边介数的计算 55 图 5. 4 分裂算法的流程图 56 图 5. 5 凝聚算法 57 图 5. 6 社团划分的目的 57 图 5. 7 迭代回归中的集合 A 和集合 B . 58 图 5. 8 派系重叠矩阵 58 图 5. 9 生成社团结构 59 虚拟社会网络中用户行为特性与模式研究 VIII 图 5. 10 基于空间划分的社团内部的成员关系 60 图 5. 11 基于空间划分的社团之间的连接关系 61 图 5. 12 基于时间划分的社团内部的成员关系 62 图 5. 13 基于空间划分的社团之间的连接关系 63 表 2. 1 平均传递步数 18 表 4. 1 兴趣话题区 44 表 4. 2 主题发布情况表 46 表 4. 3 主题回复率情况 46 表 4. 4 训练集页面的兴趣度及用户模型与页面的相似度 52 承诺书 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进 行研究工作所取得的成果。
尽我所知,除文中已经注明引用的内容外, 本学位论文的研究成果不包含任何他人享有著作权的内容 对本论文所 涉及的研究工作做出贡献的其他个人和集体, 均已在文中以明确。
