
附件1-研修网资源用户行为分析.docx
5页目前研修网课件资源统计:资源 总量 日 增 量( 15 年平均)研修网库 总 1062 万 9858培训社区555 万8317培训活动506 万1541作业和简报(老资源)328 万4870PVUV资源质量(11 月 20 日 周五 )(11 月 20 日 周五 )预览: 88257预览: 7063包含分类、章节信息:下载: 137313 ( 根据下载: 5917数量: 34.7万passport 和docid 去上传: 5192占比: 3.3%(最近三个重后下载量:24896)月占比能达到 6.4%)上传: 19213包含分类、章节信息:总数: 26.3万占比: 4.7%(最近三个月占比能达到 7.3%)包含分类、章节信息:总数: 8.4 万占比: 1.7%(最近三个月占比能达到 2.7%)预览: 159956预览: 22350该批数据没有章节、分下 载 : 18001 ( 去 重下载: 2795类信息9809)上传: 9415上传: 15571行为日志质量1. 后端资源服务日志几乎不可用可通过 nginx 日志挖掘登录用户的行为信息2. nginx 日志:工作日每天产生约20G 大小的日志文件, 约 3 千万条日志。
受磁盘空间限制会定期删除历史日志40000600035000500030000400025000200003000150002000100001000500000培训社区数据 日增量 培训活动数据 日增量25000450003846520000400003500015000300001000025000200005000150000100003516500060963380961406月7月8月9月10月11月作业简报 日增量 6 月份上传资源用户留存情况各类业务对资源预览带来的浏览统计:资源中心 (22919)工作坊内部资源 (22654)刷新页面等操作带来的请求 (19742)社区:个人主页、个人资源页、访问他人的个人资源页 (15639)研修活动 (1417)研修社区 (920)培训个人资源 (549)其他各类业务对资源的导流 (3948)相关推荐:利用语义内容推荐文档,侧重于 title 之间的相关性特征维度资源Title正文摘要分类章节地域下载数评分预览量研修网总质量较差无部分有,部分有,部分有,下载次数 >0 :有评分记录:预览数 >0:占 10.6%占 3.3%占 46%占 21%占 0.76%占 87%下载次数 >10:预览数 >10:占 1.7%占 24%培训社区数据质量较差无部分有,部分有,部分有,下载次数 >0 :有评分记录:预览数 >0:占 13.2%占 4.7%占 19%占 30%占 1.1%占 84%下载次数 >10:预览数 >10:占 3%占 21%培训活动数据质量较差无部分有,部分有,部分有,下载次数 >0 :有评分记录:预览数 >0:占 7.8%占 1.7%占 74%占 10%占 0.33%占 90%下载次数 >10:预览数 >10:占 0.2%占 28%作业和简报(老资源)质量一般无无无部分有,无无无占 83%协同推荐:根据用户的行为对文档进行推荐。
如果用户喜欢文档A,又喜欢文档B,则B 可以是A 的协同推荐结果,而A 和 B 可以是两个内容上不相关的文档用户行为关联维度? Session:用户在一个 session 中 (例如 30 分钟内的行为 ) 的资源相关行为,如浏览、下载等行为 我的资源:是用户按照某种主题聚集起来的文档集合 下载:用户最近一段时间内的下载行为 预览:用户最近一段时间内的预览行为资源 Session 我的资源 下载 预览研修网 可从日志挖掘 可从 db 获取 可从日志挖掘 可从日志挖掘作业和简报(老资源) 可从日志挖掘 无 无 无结论 :1、研修网后端日志(清理、存储)缺乏管理(例如:目前就看不到下载需求的历史留存,对分析问题带来不确定性)2、用户资源需求(下载、浏览【部分数据有培训行为】 )还是很旺盛的3、用户资源需求满足很不理想(缺乏标签、文本内容导致搜索质量无从谈起;相关搜索量大【质量差,有优化和推荐的需求】 )4、用户对资源的需求场景很多,除了备课以外,资源中心、个人中心等场景都有很多优化的工作要做需要产品立足于扎实的数据分析做一些切实可以提升教师对资源需求的满意度提升工作。












