
RSS智能订阅的解决方案.ppt
15页可以订阅多个站点的更新内容,并统一展现到自己的阅读 器中,如鲜果,google阅读,UC阅读等,省下了在多个 网站上费时费力寻找自己感兴趣新闻的时间和精力,实时 性较高,遗漏率较低 但随着订阅量的增多,每天数百条甚至上千条未读条目是 不可避免的事实,哪些条目较为重要?能否精选100~200 条新闻?对于信息的过滤,google阅读和其他常见RSS阅 读器均未提供较好的解决方案,同时UC阅读存在反复刷 新流量偏高的情况 面对数百条未读新闻,不读,是遗憾,读了,又麻烦如果有这样一个应用,它可以按照用户的偏好推送相关的 条目,包括新闻,博文,微博等媒介,并自动按用户的偏 好分配条目的权重,将前100~200条展现给用户,会不会 比较受欢迎? 如果它既有网页阅读版(兼容主流浏览器),又有PC的客 户端阅读版(Win/Mac/Linux各平台均有),还有版 (iOS/Android/Symbian/MeeGo各系统均有),会不 会被更多人所接受?实现智能订阅的核心问题将围绕三个词展开: 权重,热度,衰减 原理很简单,将新闻中权重靠前的条目推送给用户即可, 然而权重如何确定?主要由标题中关键字被搜索次数决定 ,一个热门头条的关键字必然在短期内搜索量骤增,即热 度较高。
但头条的重要性会随着时间的推移慢慢降低,公众会更关 注更新的热门条目,这就是衰减 如果一个新闻被追踪报道,那相关关键字的最新搜索量就 会一直较高,对于这种热度持续的新闻,需要减缓热度的 衰减速度,即进行一定的热度修正,从而影响权重每隔半小时从海量的订阅源抓取信息,保存在服务器上, 并对原先的结果衰减一次,搜索结果称为“RSS海”服务器上有一组各分类中今日热度较高/骤增的关键词, 称为“关键词池”,将RSS海中的各条目与关键词池比对 ,计算各条目权重,各分类选出权重前100的信息,此次 筛选结果称为“RSS湖”按照用户的偏好,从RSS湖中选出100条条目,保存成xml 文件反馈给用户对于提供给用户的分类,如互联网,房产,教育等频道, 完全按默认方式确定权重 若用户选择订阅了某个博客或微博,而此博客或微博已在 服务器订阅的海量订阅源中,则将此博客和微博归类到相 关分类,但在分配权重时给予较高的权重 若上述博客或微博并未被服务器收录,但用户给出了大致 的分类,则依然按上述方法确定权重 若上述博客或微博既未被服务器收录,用户也未给出大致 分类,则将此订阅源的更新内容基本原版地推送给用户大部分用户对实时性的要求并不很高 假使某个新闻刚出炉就被收录,而相关关键字还未被大量 搜索,则这条新闻在分析权重时会被认为是无关紧要的内 容,从而可能被忽略。
但经过半小时到一小时后,关键词 的热度将会骤增,此时即可给予正常的权重标题中的核心关键词只有3~5个 标题的核心关键词是有限的,所以经过3~5次的关键字比 对符合后即可结束比对,减轻服务器负载热门头条的关 键词可能只有1~2个标题中的核心关键词的热度相仿 一条新闻的相关关键词被搜索的概率是差不多的,所以在 3-5次的关键字比对符合后,它的首尾关键词在热度排行 中的距离是相近的最新热门条目的关键词搜索量是骤增而非持续较高 一个新的热门条目,它的关键词热度一定是骤然增高,而 非之前就一直很高,所以如果一条新闻的关键词热度骤增 ,则认为是新条目,而如果它最近的热度增加速率并没有 脉冲式的变化,即使热度的基数较高,也认为是一条已经 播报过的热门条目,不予录入热度持续较高的新闻通常会有后续故事 每隔6小时进行一次刷新,即对于标题与关键词比对时, 若在很靠前的部分即完成了2~3次符合比对,且相应关键 字在最近6小时内搜索量一直居高不下,则认为此新闻需 要更新,给予一次录入(在之前每半小时抓录一次的情况 下,除非关键词均为短期热度骤增,否则认为是重复新闻 ,不予录入)重要的新闻,应该保留得久一些 对于关键词热度靠前的新闻,每隔半小时的热度衰减中给 予较慢的衰减速度。
较为专业的条目,不能全依赖关键词搜索量 例如医学,软件开发等较为专业的分类,公众的参与度可 能并不高,此时如果因为关键词搜索量较低就忽略此条目 ,可能将造成订阅结果偏向大众化,专业细分的订阅结果 差强人意所以在各分类中设定少量信息源的权重较高, 使得相关信息源更新的条目即使其搜索量并不高,也能拥 有较高的权重人才能实现真正的智能 不能全凭借公式化的筛选方法,在各分类设置专业人士负 责信息的筛选以及审核,可能效果要更好每隔半小时所做的工作(从RSS海到RSS湖) 更新关键词池中各词的最近半小时搜索量,以及最近一段 时间内搜索量的变化曲线,以半小时为单位 衰减一次RSS湖中各条目的热度,权重靠前的衰减得慢 清空RSS海的内容,再保存新的抓取结果 将RSS海中各条目与相关分类的关键词池比对,比对符合 3~5次则结束比对,否则将相关分类热度较高的关键词比 对结束 按比对符合的关键词热度,信息源的权重,是否是用户单 独订制的信息源综合计算出此条信息的权重,达标者录入 RSS湖,但若相关关键词均热度靠前,且热度为持续较高 而非骤增,则视为重复头条,放弃录入每隔半小时所做的工作(从RSS湖到用户池) 由于权重的计算分析全部在RSS海到RSS湖的筛选中完成 ,所以由RSS湖到用户池的筛选只需按权重排序,选择前 100~200条即可。
例如,用户希望订阅100条新闻,他对互联网,房产,教 育,健康分别感兴趣30%,20%,40%,10%,特别订制 了2个教育信息源,1个无分类信息源,则推送给用户30条 互联网新闻,20条房产新闻,40条教育新闻(含特别订制 的2个信息源),10条健康新闻以及无分类信息源的若 干条权重较高的新闻 无分类信息源的条目不计入普通订阅数,因为假定使用如 此高自由度订制的用户是高级用户每隔六小时所做的工作 允许一次刷新录入,即3~5次关键词比对符合且相关关键 词的热度均持续较高时,录入到RSS湖中,用于追踪报道 删除24小时之前的新闻核心价值 在满足用户对新闻日益增长需求的基础上,进一步对结果 提炼,去除重复和普通条目,缩短了用户的阅读时间 竞争力 由于较精确的关键词热度数据只能由百度谷歌等搜索引擎 或腾讯新浪等门户提供,因此能做此应用的公司并不多, 而目前尚无类似产品,市场空间仍很大 赢利点 作为免费的增值服务较好,如考虑收费,可考虑开通特殊 的信息源供收费用户收听,如请医学,法律,金融等较为 专业领域的人员开辟专家信息源,提供专业服务数据的处理都是放在服务器端完成的,客户端只负责申请 下载RSS订阅信息并展示,并不分析处理原始数据,所以 如果是客户端,则在半小时内只提供一次下载(PC端 由于流量无限制,可结合一些频繁更新的信息源提供更新 速度更快的服务)客户端界面一定要简洁,宁可提供较少的选择,也不要让 用户在繁琐的设置中迷失。
永远都无法满足所有用户的需求,所以不用追求太完美。
