非常好的协同过滤入门文章
11页1、非常好的协同过滤入门文章“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现 方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上, 还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构 建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原 理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解 和快速构建适合自己的推荐引擎。信息发现如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分 享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。在这样的情形下,搜索引擎(Google, Bing,百度等等)成为大家快速找到目标信息的 最好途径。在用户对自己需求相对明确的时候,用搜索引擎很方便的通过关键字搜索很快的 找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,那是因为在很多 情况下,用户其实并不明确自己的需要,或者他们的需求很难用简单的关键字来表述。又或 者他们需要
2、更加符合他们个人口味和喜好的结果,因此出现了推荐系统,与搜索引擎对应, 大家也习惯称它为推荐引擎。随着推荐引擎的出现,用户获取信息的方式从简单的目标明确的数据的搜索转换到更高 级更符合人们使用习惯的信息发现。如今,随着推荐技术的不断发展,推荐引擎已经在电子商务(E-commerce,例如Amazon, 当当网 ) 和一些基于 social 的社会化站点 ( 包括音乐,电影和图书分享,例如豆瓣, Mtime 等 ) 都取得很大的成功。这也进一步的说明了, Web2.0 环境下,在面对海量的数据,用户 需要这种更加智能的,更加了解他们需求,口味和喜好的信息发现机制。推荐引擎前面介绍了推荐引擎对于现在的 Web2.0 站点的重要意义,这一章我们将讲讲推荐引 擎到底是怎么工作的。推荐引擎利用特殊的信息过滤技术,将不同的物品或内容推荐给可能 对它们感兴趣的用户。图 1. 推荐引擎工作原理图(黄ttS ;CKSl年舒J见巾对A品豹侵垮 苗出比期实J ,; 、 _-阻:;弓X.亚運盛图 1 给出了推荐引擎的工作原理图,这里先将推荐引擎看作黑盒,它接受的输入是推 荐的数据源,一般情况下,推荐引擎所需要
3、的数据源包括:要推荐物品或内容的元数据,例如关键字,基因描述等;系统用户的基本信息,例如性别,年龄等用户对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户 查看物品的记录,用户的购买记录等。其实这些用户的偏好信息可以分为两类: 显式的用户反馈:这类是用户在网站上自然浏览或者使用网站以外,显式的提供反 馈信息,例如用户对物品的评分,或者对物品的评论。 隐式的用户反馈:这类是用户在使用网站是产生的数据,隐式的反应了用户对物品 的喜好,例如用户购买了某物品,用户查看了某物品的信息等等。显式的用户反馈能准确的反应用户对物品的真实喜好,但需要用户付出额外的代价,而 隐式的用户行为,通过一些分析和处理,也能反映用户的喜好,只是数据不是很精确,有些 行为的分析存在较大的噪音。但只要选择正确的行为特征,隐式的用户反馈也能得到很好的 效果,只是行为特征的选择可能在不同的应用中有很大的不同,例如在电子商务的网站上, 购买行为其实就是一个能很好表现用户喜好的隐式反馈。推荐引擎根据不同的推荐机制可能用到数据源中的一部分,然后根据这些数据,分析出 一定的规则或者直接对用户对其他物品的喜好进
4、行预测计算。这样推荐引擎可以在用户进入 的时候给他推荐他可能感兴趣的物品。推荐引擎的分类推荐引擎的分类可以根据很多指标,下面我们一一介绍一下:1. 推荐引擎是不是为不同的用户推荐不同的数据: 根据这个指标,推荐引擎可以分 为基于大众行为的推荐引擎和个性化推荐引擎 根据大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的 由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流 行的物品。 个性化推荐引擎,对不同的用户,根据他们的口味和喜好给出更加精确的推荐,这 时,系统需要了解需推荐内容和用户的特质,或者基于社会化网络,通过找到与当 前用户相同喜好的用户,实现推荐。这是一个最基本的推荐引擎分类,其实大部分人们讨论的推荐引擎都是将个性化的推荐 引擎,因为从根本上说,只有个性化的推荐引擎才是更加智能的信息发现过程。2. 根据推荐引擎的数据源其实这里讲的是如何发现数据的相关性,因为大部分推荐引擎的工作原理还是基于物品 或者用户的相似集进行推荐。那么参考图 1 给出的推荐系统原理图,根据不同的数据源发 现数据相关性的方法可以分为以下几种: 根据系统用户的基本信息
《非常好的协同过滤入门文章》由会员汽***分享,可在线阅读,更多相关《非常好的协同过滤入门文章》请在金锄头文库上搜索。
最新官方版离婚协议参考样式(10篇集锦)
上半年乡镇扶贫工作总结
校本培训总结标准版(4篇).doc
护理应急预案及处理流程
岩土工程师专业案例考前(难点+易错点剖析)押密卷附答案86
金属颜料项目可行性研究报告模板备案审批定制代写
高血压病防治知识讲座讲稿
金融业企业划型标准规定【精选文档】
酒店实习报告
中国石油大学华东21春《化工仪表》离线作业2参考答案17
脚手架搭设工程施工设计方案
俗世奇人读后感400字小学范文
江苏昆山兵希中学学七级上学期英语第一次阶段性测试试题(word含标准答案)
解析几何中定值和定点问题
项目三衬衣制作教案正式
危险废物管理计划填写示例全解
2020高考(新课标)英语大一轮复习检测8_Book2Unit3Computers词汇积累含答案
七年级语文下册第二单元比较探究诗词八首教学设计北师大版
工程进度与质量控制
关于成语大赛作文3篇
2023-06-25 13页
2023-07-11 4页
2023-06-08 8页
2023-03-19 26页
2022-10-06 7页
2023-02-10 3页
2024-01-20 2页
2023-11-15 5页
2024-02-27 6页
2023-02-13 2页