电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

谷歌怎样给搜索结果排序

6页
  • 卖家[上传人]:小****
  • 文档编号:124872563
  • 上传时间:2020-03-14
  • 文档格式:PDF
  • 文档大小:477.06KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、网网页排名和谷歌算法的诞页排名和谷歌算法的诞生生 一个正常的搜索引擎 其核心功能自然是网页搜索 那搜索结果应该怎样 排序才最好呢 实际上 在谷歌主导互联网搜索之前 人们为此伤透脑筋 当时人们认为 通过判断能够得知哪个网页更重要 对搜索引擎的发展十 分有帮助 很显然 搜索引擎应该把重要的网页放到搜索结果中比较靠 前的地方 这个问题看起来很容易 但是解决的方法却没有想象的那么简单 在谷歌诞生之前那段时间 流行的网页排名算法都很类似 它们都使用了 一个非常简单的思想 越是重要的网页 访问量就会越大 许多大公司就 通过统计网页的访问量来进行网页排名 但是这种排名算法有两个很显著 的问题 一是因为只能够抽样统计 所以统计数据不一定准确 而且访问 量的波动会比较大 想要得到准确的统计需要大量的时间和人力 还只能 维持很短的有效时间 二是访问量并不一定能体现网页的 重要程度 可能一些比较早接触互联网的网民还记得 那时有很多人推出了专门 刷访 问量 的服务 有没有更好的方法 不统计访问量就能够为网页的重要度排 序呢 就是在这种情况下 1996 年初 谷歌公司的创始人 当时还是美国斯坦福大 学研究生的佩

      2、奇和布林开始了对网页排序问题的研究 在 1999 年 一篇以 佩奇为第一作者的论文发表了 论文中介绍了一种叫做 PageRank 的算法 这种算法的主要思想是 越 重要 的网页 页面上的链接质量也越高 同 时越容易被其它 重要 的网页链接 于是 算法完全利用网页之间互相链 接的关系来计算网页的重要程度 将网页排序彻底变成一个数学问题 终 于摆脱了访问量统计的框框 三个孩子和豌豆游三个孩子和豌豆游戏戏 在详细讲述这个算法之前 不妨让我们用一个游戏 先来简单模拟一下 PageRank 算法的运行过程 以便读者更好地理解 三兄弟分 30 颗豌豆 起初每人 10 颗 他们每次都要把手里的豌豆全部平 均分给自己喜欢的人 下图表示了三兄弟各自拥有的初始豌豆数量 以及 相互喜欢的关系 箭头方向表示喜欢 例如老二喜欢老大 老大喜欢老二 和老三 第一次分配后 我们会得到结果如下 就这样 让游戏一直进行下去 直到他们手中的豌豆数不再变化为止 那么这个游戏到底是否可以结束呢 如果可以 最终的结果又是什么样的 在此我们用电脑模拟了这个过程 得出的结果是 老大和老二的盘子里各 有 12 颗豌豆 而老三的盘子里有

      3、 6 颗豌豆 这时候无论游戏怎么进行下 去 盘子里的豌豆数量都不会再变化 看到这里 读者可能会问 这个游戏和网页排序有什么关系 实际上 PageRank 会给每个网页一个数值 这个数值越高 就说明这个网页越 重 要 而刚刚的游戏中 如果把豌豆的数量看作这个数值 可以不是整数 把孩子们看作网页 那么游戏的过程就是 PageRank 的算法 而游戏结束 时豌豆的分配 就是网页的 PageRank 值 PageRank 的数学模的数学模型型 不同于之前的访问量统计 PageRank 求解了这样一个问题 一个人在网络 上浏览网页 每看过一个网页之后就会随机点击网页上的链接访问新的网 页 如果当前这个人浏览的网页 x 已经确定 那么网页 x 上每个链接被点 击的概率也是确定的 可以用向量 Nx 表示 在这种条件下 这个人点击 了无限多次链接后 恰好停留在每个网页上的概率分别是多少 在这个模型中 我们用向量 Ri 来表示点击了 i 次链接之后可能停留在每个 网页上的概率 R 0 则为一开始就打开了每个网页的概率 后面我们将证 明 R 0 的取值对最终结果没有影响 很显然 R i 的 L1 范式为

      4、1 这也是 PageRank 算法本身的要求 仍以上面的游戏为例 整个浏览过程的一开始 我们有 其中 A 表示每一次点击链接概率的矩阵 A 的第 i 列第 j 行 A i j 的含 义是 如果当前访问的网页是网页 i 那么下一次点击链接跳转到网页 j 的 概率为 A i j 这样设计矩阵 A 的好处是 通过矩阵 A 和向量 R n 1 相乘 即可得出点击 一次链接后每个网页可能的停留概率向量 R n 例如 令 R 1 A R 0 可 以得到点击一次链接后停留在每个网页的概率 之后一直迭代下去 有 对于上面的例子 迭代结果如下图 可以看到 每个网页停留的概率在振荡之后趋于稳定 在这种稳定状态下 我们可以知道 无论如何迭代 都有 R n R n 1 这 样我们就获得了一个方程 而整个迭代的过程 就是在寻求方程 R AR 的解 而无论 R 0 是多少 迭代无限多次之后 一定会取得令 R AR 成立的 R 值 整个求解 R 的过 程 就如同一个人在一张地图上的不同位置之间随机地行走一样 所以被 称为 随机行走模型 随机行走模型有一个显著的特点 那就是每一次迭代的结果只与前一次有 关 与更早的结

      5、果完全无关 这种过程又被称为马尔可夫过程 Markov Process 或马尔可夫链 Markov Chain 马尔可夫过程的数学定义是 如果对于一个随机变量序列 X 0 X 1 X 2 其中 X n 表示时间 n 的状态及转移概率 P 有 即 X n 只受 X n 1 的影响 则此过程成为马尔可夫过程 其中 P X n 1 X n 称作 一步转移概率 而两步 三步转移概率则可以通过一步转移概 率的积分求得 当状态空间有限时 转移概率可以用用一个矩阵 A 来表示 称作转移矩阵 transition matrix 此时转移概率的积分即为矩阵的幂 k 步转移概率 可以用 A k表示 这也是随机行走模型中的情况 而对于一个正的 每个 元素都为正的 转移矩阵 A 可以证明一定有 这就完整解释了为什么 R 0 的取值对最终结果没有影响 修正修正 悬挂网页悬挂网页 带来的不良影带来的不良影响响 但是这里有一个问题 即便 R 0 的取值对最终结果没有影响 用 R 作为网 页排序的依据是否真的合理 其实并不合理 因为当一个网页只有链入链接没有链出链接的时候 这个 网页就会像一个 黑洞 一样 将同一个连

      6、通子图中其它网页流向它的 PageRank 慢慢 吞掉 因为算法中虚拟的用户一旦进入那样的网页 就 会由于没有对外链接而永远停留在那里 这种网页我们称之为 悬挂网页 Dangling Link 这种 黑洞 效应是如此显著 以至于在一个连通性 良好的互联网上 哪怕只有一个 悬挂网页 也足以使整个互联网的网 页排序失效 可谓是 一粒老鼠屎坏了一锅粥 为了解决这个问题 佩奇和布林进行了修正 他们意识到 当用户访问到 悬挂网页 时 都不可能也不应该就停留在了这个页面 而是会自行访 问其它网页 虽然对每个用户来说 自行访问的网页与各人的兴趣有关 但在平均意义上来讲 佩奇和布林假定用户将会在整个互联网上随机选取 一个网页进行访问 所以他们给 PageRank 算法加入了一个新的向量 E 它的作用是 按照其 中所描述的比例来向全部网页分配悬挂网页每一次 吞掉 的 PageRank 这 样 相当于为悬挂网页添加了链向网络上全部网页的链接 避免了悬挂链 接的出现 以上就是谷歌背后最重要的数学奥秘 与以往那种凭借关键词出现次数所 作的排序不同 这种由所有网页的相互链接所确定的排序是不那么容易做 假的 因为

      7、做假者再是把自己的网页吹得天花乱坠 如果没有真正吸引人 的内容 别人不链接它 一切就还是枉然 而且 佩奇排序 还有一个重 要特点 那就是它只与互联网的结构有关 而与用户具体搜索的东西无关 这意味着排序计算可以单独进行 而无需在用户键入搜索指令后才临时进 行 谷歌搜索的速度之所以快捷 在很大程度上得益于此 结结语语 不过要强调的是 虽然 PageRank 是 Google 搜索结果排序的重要依据并以 此发家 不过它并不是全部依据 实际上 Google 发展到现在 已同时 用了数百种不同的算法来确定最终显示给用户的搜索结果顺序 关于 PageRank 还有一个小故事 拉里 佩奇是 Google 的创始人之一 也是 现任 Google 的 CEO 有意思的是 佩奇 的英文是 Page 恰好与 PageRank 的 Page 相吻合 这是巧合还是有意为之呢 在网络上笔者可 以找到的许多资料中 均提到 PageRank 是以拉里 佩奇的姓命名 但是所 有这些资料都没有提到这条信息的来源 所以其真实性无从得证 不过 既然佩奇本人没有出来解释 那我们也没有必要纠结于 Page 的含义 了 或许这个词本身就是佩奇利用双关语向我们开的一个小玩笑呢

      《谷歌怎样给搜索结果排序》由会员小****分享,可在线阅读,更多相关《谷歌怎样给搜索结果排序》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.