
搜索引擎优化.docx
8页什么是seoSEO(Search Engine Optimization),汉译为搜索引擎优化搜索引擎优化是一种利用搜索引擎的搜索 规则来提高目的网站在有关搜索引擎内的排名的方式SEO就是在了解搜索引擎排名算法的基础上,对网站进行站内和站外的优化,对网站存在的弊端加以 更正,提高网站关键词在搜索引擎中的排名,获得更多流量与转化率,从而获得盈利SEO可分为站外SEO和站内SEO两种了解搜索引擎工作原理站内SEO站外SEO排名算法站长工具案例分析搜索引擎工作原理爬行抓取预处理(索引)排名搜索引擎自动信息搜集功能分两种1、 定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互 联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库2、 提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等) 定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在 蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。
搜索引擎蜘蛛的爬行是被输入了一定的规 则的,它需要遵从一些命令或文件的内容第二步:抓取搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库其中的页面数 据与用户浏览器得到的HTML是完全一样的搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦 遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行爬行方式广度优先影响蜘蛛爬行的因素网站、页面权重高网站更新度:蜘蛛每次爬行都会把页面数据储存起来,第二次来的时候发现页面没有变化,就不再抓取 如果页面经常更新,蜘蛛来的也频繁导入链接与首页的点击距离是否导出链接过多是否有网站地图是否设置404页面第三步:预处理(索引)分桁网亟搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理1. 提取文字(去除格式代码,留文字部分)2. 中文分词基于词典匹配,词典匹配相对降低,准确性取决于词典的完整性与更新度基于统计,分析大量的文字样本,统计出字与字相邻出现的概率,几个相邻出现次数越多越可能形 成一个词两种各有优缺点,一般混合使用3•去停止词停止词就是那些页面中出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的 助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以” “却”之类的副词或介词。
这些词被称为停止词, 因为它们对页面的主要意思没什么影响搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更 为突出,减少无谓的计算量4. 消除噪声绝大部分页面上的一部分内容对页面主题也没什么贡献,比如版权声明文字、导航条、广告等所 以搜索引擎在预处理的过程会把这些无关内容进行消噪处理5. 去重同一篇文章重复出现在不同的网站或同网站不同的网址上,搜索引擎不喜欢重复性的内容索引前进行识别和删除重复内容;去重方法:选取一部分特征关键词(一般是出现频率最高的词), 十个左右,计算这些词的数字指纹(MD5算法);特征关键词有任何微小的变化,计算出来的数字指纹都 有很大的差距6. 正向索引经过以上步骤之后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容接 下来搜索引擎索引过程就是可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的 集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置这样,每一个页面都可以记 录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都会记录在案了文件ID内容文件1关键词1,关键词2,关键词7,关键词10, 关键词L文件2关键词1,关键词7,关键词30, ,关键词M文件3关键词2,关键词70,关键词305,……,关键词N文件6关键词2,关键词7,关键词10, ,关键词X文件x关键词7,关键词50,关键词90,关键词Y7.倒排索引正向索引还不能直接用于排名,因为在搜索某个关键词的时候,排名程序需要扫描所有索引库中的 文件,计算相关性,这样的计算量无法满足实时返回排名结果的要求,所以搜索引擎会将正向索引数据库 重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主 键,每个关键词对应着一系列文件,这些文件中都出现了这个关键词。
这样当用户搜索某个关键词是,排 序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件关键词文件关键词1文件1,文件2,文件7,文件58,……,文件关键词2文件1,文件7,文件30,……,文件M关键词3文件2,文件70,文件305,……,文件n关键词7文件2,文件7,文件10,……,文件x关键词x文件7,文件50,文件90,……,文件x&链接关系计算连接关系计算是预存处理当中重要的一步主流的搜索引擎排名因素都包含网页之间的链接交流信息事先必须计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚 文本等种种链接计算特别是百度的链接分析技术,在百度的排名算法中将链接占据到了很重要的一个位置9.特殊文件处理除了 HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、 WPS、XLS、PPT、TXT文件等我们在搜索结果中也经常会看到这些文件类型但搜索引擎还不能处理 图片、视频、Flash这类非文字内容,也不能执行脚本和程序第四步:排名用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接 互动的。
但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排 名规则都是根据日、周、月阶段性不同幅度的更新在蜘蛛爬行的过程中,外部链接越多的页面,其价值越高,在排名结果中就可能会越靠前,一个页 面的重要性,取决于外链的数量,特别是一些高质量的外链,对于百度来说,尤其是锚文本链接的数量与 质量度当然,里面需要考虑的因素还是很多的搜索词处理1. 中文分词2. 去停止符3. 指令处理完成分词后,搜索引擎默认的方式是:关键词之间“”的关系,如减肥方法,分词为“ 减肥”,“方法”,要既包含“减肥”又包含“方法”指令:“”:完全匹配,“-”:分词,“-”前面加空格表示不包含后面的词4. 拼音错误矫正5. 整合搜索明星易出现图片视频、搜索热门话题易出现资讯信息等搜索那些词易触发哪些整合搜索文件匹配倒排索引快速匹配文件初始子集合的选择找出包含所以关键词的匹配页面后,还不能进行相关性计算,因为找到的文件,由于页面较多,达到 几十万百万千万,对与这么多文件进行相关性计算需要的时间比较长实际上用户并不需要知道所有匹配的页面,用户一般只会查询前两页的内容,也就是前20的结果搜 索引擎也不需要计算这么多页面相关性,所以只要计算出最重要的一部分页面就可以了,所以用搜索引擎 的用户会发现,结果页只显示100个,点击下一页也只能看到100页,也就是1000结果页。
百度通常返回76页结果所以搜索引擎只需要计算前1000个结果的相关性,但是搜索引擎不知道哪1000个最相关,所以最后 计算相关性是通过页面子集合,而子集合必须依靠其他特性而不是相关性,因为匹配已经具备最基本的相 关性了,子集合的数目可能多可能少,外人不会知道,所以只会选择页面权重最高的子集合计算其相关性龄除惨瞼酔龄惨龄龄除燼< 上一页 66 67 68 69 70 71 72 73 74 75 76相关性计算影响相关性计算的主要有以下几方面因素:1) 关键词常用程度,越不常用的词对搜索词贡献越大2) 词频及密度3) 关键词位置及形式4) 关键词距离(匹配程度)5) 链接分析及页面权重除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关 性,其中最重要的是锚文字页面有越多以搜素词为锚文字的导入链接,说明页面的相关性越强链接分 析还包括了链接源页面本身的主题和锚文字周边的文字等站内SEO1.关键词研究为什么要研究关键词?1•确保目标关键词有人搜索2•降低优化难度3•寻找有效流量4•搜索多样性5•发现新机会1)选择关键词内容相关,搜索次数多,竞争小,不能太广泛(旅游),也不能太特殊(公司名称)找到平衡 占八'、百度下拉框(以及最下面的相关搜索)收录量(intitle:)(越多竞争越大)百度指数竞争对手网站的关键词内页排名情况百度竞价工具:站长工具关键词分析百度2工具2)关键词布局1•每个页面针对三个关键词2•避免内部竞争,页面关键词不能重复3•关键词以金字塔的形式分布在网站内部2. 结构优化搜索引擎友好网站结构的三点要求(1) 能找到目标网页必须有外部链接指向网站首页,这样搜索引擎才能发现我们的网站并进行抓取,然后蜘蛛沿首页 内部链接抓取更深层内容页,能很轻松的对网站内容进行遍历抓取。
2) 能抓取网页内容网页内容符合搜索引擎蜘蛛的抓取条件,被搜索引擎蜘蛛发现的URL必须可以被抓取,url中尽 量减少参数,避免蜘蛛陷阱3) 能提取有价值信息网站内容要有价值(四个建立高质量页面的硬指标)——不抄袭,提高文章质量,搜索引擎能从已 抓取的页面中提取有价值内容搜索引擎友好域名,服务器,robots.txt, nofollow, 404页面,301永久重定向,网站地图,清晰导航,url 设计,图片alt说明,精简代码,复制内容,蜘蛛陷阱(flash、session id、各种跳转、框架结构、动态url、 javascript链接、要求登录、强制使用cookies)一个页面只对应一个url,防止分散权重网站结构:物理结构、逻辑结构物理结构:扁平式物理结构和树形物理结构合理的利用的这两种结构有利于权重的传递 扁平式物理结构:所有网页都存放在网站根目录下,最友好,但是只适合小型的企业站 如下:http://www.(XXX).com/index.htmlhttp://www.(XXX).com/wenzhang1.htmlhttp://www.(XXX).com/wenzhang2.htmlhttp://www.(XXX).com/wenzhang3.html树形物理结构:对规模大一些的网站,往往需要二到三层甚至更多层级子目录才能保证网页 的正常存储。
如下:http://www.(XXX).com/index.htmlhttp://www.(XXX).com/lanmu1/http://www.(XXX).com/lanmu1/wenzhang1.html网站的逻辑结构也叫做链接结构,主要是指由网页内部链接所形成的逻辑结构逻辑结构和物 理结构的区别在于,逻辑结构由网站页面的相互链接关系决定,而物理结构则由网站页面的物理存放位置决定在网站的逻辑结构中,通常采用“链接深度”来描述页面之间的逻辑关系链接深度”指 从源页面到达目标页面所经过的路径数量,比如某网站的网页a中,存在一个指向目标页面b的链接,则 从页面a到页面B的链接深度就是1与物理结构类似,网站的逻辑结构同。
