SEO基础知识

百度蜘蛛Spider原理详细剖析

字号+ 作者:长沙seo强 来源:未知 2019-03-30 09:33 我要评论( )

Spider,蜘蛛,又名网页网络爬虫、网络机器人,是按照一定策略不断抓取互联网网页的特定程序。蜘蛛抓回的页面创建索引后参与排名,等待用户检索。为了网站优化自然排名上首页,精灵儿工作室下面详细剖析Spider原理。 蜘蛛分类 目前网络上的蜘蛛根据其作用及

       Spider,蜘蛛,又名网页网络爬虫、网络机器人,是按照一定策略不断抓取互联网网页的特定程序。蜘蛛抓回的页面创建索引后参与排名,等待用户检索。为了网站优化自然排名上首页,精灵儿工作室下面详细剖析Spider原理。
蜘蛛分类
       目前网络上的蜘蛛根据其作用及特征主要可分4类:批量型蜘蛛、增量型蜘蛛、垂直型蜘蛛和Deep Web型蜘蛛。

百度蜘蛛
1. 批量型蜘蛛
       该类蜘蛛有确切的抓取范围和目标,一般是一次具体的任务而出发,用于批量采集指定的数据项,达到预定目标后就会停止。数据采集工具或程序,就是这类蜘蛛。
2. 增量型蜘蛛
       该类蜘蛛没有限定抓取范围和目标,一直永无休止的抓取下去,增量型蜘蛛增量提现在两方面,一是抓取尽可能全的网页,二是对已经抓取到的网页进行再次抓取和更新。
       另外有一种说法“通用型蜘蛛”,这种蜘蛛业内有两种定义,都是永无休止的抓取网页,他们的区别在于是否包含增量更新,如果包含则与增量型蜘蛛是一种。
3.垂直型蜘蛛
       也叫聚焦蜘蛛,该类蜘蛛抓取指定类型的内容,覆盖面没有通用的增量型蜘蛛抓取的广,可以说是增量型蜘蛛的特定子类。淘宝搜索、优酷搜索、微信搜索等蜘蛛属于垂直型蜘蛛。
4. Deep Web型蜘蛛
       互联网里,有海量的网页与表层网络是脱钩的,普通的蜘蛛抓取不到这些页面,他们就是"暗网",另外一些需要注册登录才能访问的页面,蜘蛛也无法抓取到,目前各搜索引擎正在努力研究自己对这些内容进行抓取,它就是Deep Web型蜘蛛。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。
       百度、谷歌、搜狗、360搜索、神马等大型搜索引擎同时多个蜘蛛异步并发工作,以增量型蜘蛛为主,垂直型蜘蛛和Deep Web型蜘蛛为辅。
抓取入口
       蜘蛛抓取数据都需要起点,也就是入口,它们从指定的入口开启全网永不停止的抓取之旅。
蜘蛛抓取入口主要有:
(1)平台人工录入的种子网站。初始种子站一般是大全高权重站、知名导航站、大型DNS服务器站等,如网易官网、人民网、hao123。
(2)网站站长主动提交的网址。新网站可以把网址主动告诉搜索引擎,可以提高被抓取速度。百度、360、搜狗、谷歌等搜索引擎都有专门的提交入口。对一些专网暗网,搜索引起也只能等待主动提交入口。
百度链接提交入口: 
http://zhanzhang.baidu.com/linksubmit/url
360搜索引擎登录入口:
http://info.so.360.cn/site_submit.html
搜狗网站收录提交入口:http://fankui.help.sogou.com/index.php/web/web/index?
Google网站收录提交入口:
https://www.google.com/webmasters/tools/submit-url
抓取策略
       互联网页面几乎是无限的,为了在有限的服务器资源下尽量高效的实现网页抓取,蜘蛛会采取多种策略。在蜘蛛眼中,网络上的页面分为已抓取页面、待抓取页面、未抓取页面和无法抓取页面。

百度蜘蛛抓取
       为了提高工作效率,蜘蛛程序会建立已抓取页面列表和待抓取页面列表,已被抓取的页面进入已抓取列表,新发现的页面进入待抓取页面列表。未抓取页面,指暂未发现的页面,但链路是通的,迟早能被抓取的页面。无法抓取的页面,指链路不通,永远到达不了的页面,比如暗网。
       当蜘蛛分析一个页面时,发现了很多新的链接,这是面对一个选择:是先进入新发现的第一个页面,还是在本页继续登记新发现的第2,3,4...个页面。

百度蜘蛛策略
       深度优先策略是一直沿着纵深抓取,知道无法走下去,回溯到上一级兄弟页面。广度优先策略是分层一批批抓取。如果服务器资源无限,理论上两种策略最终结果一样,但现实服务器资源优先,需要尽快高效的抓取,一般采取广度+深度综合方式抓取策略。
       除了深度优先策略、广度优先策略,还有pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。
       从功能和重要性角度分析,蜘蛛会优先抓取权重高的网站和网站的重要页面。权重高的网站一般有丰富的内容、良好的结构、权威值得信赖等,被特殊照顾利于全网抓取效率。网站的重要页面是指首页、目录页,它们相对比内容详情页更有优势。
::本节知识点得出优化经验,(1)多发外链,特别是高质量的外链可以建立并缩短蜘蛛爬行路径,提高网页优化效率;(2)网站首页和目录比内容详情页重要、流量更大,seo优化上首页的落地页尽量放在首页其次目录页。
更新策略
       蜘蛛除了不断抓取新页面,另一个任务是更新已抓取页面。蜘蛛再次抓取,更新策略主要依据有哪些?
1. 用户行为体验
       用户行为体验指页面结构、点击率、回看率、评论数等。界面结构清洁,加载速度快更具优势;点击率高,用户回看率高,解决用户需求概率大更具优势;评论数多、点赞收藏等互动多更有优势。
2. 网站内容质量
       搜索引擎非常重视用户体验,非常喜欢持续生产原创内容网站,因为这对网络价值贡献大。
3. 历史更新频率
       蜘蛛每次访问页面会记录页面更新情况,如果页面长期不更新,几次之后蜘蛛就基本不再光顾。如果蜘蛛每次访问页面,该页面内容更新了,并且是有规律的更新,那么蜘蛛适应这种更新规律,尽量匹配规律抓取,提高其工作效率。
4. 网页权重
       内容丰富的大站、权威网站会被重点照顾,另外政府部门网站、认证的品牌官方网站、甚至已备案网站一般更新频率高。搜索引起是基于网址链接的权重信任传导,高质量网站的外链效果非常好。
5. 网页类型
       全网的网页类型很有限,蜘蛛很容易识别各网页类型。网页类型包括网站首页、目录页、专题页、内容详情页,蜘蛛对他们的更新频率依次降低。
::本节是SEO优化的重要内容,掌握了才能做好网站排名优化。另外,对应更新特别慢的页面,可以通过主动推送、sitemap、手工提交和自动推送提交链接,也可以尝试使用百度站长平台的”抓取诊断“工具抓取,有利于百度快速更新。
蜘蛛和正常用户的区别
       虽然搜索引起的蜘蛛尽量模拟像正常用户访问网页,但还是有些区别,熟悉他们之间的区别对SEO优化很有帮助。
        1. 蜘蛛可以识别网页是否隐藏信息、是否挂黑链接等,而正常用户一般无法识别。
        2. 蜘蛛目前无法读取和识别JS、Iframe、Ajax、图片和Flash内容,而正常用户可以。
        3. 蜘蛛访问没有Cookie,而正常用户有。
       4. 蜘蛛不会注册网址,无法访问注册后才能使用的页面(比如下单支付),而正常用户会。
        5. 蜘蛛不会读取网址robots配置屏蔽的页面,而正常用户会。
        6. 蜘蛛抓取动态动态参数的界面可能会陷入死循环(比如万年历),而正常用户不会。
        7. 蜘蛛对网页直接访问,不会Referer,而正常用户除了会直接访问,还会Referer。
       Referer允许由客户端指定资源的 URI 来自于哪一个请求地址,Referer 请求头让服务器能够拿到请求资源的来源,可以用于分析用户的兴趣爱好、收集日志、优化缓存等等。同时也让服务器能够发现过时的和错误的链接并及时维护。通过Referer找到你网站上的死链、追踪错误或者找到用户是通过哪些搜索条件找到你的网站的。它也可以被用来增强安全性:检查 Referer 头是一个阻止跨站请求伪造的办法。
原创: 精灵儿工作室

网站部分内容转载自其他平台,如有侵权请联系删除

1.本站遵循行业规范,转载的原创稿件尽可能标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 蜘蛛池是什么? 蜘蛛池对SEO有什么影响?

    蜘蛛池是什么? 蜘蛛池对SEO有什么影响?

    2019-11-10 21:41

  • 百度SEO排名优化如何判断关键词优化难度?

    百度SEO排名优化如何判断关键词优化难度?

    2019-05-11 09:16

  • 邢台网站优化:分析百度算法的原理

    邢台网站优化:分析百度算法的原理

    2019-05-08 17:56

  • 增加百度收录:网站为什么要经常更新内容?

    增加百度收录:网站为什么要经常更新内容?

    2019-05-08 09:25

万词霸屏系统