山滚云

搜索引擎的爬行,抓取,索引与收录

SEO基础优化 9602℃

大家好,蜗牛SEO上一节给大家分享了  HTTP返回状态码的含义,以及详细使用方法。  很多朋友都表示很喜欢,内容很全面,不少朋友表示对其进行了收藏。接下来呢,蜗牛将给大家继续爆一个每个SEOER都喜爱不已的干货。

搜索引擎爬行,抓取,索引与收录。相信不止一个朋友,或者所是大多数朋友都对这个话题特别的感兴趣。蜗牛SEO这次就会将这个惊天大秘密悄悄得告诉大家。(一般人我还真不告诉他)。

爬行,抓取,索引 收录

 

一、      爬行,抓取,索引,收录原理

首先大家要明白一点,各家搜索引擎有所不同,但是所有搜索引擎的工作原理都是千秋有同的。所以,只要你按照搜索引擎的喜好去做好了,那么,有一家搜索引擎喜欢上了你的网站,其它搜索引擎,想不喜欢都难。因为你已经成大众情人了。

蜘蛛的工作原理是,进入一个网站后,一边爬行,一边抓取。它在爬行的过程中沿着链接发现新页面,然后“爬”过去抓取新页面。爬行只是一个形象的比喻,实际上并不存在蜘蛛抓取文件时发现链接然后立即跟踪过去这样一个过程。

抓取是指蜘蛛发现新的页面后,像浏览器一样打开页面,把页面HTML代码和图像音乐等元素存入数据库。显然,爬行和抓取是相互交织的。抓取是实际发生的我们能够观察到的过程,在原始日志中,蜘蛛的抓取是有完整记录的,比如:抓取确切时间、状态码、抓取的文件是哪个、抓取了多大文件等等。蜘蛛对页面的抓取和浏览器读取文件是基本一样的。蜘蛛抓取文件后存入数据库,程序解析出文件中的链接后将URL存入页面地址库,然后蜘蛛从地址库中按一定规则选取URL进行抓取。蜘蛛不是真的访问页面时看到一个URL就爬过去

索引指的是将一个URL的信息进行各种整理,如去重、分词等等,然后将关于这个URL的信息存入数据库,被称为索引库。要注意的是,索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等),还有链接、更新情况等信息。英文索引这个词是index。

收录是SEOer们最关心也最常用的词,其实也是4个概念中最不明确的。被收录指的是我们能查到页面被搜索引擎存入了索引库。但进入索引库的URL并不一定被抓取过,这和SEO们的直觉可能是不一样的。

二、      搜索引擎会把什么样的数据放进索引库呢?

通过蜗牛SEO的解释,相信大家已经清楚,只有你在网站上有更新,蜘蛛才会爬行过后进行抓取,当蜘蛛把抓取的页面放进数据库,搜索引擎分析过后认为有价值,他才会将内容放进索引库。那么,搜索引擎会把什么样的数据放进索引库呢?

新的,权威的,用户认可的,很少看见的,我想用这四个词来形容最好不过了。

新的就是指原创的,在其它任何一个角落搜索引擎都没有见过的。

权威的,是指受到信任的,权重高的,比如腾讯,新浪,搜狐,网易,你在上面发个垃圾信息,搜索引擎都会去收录它。因为它的权重高,它更新的内容多,质量高,被搜索引擎所重视。

用户认可的,你写的内容有让用户看下去的愿望,如果你写得内容死气沉沉,用户看着看着想睡觉,我想,用户体验一定不会很好,那么搜索引擎也不会对这样的网页给予高的权重。

很少看见的,比如,四川发生地震,广东多了一便SARS病例,深圳举行大运会,北京举行奥运会,这样的信息,这样的信息是具有很强的时效性的,机会稍纵即逝,所以这样的网页搜索引擎一抓到马上就会把它放进索引库里面。

三、      收录之后的展现

网页收录之后,自然是拿来给用户看的,那么,我们怎么知道哪些内容被收录了呢?

  1. 直接通过搜索引擎可以搜索到的数据
  2. 用site或是站长工具查询到的收录数据。
  3. 时间决定信任度,搜索引擎最先抓到的一般被认为是原创。
  4. 收录之后的排序,收录到页面之后,搜索引擎会进行一个排序,根据相关度与质量来给予相应的排序。我们搜索到的一个关键词的排序一般是由网站信任度与同业竞争度来决定的,因此出现了一些关键词很容易排到前面,一些关键词很难排到前面。

四、      如何让快照更新,如何增加收录量与关键词的排名?

  1. 投搜索引擎之所好,多创作新的,用户认可的内容。养成定时或定期更新的习惯,让搜索引擎定时爬取。
  2. 多创作相关的,优质的内容,让搜索引擎与用户认可你的站点,让用户直接访问网站来获取内容,同时让搜索引擎根据用户的喜好来给你站点高的权重值。

 

关掉本节的内容,蜗牛就讲到这里了,如果大家对此话题还意犹未尽,请大家说  蜗牛SEO博客  给蜗牛留言或者去找蜗牛一起来研究这个话题。希望本篇文章使大家对搜索引擎对内容的收录有进一步的了解和认识。

转载请注明:⎛蜗牛SEO⎞ » 搜索引擎的爬行,抓取,索引与收录

阿里云服务器云数据库一年最优惠时刻,马上咨询~
1、腾讯云总面值2000元代金券,最高抵扣36个月订单  点击立即领取>>
2、腾讯云轻量应用服务器 2核2G3M, 62元1年  咨询即享优惠>>
3、腾讯云轻量应用服务器 2核2G4M, 118元1年,135元15个月,540元3年  咨询即享优惠>>
4、腾讯云轻量应用服务器 2核4G5M, 218元1年,252元15个月,756元3年  咨询即享优惠>>
5、腾讯云轻量应用服务器 4核8G12M, 646元15个月  咨询即享优惠>>
6、腾讯云轻量应用服务器 8核16G18M, 1668元15个月  咨询即享优惠>>
7、腾讯云轻量应用服务器 16核32G28M, 4224元15个月  咨询即享优惠>>
8、腾讯云服务器 CVM2核2G1M S5-个企同享, 313.2元15个月;CVM2核2G3M, 469.8元15个月 咨询即享优惠>>
9、腾讯云服务器 CVM S5-个人专享 2核4G1M 748.2元15个月;2核4G3M 904.8元15个月 咨询即享优惠>>
10、腾讯云服务器 S5-个人专享CVM:4核8G1M 1437.24元15个月;4核8G3M 1593.84元15个月;4核8G5M 1767.84元15个月 咨询即享优惠>>
11、腾讯云服务器 CVM8核16G5M S5-个人专享,3048.48元15个月 咨询即享优惠>>
12、腾讯云服务器 CVM S5 2核4G1M ,3603.6元5年;2核4G3M ,4953.6元5年;2核4G5M ,6453.6元5年 咨询即享优惠>>
13、腾讯云服务器 CVM S5 4核8G1M 6490.44元5年;4核8G3M 7840.44元5年;4核8G5M 9340.44元5年 咨询即享优惠>>
1、华为云1核2G1M HECS 1年64.5元   每天早上9:00开抢,手慢无  咨询即享优惠>>
2、华为云2核2G3M 云耀L实例 3个月33.01元 1年88元  咨询即享优惠>>
3、华为云2核2G4M 云耀L实例 1年108元   每天早上9:00开抢,手慢无  咨询即享优惠>>
4、华为云2核4G5M 云耀L实例 1年198元 3年1010.68元  每天早上9:00开抢,手慢无  咨询即享优惠>>
5、【香港】华为云1核2G1M S3云服务器 1年99.00   每天早上9:00开抢,手慢无  咨询即享优惠>>

1、景安快云VPS基础型33一个月,198六个月,258一年,399二年,499三年,788五年。  咨询即享优惠>>
2、景安快云服务器1核1G0M,28一个月,228一年,388二年,488三年,666四年,828五年。  咨询即享优惠>>
3、个人A型企业A型虚拟主机22一年,44两年,66三年,88四年,110五年,220十年。  咨询即享优惠>>
5、西部数码虚拟主机云峰A型270元5年,LinuxA型300元5年  咨询即享优惠>>
6、【香港】恒创科技香港轻量云服务器1核1G10M 218元1年,436元3年,654元5年起  咨询即享优惠>>
7、独立IP虚拟主机(香港)150M 78元/年起,300M 108元/年起,500M 128元/年起  咨询即享优惠>>
8、香港cn2虚拟主机 100M 30元/年起,300M 60元/年起,500M 78元/年起  咨询即享优惠>>

山滚网络是国内领先的搜索营销服务商,有丰富的客户服务经验,我们有专业的网站优化、网站建设、APP开发、全网营销团队,可以持续为您提供优质的服务,您的满意是我们不懈的追求。

城市分站:上海SEO北京SEO广州SEO深圳SEO深圳建站公司武汉SEO重庆SEO成都SEO

业务范围:网站优化,深圳建站公司,虚拟主机    微信:ganshangwoniu    QQ:549233124    业务咨询热线:177-2050-9380

   Copyright © 2008-2024 山滚网络版权所有   

QQ在线咨询
上海SEO山滚网络微信号