百度快照抓取网站的原理及问题
网址: 浏览次数:1150 发布日期:2011/10/22
网站关健词:百度快照抓取网站的原理及问题
百度排名:
-
网站在搜索引擎(SE)里的具体表现,是每个SEO都非常关注的问题,SEO工程师经常根据快照来分析网站的状态,针对快照的更新情况来做调整,以便更好地优化或者提升网站的综合指标。快照,在搜索引擎中的应用,为分析网站提供了有利的条件因素。<br />
我们拿百度来举个例子,其他搜索引擎的原理都大同小异。百度快照的定义,参见百度搜索帮助:每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。而官方给百度快照赋予的功能就是,在查询结果中将要打开的网页无法打开或者载入速度很慢的时候,“百度快照”可以快速浏览页面内容。<br />
百度快照的原理,百度搜索引擎内部搜索程序对网络上的数据进行组织处理的过程,对文件数据会进行索引存储的具体体现就是百度快照。通俗来讲,百度获取数据的过程,就是分发出百度蜘蛛,在整个互联网通过彼此的链接互通情况下获取数据;而百度快照是在百度蜘蛛通过某一链接到达新的网站或单个页面时,对这个网站首页或者单个页面的数据存储;百度内部机制会根据具体的算法,对数据进行归类索引缓存,用户检索时,百度在通过提取数据库服务器中索引的缓存数据,就看到了的快照。<br />
我们经常会发现百度快照有时候更新,有时候却又很久都不变,那百度快照到底有什么几率呢,其实这一切都在服务器日志中可以看到。<br />
百度快照很多站长在抱怨我的快照一直停留在23 24 16这样的时间 每个月更新一次,有的甚至半年没更新<br />
快照也是一个搜索引擎的附加程序作为搜索引擎的一环 所有的程序都要求是处理最优结果,节省运算时间为前提处理数据<br />
所以百度对于每个网站都有一个快照更新的评级,在百度这个现象很明显,当然对主页和内页的评级也是不同的这个不多赘述<br />
他评级的标准就是按 几次蜘蛛抓取的数据分析,数据大幅度更新(比较一组数据,更新量大到一个值的时候)<br />
举个很概念的例子:百度标准数据更新值如果是7,你页面蜘蛛抓取第一次和第二次做对比 更新值是3不达标,第三次抓取跟第一次对比数据更新是8了,OK截取第一次和第三次之间的时间间隔。<br />
当然这个是很笼统的说法,百度要进行几次对比后取个均衡量做评判,这个就不是我们能知道的,但是这样的一个算法的原理我们知道了<br />
这样的做法就是可以让快照程序有针对性的去更新网站的快照,而不是所有网站不分类别一起更新,这样对运算的时间和成本节省不少<br />
知道有这么个评级之后所有的事情都好办了,这个评级百度没有公开,目前也不知道百度对一个网站重新评估 更新 评级的间隔是多少时间<br />
但是SEO要做的事情如果是让更新快照的频率更高的话其实很简单<br />
既然我们知道原理了,我们就有针对的操作方法<br />
第一步 查看你的服务器日志,了解一下百度蜘蛛对于你的网站页面抓取的规律<br />
第二步 知道蜘蛛对一个页面抓取的时间间隔之后,列出一个内容更新时间表<br />
第三步 在每相邻两次次蜘蛛抓取间隔中更新你的页面内容,集中在这个时间段内更新(举例:比如你本来更新内容是10小时,但是这10小时中蜘蛛已经来过三次了那么你就要想办法把这10小时的量更新在一次间隔中尽量压缩-以上举的时间只是个例子具体看网站具体情况)能够频繁的更新是最好的了<br />
百度快照的常见问题:<br />
一、快照不更新。<br />
问题分析:导入链接扇入面积不大,也就是网站的外部链接过少;网站长时间不更新或更新没有规律;对网站进行改版或空间不稳定。<br />
解决办法:通过对百度快照定义原理的理解,百度只有通过链接抓取、索引本站数据建立快照的,为百度蜘蛛营造更顺畅的多条通路到达网站就是最好的解决办法。<br />
二、快照更新不及时。<br />
问题分析:和快照不更新问题一样,但在这里说明的原因是百度的审核机制,会对网站数据过滤,甚至人工审核,不排除此情况导致的原因。<br />
解决办法:同快照不更新,同时网站内部不要出现我国特色的河蟹内容。<br />
三、首页快照回档。<br />
问题分析:对网站进行改版或者空间不稳定;网站本身或者链接网站被K。<br />
解决办法:不要经常对网站主题或者各项设置参数进行变动,尽量选择稳定快速的空间服务商,网站不要频繁使用非常规推广手段,网站内容尽量原创实时更新,不要大面积进行采集。<br />
四、删除快照。<br />
解决办法:<a href="http://www.baidu.com/search/web_tousu.html">http://www.baidu.com/search/web_tousu.html</a>#网页快照处理<br />
P.S. 百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容,会无法显示。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。<br />
通过百度快照的观测,可以确保网站正常的收录排名,给站长和优化推广人员一项参考指标。在实际操作过程中,不乏出现相关的其他问题,本文不再详细讲解,但是都可以围绕搜索引擎运作的原理来寻找根本的原因和解决的办法。<br />
百度是SEO的神,它的一举一动我们都要时刻注意,否则我们的网站就悲剧了,如果知道了它的搜索原理就好办多了。