网站文章内容页面不收录原因分析流程及解决办法

收录是SEO优化的基本要求,被收录的网页才有可能被搜索引擎建立索引,并具有独立的关键词排名竞争及搜索展现机会。无论新老站网站都应当做好文章内容收录情况检测,对未收录链接按照搜索引擎收录原理与流程进行分析,针对不收录的具体原因做出调整解决收录问题。

收录是任何网站SEO优化中都需要重视的问题,无论是新站不收录还是老站新内容不收录,都可以按照搜索引擎收录原理及索引入库处理流程逐步分析,需要注意的是不同站点信任度所需要的时间周期不同,尤其是新上线站点在度过新站考核期(沙盒期)之后才会与普通站点一样正常收录并建库索引。

网站收录索引

收录和索引的区别

收录和索引是网站SEO优化中相对基础且相对重要的两个概念,首先只有被建入索引库的网页才有获得关键词排名及搜索流量的机会,其次网页只有被收录才有建立索引的可能,也就是说收录与索引之间存在着包含与被包含的关系且收录量大于索引量。

对于收录和索引的包含关系与重要性的争议并不大,但在收录、索引的状态判定进行量化统计过程中容易发生混淆。比如将网页链接搜索结果中提示“没有找到该URL”当做未收录处理,或将site指令查询域名得到相关结果数(索引量)误以为收录量。

索引量估算数值

其实从搜索结果页中的提示文字“数字为估算值。网站管理员如需了解更准确的索引量,请使用百度站长平台”,已经表明了搜索引擎高级site指令查询结果为估算索引量数值而非收录量数值。

网页未建库索引

而通过搜索网页链接得到“没有找到该URL”的提示,应正确的理解为该URL尚未被搜索引擎建入索引库,而不是认为该页面链接未被搜索引擎收录。此外百度官方声明未提供任何查询收录的工具,站长可通过网站Log日志分析Baiduspider蜘蛛程序访问记录估算收录,真实的索引量也只能通过百度搜索资源平台索引量工具查询。

搜索引擎收录及索引建库原理和处理流程

根据百度官方对收录与索引的说明,不难看出搜索引擎收录指的是页面被Baiduspider发现并完成初步分析,经蜘蛛程序分析后认为有意义和价值的页面才做建库索引处理。之所以会对收录和索引产生混淆,原因在于将搜索引擎对网页处理流程分为蜘蛛爬行抓取、页面分析收录以及建立索引三个阶段,故而导致了收录和索引节点的定位模糊。

老站新内容不收录原因及解决办法

按照对收录索引概念的混淆来看,所谓的老站新内容不收录,应该是指文章内容页面没有被搜索引擎做建库索引处理。因此先要分析确定新内容页面不被收录索引的问题所在,可以先对网站日志分析蜘蛛程序爬行情况,确定目标URL链接是否被Baiduspider正常访问分析。

如果在网站日志中存在该链接被蜘蛛程序抓取分析的访问记录,其实就已经代表了该页面链接被搜索引擎收录,但经过Spider程序初步分析认为页面质量不高或不符合建库索引要求,此时需要围绕页面内容质量进行分析是否为采集内容或搜索价值不足。

对于没有任何Baiduspider访问记录的链接,尤其是旧页面链接被频繁爬行抓取而新页面内容抓取异常时,就需要考虑内链结构的合理性是否利于搜索引擎遍历网站,同时在蜘蛛抓取配额资源相对有限的情况下,为搜索意义不大的页面链接添加nofollow属性减少蜘蛛资源的浪费。

添加nofollow属性值

新站不收录属于正常却又较为特殊的一种情况,无论是百度还是谷歌等搜索引擎,都会对新站设置一定的考核期,这种新网站考核也称为SEO沙盒期,不同搜索引擎沙盒期网站表现有所差异,唯一相同的就是都不会给予新站任何重要排名和流量。

想要尽快度过新站沙盒期成为普通网站参与正常收录和关键词排名竞争的话,首先避免频繁修改网站标题及结构以免沙盒效应无期限延长,其次完善网站主体备案等资质信息提高内容生产者的可信度,最后深耕所属领域保持一定的优质内容更新频率提升内容生产者的权威度。