应对内容型网页文本指纹算法的SEO伪原创技巧
诺丁科技2023-06-100
“原创与伪原创已经是SEO们老生常谈的问题了,以高质量原创内容为主的站点,往往能获得稳定且持续的排名和流量。但要持之以恒的坚持原创并非一件容易的事情,因此伪原创便成了广大站长首选的内容产出策略。”
原创与伪原创已经是SEO们老生常谈的问题了,以高质量原创内容为主的站点,往往能获得稳定且持续的排名和流量。但要持之以恒的坚持原创并非一件容易的事情,因此伪原创便成了广大站长首选的内容产出策略。
顾名思义伪原创即是将一篇原创文章进行再加工,同时还能被搜索引擎判定为高质量文章的编辑方法。最常见的伪原创手段有数字替换、关键词替换、调整文章语句顺序、增加首尾段落总结、图文混排、段落替换法等。
但随着搜索引擎技术的不断升级,想要瞒天过海还是需要下一番功夫,仅仅是通过标题修改及段落拼接之类的初级伪原创,都会在搜索引擎下显形,从而被视作垃圾内容拒绝收录及排名。
搜索引擎判断网页质量不仅仅是对文章主体内容的识别,而是是综合整个页面的有效内容进行,包括文章主体内容及网页固定内容(侧边栏、推荐内容等)。因此我们将网页内容重复分为以下几种情况:
①寄生虫式网站内容产出:直接套用模板建站,因此在一定几率上出现同一模板重复使用,这样的页面内容和布局重复度过高,一般称之为完全重复页面。
②内容采集发布:自主设计开发网站模板或对模板进行优化(布局结构调整),尽可能降低页面布局的相似度优化网页差异性,当文章内容相同时称之为内容重复页面。
③采集内容简单处理:对两篇或以上原创文章进行段落筛选拼接而成的文章,尽管页面布局差异较大但文章主体内容的伪原创度较低,一样会被判定为低质量页面。
内容型网页文本指纹算法可以理解为搜索引擎判别重复内容的一种策略,而SEOer不必在意算法本身的技术原理。指纹算法顾名思义就是为每篇文章建立独一无二的指纹标识,以此判断文章是否为重复内容。内容型网页文本指纹算法生成文档指纹,首先将文本全部转换成拼音、截取每个字拼音的首字母、统计该粒度内字母的频率分布、通过和参考系比较,将结果进行归一化到一个闭区间内,按照字母顺序连接数字特征,得出的数字即该内容型文本的指纹。
如果对算法的具体原理有兴趣的朋友可自行搜索下k-shingle算法、Simhash算法、Minhash算法,虽然搜索引擎具有分词加权技术用于识别网页内容,但在蜘蛛爬行抓取阶段,还是优先使用指纹算法进行初步内容筛选,提升数据爬行抓取效率的同时降低服务器资源消耗。
我们一直强调原创内容是SEO的基础,但也会遇到相同的文章内容同时排名在搜索结果首页。此时细心的朋友就会发现,虽然文章内容主体相同,但页面布局差异较大同时网站自身权重较高。所以采集或转载并不是网站优化中绝对的高压线,但高质量原创却是新站优化的根基。
原创并不难,问题在于坚持原创并不是一件容易的事,因此伪原创成了绝大多数站长内容产出的核心策略。诺丁科技建议原创过程中不要误认为文字的原创就是高质量内容建设了,而是从解决用户搜索需求的角度出发考虑内容产出。因此将两篇或以上数量的文章伪原创时,杜绝简单的拼凑,而是能将核心内容重新表述,同时添加自身的心得经验。
搜索引擎一直提倡原创保护的憧憬很美,实际上却并不能精确有效的识别原创。虽然搜索引擎不会在乎内容的出处,也不在乎是由谁产出的,但绝对会在意内容是否能有效的解决搜索需求。因此高质量的伪原创应该是兼顾文字原创及用户搜索需求,实际优化操作中新站内容产出应注重文字的原创性,而老站和大站内容建设则需要将解决搜索需求放在首位。