好咧
就这样吧

搜索引擎如何判断两篇文章的内容重复性

1.如果两篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicate,就是页面排版和布局和内容完全一模一样。 
2.如果两篇文档内容相同,但是格式不同,则叫做full-content duplicates ,就是虽然排版不同,但是文档的主要内容完全一致。 
3.如果两篇文档有部分重要的内容相同,并且格式相同,则称为partial-layout duplicates。就是页面排版布局一样,但是部分内容不相同。 
4.如果两篇文档有部分重要的内容相同,但是格式不同,则称为partial-content duplicates 。就是页面排版和布局不一样,但是主要内容是一样的。 
以上四条是具体的文档相似度计算方法,其它的还包括特征码抽取,数据聚类,工程化海量运算。 
说这四条是什么意思呢?意思就是,如果你想要尽量让搜索引擎看起来你是原创的,那么请尽量不要使用网上常有的模版或者一定要进行修改。保证布局的独立性。然后标题一定要自己写,然后用www.qilianw.com intitle指令确定标题的唯一性(将长尾包含到短句里面最好)。然后内容的长度,段落,一定要进行简单的修改,哪怕利用3分钟稍微打乱下格局也好。修改下相关关键字也好。
另外透露,如果是原创性文章的网站,利用gzip的压缩,可以减少引擎抽样去重的时间,一般会给加权,这个很多人是不知道。自己有服务器的赶快检查检查启用哦,Gzip是服务器自带插件。
相关推荐

最新回复