一篇文章被抓取后会和数据库里面相关的主题-----再到相关的分类下,再细分最后和库里存在的文章相对比没有的话,就是原创。或者重复读不超过多少百分比;最直接的说就是说如果百度数据库里没有的它认为就是原创。
一、原创是有条件的,即百度收录之后的对比。
比如一个小网站发布了一篇原创文章,被新浪等权重较高的网站直接复制粘贴,标题内容丝毫不改新浪等高权重网站收录了而你的文章却没有收录。这时,你说哪个网站是原创。
二、回到题目,百度是怎么识别文章是原创的?
百度抓取你的文章之后,会将你文章的每个关键词生成一个相应的指纹与之前相似主题的文章关键词指纹进行对比。当发现核心关键词偏差比较大的时候,便会认为是原创。因此要注意在文章中布局自己的目标关键词,相关关键词在文章中也要多次出现。(此段纯属本人臆断)
三、原创的就一定好吗?
百度没有说你的文章必须要原创,只要符合用户体验的文章就是好文章。百度的字库通过对一些常用词的过滤后然后看主关键字出现的频率。应该在一点百分比比较合适就像关键字的百分比在百分之2-百分之8一样。当然肯定还会有相关文章对比如果其相识度超过百分60估计示为作弊。另外原创是效果不错,但是哪有这么多相关原创。
惠州网站建设公司易捷网络科技主营业务:企业网站建设、网站推广优化、企业邮箱申请、域名空间购买、网站备案、论坛网站建设和企业网站维护。