首页
业务
关于
客户
服务
联系
13520390899
资 深 的 互 联 网 开 发 服 务 商
专注于 网站开发 / 小程序开发 / APP开发 / 软件开发
网十科技 > 动态

集群安定门小程序开发—搜索引擎如何区分原创内容?

1、对文章的内容进行分析比较

首先从搜索引擎角度去考虑:

用户在做伪原创的时候,会经常用到的方法有:

删除部分内容

添加部分内容。在复制过来的文章里添加上两句,或是把多篇文章合在一起。

调换内容顺序。把原文1.A,2.B,3.C,4.D,5.E改成1.C,2.B,3.E,4.A,5.D

用分词技术后对相关的内容进行比较,分析项目有:

字数大小

几个关键字出现频率

文中任几句话

链接

程序分析过程:

如果并且并且并且

或者文中任5句以上的话是一致的

那么判定为抄袭或伪原创。

由上面的程序分析过程中,可以看出:简单的删除内容、添加合并部分内容、调换内容顺序、段落顺序并不能让搜索引擎当做原创。为什么?因为用如上简单的的方法就可以看出大概了。字数大小、几个关键字出现频率、链接这都好办,文中任几句话对比这就不好办了。

2、标题

如果是一样的,那很有可能是复制,但要是改了一下标题呢,如把《成都租车常识》改成《教您怎样在成都租车》,意思没变,文字变了。所以,不能仅靠标题来判断是不是原创。但可以做以下分析:

因为搜索引擎的数据量实在太大,不可能对所有的内容进行遂一的结比,而是同样是使用分词技术:

如果搜索引擎蛛蛛访问的页面是一个新的页面,那么,它将先把这个页面内容收集起来,放入一个数据库,等其它程序如专门对比内容是不是原创、是不是有价值的程序进行处理。这时候,这个内容将不会被搜索出来。

分析内容。也是利用了分词技术,对标题、内容等进行分析。得出了这个页面的主要内容。如《周杰伦2010年专辑》这样的篇文章时,它将与包括周杰伦、2010、专辑这样的关键词的文章进行比较,而不用与所有的小程序进行比较。如果结果是原创、比较有价值,则进行收录,给比较高的权重。如果被认为是复制或抄袭,则不进行收录,或是给的权重很低。顺便要说的是,对于这个页面的权重,不仅仅是跟其本身的内容、本身的内容有关,能不能有好的排名,还要跟整个站点的权重有关。打个比方,如果这个页面的权重是3,小程序的权重是3,那加起来是6。要是别的小程序转载了这个文章,文章的权重是1,但他的小程序的权重是7,那加起来就是8。6<8所以转载的文章还是会排在原创文章的前面。

信息来源网十科技:集群安定门小程序开发

7x24
售后服务支持
10
故障时长赔付
16
16年行业服务经验
20
售后服务人员
70
设计、开发团队
10
国内顶尖技术专家
1000
大型及上市企业
版权所有 © 北京网十互动科技有限公司 网站 APP 小程序 软件 备案号:京ICP备16050073号-2

电话咨询