自媒体运营推荐算法之【判断两篇文章内容重复】

时间: 作者: 点击量:
  众所周知,目前互联网最热火的就是自媒体平台了,现在人人都是自媒体明星,只要会写字就能够赚钱,不也是什么神秘的事儿了。自媒体运营推荐算法之【判断两篇文章内容重复】
  
  但是为什么有些文章有推荐,有些则得不到推荐?下面运营阅小编给大家解读头条号的推荐算法是如何消除重复内容的。
  
  1,如何判断两个内容是否相同呢?
  
  如果让人来判断,可能就要逐字逐句地把文章读完才能判断得出来。通过计算机这样去判断当然也是可以的,不过,当每天需要处理的内容达到十多万篇次的时候,这么做即使对于计算机来也太麻烦了。
  
  2,有没有更简单的方法呢?
  
  有的,通过系统的计算,一篇文章的文本、标题、图片等都是可以转换成一串数字代码,这就像我们每个人的身份证,如果两个人的身份证号码一模一样,那么就可以肯定这是两个一样的人了,并不一定要仔细去看他们的长相。文字信息的「身份证」也能起到类似的作用,对于图片、视频等信息形式,原理也是类似的。
  
  3,什么是信息指纹
  
  信息的「身份证」,一种更常见的称呼是「信息指纹」,是计算机应用领域里经常用以判断信息重复性的方法。抢客户软件认为「信息指纹」的计算方法有很多种,但原理是相似的:
  
  你可能知道,不管是中文、外文还是数字,在计算机系统里,实际上都是以0或1的代码形式存储的,例如大写字母A的ASCII编码就是01000001,而小写字母z的ASCII编码是01111010(实际上也存在很多种编码标准,ASCII是一种常见的英语编码标准,采用8位二进制数字编码)。这实际上就相当于,每个字符都有一个自己专属的信息指纹。
  
  简单来说,计算会对文本中出现的不同字符的信息指纹,结合它们各自在内容中出现的次数,反复进行算术运算,最终得到一篇内容的信息指纹。理论上说,如果运算足够多的次数,就会产生足够独一无二的数字结果。
  
  信息指纹的重复概率有多低呢?假设我们通过上面的计算,得到一串128位的二进制数字,这在计算机系统里只需要占用很小的空间,但是根据「抽屉原理」,这样的数字重复一千八百亿次才能重复一次!这对于一般的信息消重来说,已经非常足够了。
  
  总而言之,舆管家觉得同文章具有不同信息指纹,或者不同文章具有相同信息指纹的概率都几乎是0,对于“消重”机制,不必担心误判,也不能心存侥幸!
  
  原理上说,不同内容的身份证是不一样的,而相同内容的身份证是一样的。并且,相似的内容会具有相似的身份证。这是头条号的系统对内容进行消重的基础。
  
  每一篇文章都有属于自己的「身份证」,用来与平台中的其他文章进行比对。
  
  此处介绍的只是计算原理,并非实际发生的计算过程。
  
  说了这么多,不知各位读者是否有了解一二呢?
  
  这篇文章也是由头条官方所发,里面给各位内容创作者提供了不少的思路,希望对大家有帮助。
  

上一篇:没有了

下一篇:自媒体运营之百家号推荐机制

注册体验: