北京软件开发分享:中文分词技术背后密码的讲解

了解搜索引擎，才可以更好地收录自己的软件，谷歌和百度在中文分词技术上有很大的差别！下来北京软件开发就给大家讲解这些差别所在。

第一，推导百度的中文分词技术

第1个例子说明,如果对检索提问用引号做精确检索,百度对其不进行分词运算。例2说明,如果输入用空格进行分割的若干个子字符串,百度对其自动做分词处理(如果用标点符号分割,也会做自动分词处理)。例3、6、7、8、10等都说明百度对检索词会进行多种切分方式,并且首先是不进行切分,直接匹配,如果有结果则返回,并排在检索结果最前面;然后再按照不同形式切分之后再去匹配。

例4对比尔盖茨的检索表明,百度有专有名词库,例5对旭日阳刚的检索表明,百度对新词收录较快。例9旭日阳刚才的分词结果为旭日阳刚/才也说明,百度对新词能够识别。

例11大长今天天向上,百度能够识别出大长今/天天向上,大长今为一韩剧名,天天向上为一综艺节目,百度均能正确地识别,表明其词库收词范围很广,收词量很多。例7、8说明,百度对在分词时不会忽略的、和这些意义不大的字(即禁用词),可以做更多的尝试,百度对了、吗等都不会忽略,仍作为检索词进行分词。

再探讨百度是正向最大匹配还是逆向最大匹配。例7中,对走路和气质可以分出走路/和/气质,这种结果像是逆向最大匹配法,再看例12,分居民生活水平,如果逆向最大匹配法的话应该是应该分为分/居民/生活水平,但事实上百度对这个检索提问的分词结果并不如此,在这个例子上看似为正向分词。因此,百度的分词不是单纯的正向最大匹配或者逆向最大匹配,采用的应该是双向最大匹配法。

通过有多种划分方式的例子(比如例8),可以看出,百度首先是不进行分词,得到朱德的母亲,然后再识别出专有名词或新词,剩余部分又按照先不切分的方式,得到朱德/的母亲,然后用最少切分法原则,并且用到了3元交叉切分法得到了朱德的/的母亲。

第二，推导谷歌的中文分词技术

例1说明,对于引号中的检索提问,谷歌不进行拆分;例2说明,用空格分开的子字符串,谷歌自动做分词处理(如果用标点符号分割,效果也一样)。

例3、4、5、6表明,谷歌对于专有名词和新词识别能力较差,对比尔盖茨、旭日阳刚等都进行了分词处理,甚至连忐忑都划分为了忐/忑,图书馆划分为图书/馆,中医药划分为中/医药,说明谷歌的词库较小。

例7、8说明,谷歌在分词时,会对检索提问中意义不大的字如的、和忽略,当作禁用词,然后再进行分词。

例9、10、11、12都印证了谷歌采取的是逆向最大匹配法,并印证了对专有名词和新词识别能力差。在12个例子中涉及的专有名词和新词中,只有朱德被正确识别。