首页 > 网络推广 >

网站推广公司浅析什么是分词技术

发布时间:2020-03-28 作者:网站推广

  网站推广公司浅析什么是分词技术,分词是中文搜索引擎特有的技术。中文信息和英文信息的差别在于:英文单词与单词之间是用空格分隔的,这对中文就行不通了。搜索引擎必须将整个中文句子切割成小单元词,如“我的兄弟姐妹”拆分出来的形态是“我” “的”“兄弟” “姐妹”。分词技术的效率直接影响到整个系统的效率。
  分词的方法基本上有两种:基于字符串匹配的分词和基于统计的分词。
1.基于字符串匹配的分词方法
  按匹配方向的不同,分词方法可分为正向匹配、逆向匹配和最少切词。可将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正问最小匹配、逆向最小匹配。
  正向最大匹配:假设字典中最长的词的字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后取短语的前m个字,在字库里面查找是否存在这个词,如果存在,短语就去掉这个词:如果不存在,就去掉这m个字的最后一个字。接下来检查剩下的词是否是单字,若是则输出此字并将此字从短语中去掉,若不是则继续判断字库中是否存在这个词,如此反复,直到输出一个词。此后继续取剩余短语的前m个字,如此循环,这样就可以将一个短语分成词的组合了。
以“我是一个好人”为例,假设字典中最长词的字数为3,正向最大匹配顺序为:
(1)取出短语“我是一”,检查“我是一”是否在字典中存在或是一个单字,处理结果是去掉最后面的“一”字:
(2)检查短语“我是”是否在字典中存在或是一个单字,处理结果是去掉“是”字;
(3)检查“我”字是否在字典中存在或是一个单字,  “我”是一个单字,将“我”字输出;
(4)继续取出婚语“是一个”,检查“是一个”是否在字典中存在或是一个单字,处理结果是去掉最后面的“个”字:
(5)检查短语“是一”是否在字典中存在或是一个单字,处理结果足去掉“一”字:
(6)检查“是”字是否在字典中存在或是一个单字,  “是”是一个单字,将“是”字输出:
(7)取出短语“一个好”,检查“一个好”是否在字典中存在或是一个单字,处理结果是去掉最后面的“好”字:
(8)检查短语“一个”,发现是字典中的一个词,直接输出;
(9)检查短语“好人”,发现是字典中的一个词,直接输出:
(10)最后输出结果为:  我、是、一个、好人。
  逆向最大匹配:由句子结尾处起进行分词的方法。逆向最大匹配技术最大的一个作用是用来消歧。如“姚金刚周末去了汤河口镇钓鱼”,按照正向最大匹配结果为:姚/金刚/去/了/汤/河口镇/钓鱼,很明显这当中产生了歧义。汤河口镇是一个地名,没有被正确切分。采用逆向最大匹配技术可以修正这个错误。例如设定一个分词节点大小为8,那么“去了汤河口镇钓鱼”中“去了”就被分出来了,剩下“汤河口镇钓鱼”,这样一来歧义就消除了。正向最小匹配/逆向最小匹配:一般很少使用到,实际使用中逆向匹配的精准度要高于正向匹配度。
2.基于统计的分词方法
  基于统计的分词方法是直接调用分词词典中的若干词进行匹配,同时也使用统计技术来识别一些新的词,将所有的统计结果匹配起来以发挥切词的最高效率。
  分词词典是搜索引擎判断词语的依据,基本上收录了汉语词典当中所有的词。深圳网站推广公司本文关于“网站推广公司浅析什么是分词技术”的知识就介绍分享到这里,谢谢关注,博纳网络编辑整理。
文章标题:网站推广公司浅析什么是分词技术
本文地址:https://www.198bona.com/news/5767.html
如果您觉得案例还不错请帮忙分享:

网站建设

网络推广

解决方案

域名主机

建站行业资讯