你真了解百度中文分词技术吗?

日期:2012-05-21 12:06 /人气:228 /来源:互联网

  中文分词技术是搜索引擎必有的步骤,利用关键词搜索时采用特定的规则进行拆分和组合,形成特定的关键词组。中文分词技术就是为了用户更加快速,更加准确的查询到所需内容,这也是考虑到用户体验的问题。这里强调的是中文分词技术在搜索引擎工作原理的预处理(建立索引)和排名中都很重要。

  百度中文分词技术常见的以下三种:

  1、基于字符串匹配

  2、理解分词方法

  3、统计分词方法

  一、基于字符串匹配

  在基于字符串匹配中正向最大匹配法、逆向最大匹配法、最少切分这三种又比较常见。

  正向最大匹配法:利用关键词查询的时候,在百度排名第一位的是以标题和搜索的长尾词相符合,说明在网站条件相当的情况下,先显示标题匹配的网页。

  逆向最大匹配法:刚刚是正向最大匹配法相反的规则,即从右往左反向进行拆分和组合。

  最少切分:最小切分就是将一个个词组切分为最细化,甚者会一个字出现。

  二、理解分词方法

  理解分词方法:搜索引擎模拟人的思维,对其语句的理解进行分词技术。通过对存储的词语和语句的整合,进行分词理解。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。

  三、统计分词方法

  相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。我们常常不是使用粗体,黑体这些吗?原因还在于这对于搜索引擎理解同样有利。


 

关注梦蕾设计

作者:

咨询电话 17714411362 (点击查看详细)