全国服务热线:400-885-2225

Lucene分词器简介

  在一个文档被索引之前,首先需要对文档内容进行分词处理,分词器的一般工作流程:

  1. 切分关键词

  2. 去除停用词。

  有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响,例如英文的“a、an、the、of”,或中文的“的、了、着”,以及各种标点符号等,这样的词称为停用词(stop word)。文本经过分词之后,停用词通常被过滤掉,不会被进行索引。在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理)。排除停用词可以加快建立索引的速度,减小索引库文件的大小。

  3. 对于英文单词,一般要还做:英文单词的所有字母转为小写和形态还原

  说明:形态还原,是去除单词词尾的形态变化,将其还原为词的原形。这样做可以搜索出更多有意义的结果。如搜索working时,先将working还原成work,再搜索work。

  腾科IT教育Java技术编辑

 
点击QQ沟通