类名 功能说明
Analyzer 分析器基类,词法过滤和分析的类,即把文本分解成TokenStream,即Token的序列。Analyzer只是做包装,主要还是Tokenizer在起作用
StopAnalyzer
Analyzer扩展类之一,SimpleAnalyzer功能基础上加上过滤词功能
StandardAnalyzer
Analyzer扩展类之一,也是最常用的分析器,支持中文,日文等,单字切分。
SimpleAnalyzer
Analyzer扩展类之一,将除去字符之外的符号全部过滤掉,并且将所有的字符小写(大写)化
Token
Lucene最基本的单位,以单字切分则每个单字为一个Token,如果以中文分词来切分则每个词为一个Token
TokenStream
Token的序列
Tokenizer
继承于TokenStream,用于分词。一般扩展的自定义的分词都应该继承这个类
StandardTokenizer
Tokenizer扩展类之一,也是最常用的,支持中文,基于单字切分
TokenFilter
继承于TokenStream的子类,用于过滤。一般拓展的自定义的过滤类都应该继承该类
StandardFilter
TokenFilter拓展类之一,过滤英文字符的复数和dot(.)号.
LowerCaseFilter
对所有英文小写化
StopFilter
过滤掉指定的过滤词
没有评论:
发表评论