IKAnalyzerLUCENE.4.9中文分词的高亮显示资源-CSDN下载

共5个文件

jar：4个

java：1个

IKAnalyzer

中文分词

高亮显示

4星 · 超过85%的资源需积分: 9 141 浏览量 2014-09-16 07:49:13 上传评论收藏 3.7MB 7Z 举报

在IT领域，中文分词是搜索引擎和文本处理系统中的关键环节，它涉及到将连续的汉字序列分割成具有独立语义的词语。IKAnalyzer是一个开源的Java实现的中文分词器，设计目标是提供一个轻量级、高效且易扩展的中文处理工具。它广泛应用于全文检索、信息抽取、自动文摘等领域。而Apache Lucene则是一个高性能、全文本搜索库，为开发者提供了完整的搜索功能。标题"IKAnalyzer LUCENE.4.9 中文分词的高亮显示"表明我们将探讨如何使用IKAnalyzer与Lucene 4.9版本相结合，实现搜索结果的关键词高亮功能。高亮显示有助于用户快速识别和理解搜索结果中的重要信息。 IKAnalyzer的特点： 1. 支持词典动态加载，可以方便地添加自定义词典。 2. 基于Aho-Corasick算法的多子词模式，提高了分词效率。 3. 提供灵活的扩展接口，允许用户自定义分词策略。 4. 支持英文和数字的分词，以及中文和英文混合的处理。 Apache Lucene 4.9中的高亮显示： 1. 使用Highlighter类来实现高亮。它可以根据查询分析器（如IKAnalyzer）生成的分词结果，对文档中的匹配关键词进行突出显示。 2. QueryScorer用于评估文档中每个匹配项的评分，根据评分决定高亮的程度。 3. HTMLFormatter用于将高亮的关键词包裹在特定的HTML标签中，如`<em>`，在网页中呈现为斜体，以吸引用户的注意力。实现步骤： 1. 创建索引：使用Lucene的Analyzer（这里是IKAnalyzer）对文档内容进行分词，然后构建索引。 2. 执行查询：用户输入查询后，使用相同的IKAnalyzer分析查询字符串，生成Query对象。 3. 分析文档：对匹配的文档，使用QueryScorer计算每个匹配项的评分。 4. 高亮处理：通过Highlighter，结合QueryScorer和Analyzer，找出文档中所有需要高亮的部分，并用HTMLFormatter进行格式化。 5. 返回结果：将高亮后的文档内容返回给用户展示。在"src"和"lib"这两个文件夹中，"src"可能包含了项目的源代码，包括IKAnalyzer的配置和Lucene的索引创建、查询、高亮等操作的实现。"lib"可能包含了运行项目所需的依赖库，如IKAnalyzer的jar包和Lucene的库文件。通过集成IKAnalyzer和Lucene 4.9，我们可以构建一个能够对中文搜索结果进行关键词高亮显示的系统，从而提升用户体验。这个过程涉及到了中文分词、全文搜索、评分系统以及HTML的处理等多个技术点。对于开发人员来说，理解和掌握这些知识点对于构建高效、友好的搜索系统至关重要。

资源推荐

资源详情

资源评论

收起资源包目录

Luce.7z （5个子文件）

src

IKAnalyzerDemo1.java 6KB

lib

IKAnalyzer2012FF_u1.jar 1.11MB

lucene-core-4.9.0.jar 2.39MB

lucene-highlighter-4.9.0.jar 135KB

lucene-queryparser-4.9.0.jar 381KB

import java.io.File; import java.io.IOException; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.StringField; import org.apache.lucene.document.TextField; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.queryparser.classic.ParseException; import org.apache.lucene.queryparser.classic.QueryParser; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TopDocs; import org.apache.lucene.search.highlight.Highlighter; import org.apache.lucene.search.highlight.InvalidTokenOffsetsException; import org.apache.lucene.search.highlight.QueryScorer; import org.apache.lucene.search.highlight.Scorer; import org.apache.lucene.search.highlight.SimpleFragmenter; import org.apache.lucene.search.highlight.SimpleHTMLFormatter; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; import org.wltea.analyzer.lucene.IKAnalyzer; public class IKAnalyzerDemo1 { /** * @param args * @throws IOException */ public static void main(String[] args) throws IOException, ParseException, InvalidTokenOffsetsException { // TODO Auto-generated method stub //建立索引 String text1 = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切了解形势分析—公共安全问题的凸显了解形势分析—公共安全问题的凸显" + "分算法。"; String text2 = "中文分词工具包可以和lucene是一起使用的了解形势分析—公共安全问题的凸显了解形势分析—公共安全问题的凸显了解形势分析—公共安全问题的凸显了解形势分析—公共安全问题的凸显"; String text3 = "中文分词,你妹"; String fieldName = "contents"; Analyzer analyzer = new IKAnalyzer(); File myFilePath = new File("C:\\results\\index"); Directory directory = FSDirectory.open(myFilePath); //RAMDirectory directory = new RAMDirectory(); IndexWriterConfig writerConfig = new IndexWriterConfig(Version.LUCENE_4_9, analyzer); IndexWriter indexWriter = new IndexWriter(directory, writerConfig); Document document1 = new Document(); //IndexableField field1 = new IndexableField("ID", "1", Field.Store.YES, Field.Index.NOT_ANALYZED); //document1.add(null); document1.add(new StringField("ID", "1", Field.Store.YES)); document1.add(new TextField(fieldName, text1, Field.Store.YES)); indexWriter.addDocument(document1); Document document2 = new Document(); document2.add(new StringField("ID", "2", Field.Store.YES)); document2.add(new TextField(fieldName, text2, Field.Store.YES)); indexWriter.addDocument(document2); Document document3 = new Document(); document3.add(new StringField("ID", "3", Field.Store.YES)); document3.add(new TextField(fieldName, text3, Field.Store.YES)); indexWriter.addDocument(document3); indexWriter.close(); //搜索 IndexReader indexReader = DirectoryReader.open(directory); // IndexReader.open(directory); IndexSearcher searcher = new IndexSearcher(indexReader); String request = "工具包中文分词"; System.out.println("request="+request); QueryParser parser = new QueryParser(Version.LUCENE_4_9, fieldName, analyzer); parser.setDefaultOperator(QueryParser.AND_OPERATOR); try { Query query = parser.parse(request); Scorer scorer = new QueryScorer(query); System.out.println("query="+query.toString().replaceAll("\\+contents:", "、")); TopDocs topDocs = searcher.search(query, 5); System.out.println("命中数:"+topDocs.totalHits); ScoreDoc[] docs = topDocs.scoreDocs; SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("<B>", "</B>"); Highlighter highlighter = new Highlighter(simpleHtmlFormatter, scorer); highlighter.setTextFragmenter(new SimpleFragmenter(50)); for(ScoreDoc doc : docs){ Document d = searcher.doc(doc.doc); System.out.println("内容:"+d.get(fieldName)+"=id="+d.get("ID")); System.out.println(highlighter.getBestFragment(analyzer, fieldName, d.get(fieldName))); } } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); }finally{ if(indexReader != null){ try{ indexReader.close(); }catch (IOException e) { e.printStackTrace(); } } if(directory != null){ try{ directory.close(); }catch (Exception e) { e.printStackTrace(); } } } } }

评论收藏

内容反馈