java 中文分词算法，基于： lucene+IKAnalyzer

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3060 天前的主题，其中的信息可能已经有所发展或是发生改变。

我想只要是学过数据库的孩纸，不管是 mysql ，还是 sqlsever ，一提到查找，本能的想到的便是 like 关键字，其实去转盘网（分类模式）之前也是采用这种算法，但我可以告诉大家一个很不幸的事情， like 匹配其实会浪费大量的有用资源，原因这里不说了请自己想一想，我们还是直接摆事实验证。

现在用去转盘网搜： hello 找个单词，如下：

点击实验

翻页你会发现只要是包含 hello 的单词都找到了，但是如果你用 like 的话是不会有这个效果的，不信让我们再看一下，还好他来说电影网的分词算法我还没来得及修改，还可以看到现象：

点击实验

你会发现只有开始包含 hello 这个字段的搜索串才能得到匹配，这就问题来了，数据库中大量的资源岂不是白白浪费了，不过没事，伟大的人类还是很聪明的，发明了分词，分词的原理我就不讲了，请自己百度吧，还是直接上代码，提示，这里需要四个 jar 包作为工具，我先上传的去转盘，想要做分词的请先下载：

分词包下载地址 1

分词包下载地址 2

package com.tray.indexData;
import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import java.math.BigInteger;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.IndexWriterConfig.OpenMode;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.PrefixQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.TopScoreDocCollector;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;

import com.tray.bean.SerachResult;
import com.tray.common.tools.DateFormater;

public class LuceneSearch {
   
 private static String DISC_URL = "/home/indexData/data";
   
 static {
     String os = System.getProperty("os.name"); 
     if(os.toLowerCase().startsWith("win")){ 
         DISC_URL = "E:\\indexData\\data";
     }
     else{
         DISC_URL ="/home/indexData/data";
     }
 }
       
 //指定分词器
 private Analyzer analyzer=new IKAnalyzer();
 private static Directory directory;
 //配置
 private static IndexWriterConfig iwConfig;
 //配置 IndexWriter
 private static IndexWriter writer; 
 private static File indexFile = null; 
   
 private static Version version = Version.LUCENE_36;
   
 private final int PAPGESIZE=10;

 /**
  * 全量索引
  * @Author haoning
  */
 public void init() throws Exception {
       
     try {
         indexFile = new File(DISC_URL);
         if (!indexFile.exists()) {
             indexFile.mkdir();
         }
         directory=FSDirectory.open(indexFile); 
         //配置 IndexWriterConfig 
         iwConfig = new IndexWriterConfig(version,analyzer); 
         iwConfig.setOpenMode(OpenMode.CREATE_OR_APPEND); 
             //创建写索引对象 
         writer = new IndexWriter(directory,iwConfig);  
     } catch (Exception e) {
     }
 }
   
 public void closeWriter(){
     try {
         writer.close();
     } catch (CorruptIndexException e) {
         e.printStackTrace();
     } catch (IOException e) {
         e.printStackTrace();
     }
 }
   
 public void commit(){
       
     try {
         writer.commit();
     } catch (CorruptIndexException e) {
         e.printStackTrace();
     } catch (IOException e) {
         e.printStackTrace();
     }
 }
   
 /**
  * 一个一个索引
  * @Author haoning
  */
 public void singleIndex(Document doc) throws Exception {
     writer.addDocument(doc);
 }
   
 /**
  * 一个跟新
  * @Author haoning
  */
 public void singleUpdate(Document doc) throws Exception {
     Term term = new Term("url", doc.get("url"));
     writer.updateDocument(term,doc);
 }
   
 /**
  * 全量索引
  * @Author haoning
  */
 public void fullIndex(Document[] documentes) throws Exception {
       
     writer.deleteAll();
     for (Document document : documentes) {
         writer.addDocument(document);
     }
     writer.commit();
 }
   
 /**
  * 根据 id 删除索引
  * @Author haoning
  */
 public void deleteIndex(Document document)throws Exception{
     Term term = new Term("url", document.get("url"));//url 才是唯一标志
     writer.deleteDocuments(term);
     writer.commit();
 }
   
 /**
  * 根据 id 增量索引
  * @Author haoning
  */
 public void updateIndex(Document[] documentes) throws Exception{
     for (Document document : documentes) {
         Term term = new Term("url", document.get("url"));
         writer.updateDocument(term, document);
     }
     writer.commit();
 }
   
 /**
  * 直接查询
  * @Author haoning
  */
 public void simpleSearch(String filedStr,String queryStr,int page, int pageSize) throws Exception{
     File indexDir = new File(DISC_URL); 
     //索引目录 
     Directory dir=FSDirectory.open(indexDir); 
     //根据索引目录创建读索引对象 
     IndexReader reader = IndexReader.open(dir); 
     //搜索对象创建 
     IndexSearcher searcher = new IndexSearcher(reader);
     TopScoreDocCollector topCollector = TopScoreDocCollector.create(searcher.maxDoc(), false);
       
     Term term = new Term(filedStr, queryStr);
     Query query = new TermQuery(term);
     searcher.search(query, topCollector);
     ScoreDoc[] docs = topCollector.topDocs((page-1)*pageSize, pageSize).scoreDocs;
       
     printScoreDoc(docs, searcher);
 }
   
 /**
  * 高亮查询
  * @Author haoning
  */
 public Map<String, Object> highLightSearch(String filed,String keyWord,int curpage, int pageSize) throws Exception{
     List<SerachResult> list=new ArrayList<SerachResult>();
     Map<String,Object> map = new HashMap<String,Object>();
     if (curpage <= 0) {
         curpage = 1;
     }
     if (pageSize <= 0 || pageSize>20) {
          pageSize = PAPGESIZE;
     }
     File indexDir = new File(DISC_URL); //索引目录  
     Directory dir=FSDirectory.open(indexDir);//根据索引目录创建读索引对象   
     IndexReader reader = IndexReader.open(dir);//搜索对象创建   
     IndexSearcher searcher = new IndexSearcher(reader);
       
     int start = (curpage - 1) * pageSize;
       
     Analyzer analyzer = new IKAnalyzer(true);
     QueryParser queryParser = new QueryParser(Version.LUCENE_36, filed, analyzer);
     queryParser.setDefaultOperator(QueryParser.AND_OPERATOR);
     Query query = queryParser.parse(keyWord);
       
     int hm = start + pageSize;
     TopScoreDocCollector res = TopScoreDocCollector.create(hm, false);
     searcher.search(query, res);
       
     SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<span style='color:red'>", "</span>");
     Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));
       
     long amount = res.getTotalHits();
     //long pages = (rowCount - 1) / pageSize + 1; //计算总页数
       
     map.put("amount",amount);//总共多少条记录
       
     TopDocs tds = res.topDocs(start, pageSize);
     ScoreDoc[] sd = tds.scoreDocs;
       
     for (int i = 0; i < sd.length; i++) {
         Document doc = searcher.doc(sd[i].doc);
         String temp=doc.get("name");
         //做高亮处理
         TokenStream ts = analyzer.tokenStream("name", new StringReader(temp));
           
         SerachResult record=new SerachResult();
         String name = highlighter.getBestFragment(ts,temp);
         String skydirverName=doc.get("skydirverName");
         String username=doc.get("username");
         String shareTime=doc.get("shareTime");
         String describ=doc.get("describ");
         String typeId=doc.get("typeId");
         String id=doc.get("id");
         String url=doc.get("url");
           
         record.setName(name);
         record.setSkydriverName(skydirverName);
         record.setUsername(username);
         record.setShareTime(DateFormater.getFormatDate(shareTime,"yyyy-MM-dd HH:mm:ss"));
         record.setDescrib(describ);
         record.setTypeId(Integer.parseInt(typeId));
         record.setId(new BigInteger(id));
         record.setUrl(url);
         list.add(record);
           
         /*System.out.println("name:"+name);
         System.out.println("skydirverName:"+skydirverName);
         System.out.println("username:"+username);
         System.out.println("shareTime:"+shareTime);
         System.out.println("describ:"+describ);
         System.out.println("typeId:"+typeId);
         System.out.println("id:"+id);
         System.out.println("url:"+url);*/
     }
     map.put("source",list);
     return map;
 }
   
 /**
  * 根据前缀查询
  * @Author haoning
  */
 public void prefixSearch(String filedStr,String queryStr) throws Exception{
     File indexDir = new File(DISC_URL); 
     //索引目录 
     Directory dir=FSDirectory.open(indexDir); 
     //根据索引目录创建读索引对象 
     IndexReader reader = IndexReader.open(dir); 
     //搜索对象创建 
     IndexSearcher searcher = new IndexSearcher(reader);
       
     Term term = new Term(filedStr, queryStr);
     Query query = new PrefixQuery(term);
       
     ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;
     printScoreDoc(docs, searcher);
 }
   
 /**
  * 通配符查询
  * @Author haoning
  */
 public void wildcardSearch(String filedStr,String queryStr) throws Exception{
     File indexDir = new File(DISC_URL); 
     //索引目录 
     Directory dir=FSDirectory.open(indexDir); 
     //根据索引目录创建读索引对象 
     IndexReader reader = IndexReader.open(dir); 
     //搜索对象创建 
     IndexSearcher searcher = new IndexSearcher(reader);
       
     Term term = new Term(filedStr, queryStr);
     Query query = new WildcardQuery(term);
     ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;
     printScoreDoc(docs, searcher);
 }
   
 /**
  * 分词查询
  * @Author haoning
  */
 public void analyzerSearch(String filedStr,String queryStr) throws Exception{
     File indexDir = new File(DISC_URL); 
     //索引目录 
     Directory dir=FSDirectory.open(indexDir); 
     //根据索引目录创建读索引对象 
     IndexReader reader = IndexReader.open(dir); 
     //搜索对象创建 
     IndexSearcher searcher = new IndexSearcher(reader);
       
     QueryParser queryParser = new QueryParser(version, filedStr, analyzer);
     Query query = queryParser.parse(queryStr);
       
     ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;
     printScoreDoc(docs, searcher);
 }
   
 /**
  * 多属性分词查询
  * @Author haoning
  */
 public void multiAnalyzerSearch(String[] filedStr,String queryStr) throws Exception{
     File indexDir = new File(DISC_URL); 
     //索引目录 
     Directory dir=FSDirectory.open(indexDir); 
     //根据索引目录创建读索引对象 
     IndexReader reader = IndexReader.open(dir); 
     //搜索对象创建 
     IndexSearcher searcher = new IndexSearcher(reader);
     QueryParser queryParser = new MultiFieldQueryParser(version, filedStr, analyzer);
     Query query = queryParser.parse(queryStr);
       
     ScoreDoc[] docs = searcher.search(query, 3).scoreDocs;
     printScoreDoc(docs, searcher);
 }
   
 public void printScoreDoc(ScoreDoc[] docs,IndexSearcher searcher)throws Exception{
     for (int i = 0; i < docs.length; i++) {
         List<Fieldable> list = searcher.doc(docs[i].doc).getFields();
         for (Fieldable fieldable : list) {
             String fieldName = fieldable.name();
             String fieldValue = fieldable.stringValue();
             System.out.println(fieldName+" : "+fieldValue);
         }
     }
 }
}

注意由于去转盘网是部署到 linux 上的，所以 DISC_URL 可以更具系统变换，我是通过 url 来判定索引文件是否唯一的，你可以更具 id 来判断，具体情况具体对待吧。注：这是楼主在 V2EX 上发的第二篇技术贴，可惜还是受字数限制只能写一半，老规矩，要看去博客园看吧，链接如下：http://www.cnblogs.com/huangxie/p/5473273.html 你可以在一个 applicationic 程序中开始索引，也可以写个定时器来定时索引，看需求。以上代码是楼主幸苦的作品，转载请不要改动，本人确保代码完全可用。本人建个 qq 群，欢迎大家一起交流技术，群号： 512245829 喜欢微博的朋友关注：转盘娱乐即可

16 条回复 • 2016-08-23 20:34:58 +08:00