用lucene建立全文检索，要求中文分词

索引的话，推荐使用lucene，我最近的项目就是用这个，蛮好用。

不管你是否使用数据库，你都应该将html页面解析成标准的XML的页面，这样方便进行下一步操作。如果你只需要html的文章内容的话，还是比较简单的。分别对html文章内容和html地址建索引，那样你文章命中了搜索关键字的话，可以把html地址也拿出来，例 Field field1 = new Field("address",address,Field.Store.YES, Field.Index.TOKENIZED);

Field field1_1 = new Field("content",content,Store.YES,Index.UN_TOKENIZED);

doc1.add(field1);

doc1.add(field1_1);

再具体点的内容，去下一个lucene的API文档，把field,document,indexwriter,indexsearcher,这几个类看一下，还是比较好懂的。

分词器的建议使用，IKAnalyzer，在开源中文分词器里算是很好的，而且一直在稳定的更新版本。