您当前的位置:首页 > 计算机 > 编程开发 > Java

Solr下使用IK-Analyzer实现中文分词器的配置详情

时间:09-11来源:作者:点击数:

关于IK-Analyzer:

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。

采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。

采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。

准备IK-Analyzer中文分词工具包:

File Summary + Labels Uploaded Size
IK Analyzer 2012FF_hf1_source.rar IK Analyer 2012-FF Hotfix 1 源码  Type-Archive  OpSys-All  Ver 2012 FF hf1 Dec 21, 2012 1.02MB
IK Analyzer 2012_u6_source.rar IK Analyer 2012 upgrade 6 源码  Type-Source  OpSys-All  version 2012 u6 Dec 21, 2012 1.02MB
IKAnalyzer2012_u6.zip IK Analyer 2012 完整分发包 upgrade 6  Type-Archive  OpSys-All  version 2012 u6  For Lucene 3.x / Solr3.x Oct 29, 2012 2.04MB
IK Analyzer 2012FF_hf1.zip IK Analyer 2012-FF hotfix 1 完整分发包  Type-Archive  OpSys-All  version 2012FF hotfix1  For lucene4.0 / solr 4.0 Oct 26, 2012 2.05MB
IK Analyzer 2012 FF_SRC.rar IK Analyer 2012-FF 源码  Type-Source  OpSys-All  Ver 2012 FF Oct 23, 2012 1.02MB
IK Analyzer 2012_u5_source.zip IK Analyer 2012 upgrade 5 源码  Type-Source  OpSys-All  version 2012 u5 May 8, 2012 1.12MB
IKAnalyzer2012_u5.zip IK Analyer 2012 完整分发包 upgrade 5  Type-Archive  OpSys-All  version 2012 u5 May 8, 2012 2.05MB
IKAnalyzer2012_u4.zip IK Analyer 2012 完整分发包 upgrade 4  Type-Archive  OpSys-All  Ver 2012 u4 Mar 26, 2012 2.04MB
IKAnalyzer2012_u3.zip IK Analyer 2012 完整分发包 upgrade 3  Type-Archive  OpSys-All  Ver 2012 u3 Mar 16, 2012 2.04MB
IKAnalyzer2012_u2.zip IK Analyer 2012 完整分发包 upgrade 2  Type-Archive  OpSys-All  Ver 2012 u2 Mar 15, 2012 2MB
IKAnalyzer2012_u1.zip IK Analyer 2012 分发包 upgrade 1  Type-Archive  OpSys-All  Ver 2012 u1 Mar 15, 2012 2MB
IKAnalyzer中文分词器V2012使用手册.pdf IK Analyzer 2012 使用说明手册  Type-Docs  OpSys-All  Ver 2012 1st Mar 8, 2012 828.15KB
IKAnalyzer2012.zip IK Analyzer 2012 完整下载包(含api及说明文档)  Type-Archive  OpSys-All  Ver 2012 1st Mar 8, 2012 2MB
IKAnalyzer2012_SRC.rar IK Analyzer 2012源码包  Type-Source  OpSys-All  Ver 2012 Mar 8, 2012 1.02MB
IKAnalyzer中文分词器V3.2.8使用手册.pdf IKAnalyzer中文分词器V3.2.8使用手册.pdf  Type-Docs  OpSys-All  v3.2.8 Mar 11, 2011 739.23KB
IKAnalyzer3.2.8 bin.zip IKAnalyzer3.2.8 bin.zip  Type-Archive  OpSys-All  V3.2.8 Mar 4, 2011 1.98MB
IKAnalyzer3.2.8 source.zip IKAnalyzer3.2.8源码  Type-Source  OpSys-All  V3.2.8 Mar 4, 2011 1.14MB
IKAnalyzer3.2.5Stable_src.zip IKAnalyzer3.2.5Stable_src.zip 源码包  Type-Source  OpSys-All  version 3.2.5 Sep 8, 2010 1.14MB
IKAnalyzer3.2.5Stable_bin.zip IKAnalyzer3.2.5Stable_bin.zip 发布包  Type-Archive  OpSys-All  version3.2.5 Sep 8, 2010 1.74MB
IKAnalyzer3.2.3Stable_src.rar IKAnalyzer3.2.3稳定版源代码  Type-Source  OpSys-All  version 3.2.3 May 15, 2010 1.02MB

下载完成后将IK-Analyzer上传到Linux服务器,输入命令 " unzip IKAnalyzer.zip " ,如下图:

解压完成后,将IK-Analyzer中文分词器依赖的Jar包添加到solr工程并重命名,

输入 " cp ik-analyzer.jar /home/www/solr/solr/WEB-INF/lib/IKAnalyzer.jar -r "

如下图:

先创建 classes目录,输入命令 " mkdir /home/www/solr/solr/WEB-INF/classes -p "

将 IKAnalyzer 分词器所需要的配置文件、扩展词典及停用词词典复制到 solr 工程目录下,

输入命令 " cp IKAnalyzer.cfg.xml mydict.dic ext_stopword.dic /home/www/solr/solr/WEB-INF/classes "

如下图:

注:扩展词典及停用词词典的字符集必须是utf-8!!!

在Solr的 schema.xml 配置文件中新增配置fieldType节点,

输入命令 " vi /home/www/solr/solr/home/solr/collection1/conf/schema.xml "

新增内容:

作用:加载IK-Analyzer中文分词器工具

<!-- IK-Analyzer -->

<fieldType name="my_first_ik" class="solr.TextField">

  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

如下图:

新增业务字段;

加入如下实例内容:

<!-- project of myintro fields -->

<field name="my_name" type="my_first_ik" indexed="true" stored="true"/>

<field name="my_age"  type="my_first_ik" indexed="true" stored="true"/>

<field name="my_hobby"  type="my_first_ik" indexed="true" stored="false"/>

<field name="my_copy_alls" type="my_first_ik" indexed="true" stored="false" multiValued="true"/>

<copyField source="my_name" dest="my_copy_alls"/>

<copyField source="my_age" dest="my_copy_alls"/>

<copyField source="my_hobby" dest="my_copy_alls"/>

如下图:

业务字段配置好后,重启Tomcat服务,就可以在solr的控制台中看到自己配置的业务字段名了,如下图:

IK-Analyzer中文分词器配置完成后,复制一句话进去进行测试,测试结果如下图,说明我们的IK-Analyzer的中文分词器就配置成功了,如下图:

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐