关于IK-Analyzer:
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
准备IK-Analyzer中文分词工具包:
File | Summary + Labels | Uploaded | Size |
---|---|---|---|
IK Analyzer 2012FF_hf1_source.rar | IK Analyer 2012-FF Hotfix 1 源码 Type-Archive OpSys-All Ver 2012 FF hf1 | Dec 21, 2012 | 1.02MB |
IK Analyzer 2012_u6_source.rar | IK Analyer 2012 upgrade 6 源码 Type-Source OpSys-All version 2012 u6 | Dec 21, 2012 | 1.02MB |
IKAnalyzer2012_u6.zip | IK Analyer 2012 完整分发包 upgrade 6 Type-Archive OpSys-All version 2012 u6 For Lucene 3.x / Solr3.x | Oct 29, 2012 | 2.04MB |
IK Analyzer 2012FF_hf1.zip | IK Analyer 2012-FF hotfix 1 完整分发包 Type-Archive OpSys-All version 2012FF hotfix1 For lucene4.0 / solr 4.0 | Oct 26, 2012 | 2.05MB |
IK Analyzer 2012 FF_SRC.rar | IK Analyer 2012-FF 源码 Type-Source OpSys-All Ver 2012 FF | Oct 23, 2012 | 1.02MB |
IK Analyzer 2012_u5_source.zip | IK Analyer 2012 upgrade 5 源码 Type-Source OpSys-All version 2012 u5 | May 8, 2012 | 1.12MB |
IKAnalyzer2012_u5.zip | IK Analyer 2012 完整分发包 upgrade 5 Type-Archive OpSys-All version 2012 u5 | May 8, 2012 | 2.05MB |
IKAnalyzer2012_u4.zip | IK Analyer 2012 完整分发包 upgrade 4 Type-Archive OpSys-All Ver 2012 u4 | Mar 26, 2012 | 2.04MB |
IKAnalyzer2012_u3.zip | IK Analyer 2012 完整分发包 upgrade 3 Type-Archive OpSys-All Ver 2012 u3 | Mar 16, 2012 | 2.04MB |
IKAnalyzer2012_u2.zip | IK Analyer 2012 完整分发包 upgrade 2 Type-Archive OpSys-All Ver 2012 u2 | Mar 15, 2012 | 2MB |
IKAnalyzer2012_u1.zip | IK Analyer 2012 分发包 upgrade 1 Type-Archive OpSys-All Ver 2012 u1 | Mar 15, 2012 | 2MB |
IKAnalyzer中文分词器V2012使用手册.pdf | IK Analyzer 2012 使用说明手册 Type-Docs OpSys-All Ver 2012 1st | Mar 8, 2012 | 828.15KB |
IKAnalyzer2012.zip | IK Analyzer 2012 完整下载包(含api及说明文档) Type-Archive OpSys-All Ver 2012 1st | Mar 8, 2012 | 2MB |
IKAnalyzer2012_SRC.rar | IK Analyzer 2012源码包 Type-Source OpSys-All Ver 2012 | Mar 8, 2012 | 1.02MB |
IKAnalyzer中文分词器V3.2.8使用手册.pdf | IKAnalyzer中文分词器V3.2.8使用手册.pdf Type-Docs OpSys-All v3.2.8 | Mar 11, 2011 | 739.23KB |
IKAnalyzer3.2.8 bin.zip | IKAnalyzer3.2.8 bin.zip Type-Archive OpSys-All V3.2.8 | Mar 4, 2011 | 1.98MB |
IKAnalyzer3.2.8 source.zip | IKAnalyzer3.2.8源码 Type-Source OpSys-All V3.2.8 | Mar 4, 2011 | 1.14MB |
IKAnalyzer3.2.5Stable_src.zip | IKAnalyzer3.2.5Stable_src.zip 源码包 Type-Source OpSys-All version 3.2.5 | Sep 8, 2010 | 1.14MB |
IKAnalyzer3.2.5Stable_bin.zip | IKAnalyzer3.2.5Stable_bin.zip 发布包 Type-Archive OpSys-All version3.2.5 | Sep 8, 2010 | 1.74MB |
IKAnalyzer3.2.3Stable_src.rar | IKAnalyzer3.2.3稳定版源代码 Type-Source OpSys-All version 3.2.3 | May 15, 2010 | 1.02MB |
下载完成后将IK-Analyzer上传到Linux服务器,输入命令 " unzip IKAnalyzer.zip " ,如下图:
解压完成后,将IK-Analyzer中文分词器依赖的Jar包添加到solr工程并重命名,
输入 " cp ik-analyzer.jar /home/www/solr/solr/WEB-INF/lib/IKAnalyzer.jar -r "
如下图:
先创建 classes目录,输入命令 " mkdir /home/www/solr/solr/WEB-INF/classes -p "
将 IKAnalyzer 分词器所需要的配置文件、扩展词典及停用词词典复制到 solr 工程目录下,
输入命令 " cp IKAnalyzer.cfg.xml mydict.dic ext_stopword.dic /home/www/solr/solr/WEB-INF/classes "
如下图:
注:扩展词典及停用词词典的字符集必须是utf-8!!!
在Solr的 schema.xml 配置文件中新增配置fieldType节点,
输入命令 " vi /home/www/solr/solr/home/solr/collection1/conf/schema.xml "
新增内容:
作用:加载IK-Analyzer中文分词器工具
<!-- IK-Analyzer -->
<fieldType name="my_first_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
如下图:
新增业务字段;
加入如下实例内容:
<!-- project of myintro fields -->
<field name="my_name" type="my_first_ik" indexed="true" stored="true"/>
<field name="my_age" type="my_first_ik" indexed="true" stored="true"/>
<field name="my_hobby" type="my_first_ik" indexed="true" stored="false"/>
<field name="my_copy_alls" type="my_first_ik" indexed="true" stored="false" multiValued="true"/>
<copyField source="my_name" dest="my_copy_alls"/>
<copyField source="my_age" dest="my_copy_alls"/>
<copyField source="my_hobby" dest="my_copy_alls"/>
如下图:
业务字段配置好后,重启Tomcat服务,就可以在solr的控制台中看到自己配置的业务字段名了,如下图:
IK-Analyzer中文分词器配置完成后,复制一句话进去进行测试,测试结果如下图,说明我们的IK-Analyzer的中文分词器就配置成功了,如下图: