2025年3月20日 星期四 甲辰(龙)年 月十九 夜 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > PHP

php实现 scws中文分词的搜索

时间:08-25来源:作者:点击数:42

1、4个文件(下载)解压后,放到一个地方 eg:E:/wamp/scws

2、php.ini 中配置

  • extension = php_scws.dll
  • scws.default.charset = utf8 //配置默认的编码方式
  • scws.default.fpath = "E:/wamp/scws" //加压后文件的路径

3、使用

  • $so = scws_new();
  • $so->set_charset('utf8'); //编码
  • // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
  • $so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
  • //$so->add_dict('./dd.txt',SCWS_XDICT_TXT);
  • $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
  • $so->set_duality(0); //散字二元
  • $so->set_ignore(0); //忽略标点符号
  • $so->set_multi(0);
  • $wd='要搜索的内容';
  • $so->send_text($wd);
  • while($tmp = $so->get_result()) //遍历后即得到字符

串分割后的内容,根据得到的内容分别到数据库中查找(like匹配)

{

}

亲自试验了一下如下:

  • <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  • <html xmlns="http://www.w3.org/1999/xhtml">
  • <head>
  • <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
  • <title>test</title>
  • </head>
  • <body>
  • <?php
  • function search($keywords,$table,$key1,$key2){
  • // (要查找的字符串,表名,字段一,字段二)如果就一个字段的话,$key2='';
  • $arr=array();
  • $str=array();
  • if( preg_match("/^[^\x80-\xff]+$/", $keywords)){//判断keywords是否全为英文,全为英文的话按照字符串切割处理
  • $str1=explode(' ',$keywords); //先按照空格切割
  • foreach($str1 as $key=>$value)
  • {
  • $str2=explode(',',$value); //,切割
  • foreach($str2 as $k=>$v)
  • {
  • $str3=explode('.',$v); //。切割
  • foreach($str3 as $kk=>$vv)
  • {
  • array_push($arr,$vv);//处理完后,返回一个数组
  • }
  • }
  • }
  • }else{//对中文的分词处理
  • $so = scws_new();
  • $so->set_charset('utf8');
  • // 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
  • $so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
  • $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
  • $so->set_duality(0); //散字二元
  • $so->set_ignore(0); //忽略标点符号
  • $so->set_multi(0);
  • $so->send_text($keywords);
  • while ($tmp = $so->get_result())//得到一个数组,里面包含词组和标点符号
  • {
  • foreach($tmp as $key=>$value)
  • {
  • $value=$value["word"];
  • if(preg_match("/^[一-龥]{6,21}$/", $value))//去除标点符号
  • {
  • array_push($arr,$value);
  • }
  • }
  • }
  • }
  • foreach($arr as $key=>$value)//便利得到的数组,到数据库中匹配
  • {
  • if($key2!='')
  • {
  • $sql="select * from `$table` where `$key1` like '%$value%' or `$key2` like '%$value%'";
  • }else{
  • $sql="select * from `$table` where `$key1` like '%$value%'";
  • }
  • $query=mysql_query($sql);
  • array_push($str,$query);
  • }
  • return $str;
  • }
  • include('conn.php');
  • $keywords="哈哈lsd djk,hdjs dd";
  • $table='two_key';
  • $key1='address';
  • $key2='';
  • $query=search($keywords,$table,$key1,$key2);
  • foreach($query as $key=>$value)
  • {
  • while($row=mysql_fetch_array($value))
  • {
  • echo $row[id].'----'.$row[name].'-----'.$row[address].'<br>';
  • }
  • }
  • ?>
  • </body>
  • </html>

 

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门