好学IT学院:IT信息技术分享交流平台
来源:IT专家网  作者:qqread  发布时间:2010-06-12  ★★★加入收藏〗〖手机版
MySQL中文索引解决方案:二元分词法
摘要:首先,我们来想想MySQL不支持中文索引的关键原因还是中文是双字节的,如果能把中文转换成单字节的字母或数字,那不就可以使用全文索引了吗…

内容提示:首先,我们来想想MySQL不支持中文索引的关键原因还是中文是双字节的,如果能把中文转换成单字节的字母或数字,那不就可以使用全文索引了吗

基于这个目的,我们首先需要做的就是分词,如果要实现比较完美的分词的话,还是需要安装相应的插件,但我们很多是虚拟主机,根本没有条件来安装,所以只能采取比较原始的分词方法,二元分词法。

所谓二元分词法,就是将一句话从头到尾,两个字两个字地分开,比如:我们的祖国是花园。就可以划分为:我们,们的,的祖,祖国,国是,是花,花园。虽然有点浪费,但至少面面俱到了。

PHP的相应函数

//Monkey's 二元分词
  function sp_str($str) {
  //所有汉字后添加ASCII的0字符,此法是为了排除特殊中文拆分错误的问题
  $str=preg_replace("/[\x80-\xff]{2}/","\\0".chr(0x00),$str);
  //拆分的分割符
  $search = array(",", "/", "\\", ".", ";", ":",
  "\"", "!", "~", "`",
  "^", "(", ")", "?", "-", "\t",
  "\n", "'", "<", ">",
  "\r", "\r\n", "$", "&", "%",
  "#", "@", "+", "=", "{", "}",
  "[", "]", ":", ")", "(", ".
  ", "。", ",", "!", ";", "“",
  "”", "‘", "’", "[", "]", "、
  ", "—", " ", "《", "》", "-",
  "…", "【", "】",);
  //替换所有的分割符为空格
  $str = str_replace($search,' ',$str);
  //用正则匹配半角单个字符或者全角单个字符,存入数组$ar
  preg_match_all("/[\x80-\xff]?./",$str,$ar);$ar=$ar[0];
  //去掉$ar中ASCII为0字符的项目
  for ($i=0;$i 
  ($ar[$i]!=chr(0x00)) $ar_new[]=$ar[$i];
  $ar=$ar_new;unset($ar_new);$oldsw=0;
  //把连续的半角存成一个数组下标,
  或者全角的每2个字符存成一个数组的下标
  for ($ar_str='',$i=0;$i 
  $sw=strlen($ar[$i]);
  if ($i>0 and $sw!=$oldsw) $ar_str.=" ";
  if ($sw==1) $ar_str.=$ar[$i];
  else
  if (strlen($ar[$i+1])==2) $ar_str.=$ar[$i].$ar[$i+1].' ';
  elseif ($oldsw==1 or $oldsw==0) $ar_str.=$ar[$i];
  $oldsw=$sw;
  }
  //去掉连续的空格
  $ar_str=trim(preg_replace("# {1,}#i"," ",$ar_str));
  //$ar_str = "Monkey s 二元 元分 分词"
  //返回拆分后的结果
  return explode(' ',$ar_str);
  }

接下来,就该考虑如何把分好的词转换成单字节的,可以使用base64,sha1,md5。但有个问题就是转换后的字符有点长,那如何才能缩短字符呢,对了,就是使用区位码,因为区位码短啊,一个中文只占四个字节。

每个中文都有对应的区位码(除了标点符号和特殊符号),这样只要将上面分词的结果通过区位码转换后,然后存储到数据库里,就可以了。

PHP区位码函数
  function quweima($str){
  if(preg_match("/^[a-z0-9 ]+$/i",$str)){
  return $str;
  }else{
  $str1 = substr($str,0,2);
  //echo $str1;
  $str_qwm = sprintf("%02d%02d",ord($str[0])-160,ord($str[1])-160);
  $str2 = substr($str,2,4);
  //echo $str2;
  $str_qwm .= sprintf("%02d%02d",ord($str[0])-160,ord($str[1])-160);
  return $str_qwm;
  }
  }

这里我加了判断,如果是英文或数字直接返回不做处理

经过这两步处理后,准备工作就基本完成了,下面就是建立数据库

我的数据库结构是这样的

id,title,title_ft(fulltext)

添加数据的时候,title存放标题,ft_title存放处理后的标题,内容应该是像这样的:43557401 54903471 …