SCWS中文分词,功能函数实例应用
结合前文的demo演示,现写一个实用的功能函数,使用方法:
header('Content-Type:text/html;charset=UTF-8');
$text = '我是一个中国人,我会C++语言,我也有很多T恤衣服,我想知道奥迪A6与第八代索纳塔哪个油耗低,谢谢花好月圆二手奥拓芽菜好吃悦翔V3怎么样卧槽日系车Q5';
$so = scws_new();
$getFCstr = scwsFenCi($so,$text,$xattr='');
echo $getFCstr;
echo '<br />--------------------<br />';
echo fenCi2Encode($getFCstr);
/**
* SCWS中文分词
* @param so SCWS对象实例,如:$so = scws_new();
* @param text 待分词的中文文本
* @param xattr 过滤的词性(为空就是不过滤词性)
* @return 返回分好词的字符串(多词空格间隔);失败返回false;
* @author martinzhang
*/
function scwsFenCi($so,$text,$xattr=''){
if(!is_object($so)){return false;} //设定分词词典、规则集、欲分文本字符串的字符集(utf8 和 gbk)
$so->set_charset('utf8'); //强行设定分词所用的词典
//$so->set_dict('D:/Program Files/AppServ/scws/etc/dict.utf8.xdb'); //强行设定分词所用的新词识别规则集(用于人名、地名、数字时间年代等识别)
//$so->set_rule('D:/Program Files/AppServ/scws/etc/rules.utf8.ini'); $so->set_ignore('yes'); //设定分词返回结果时是否去除一些特殊的标点符号之类
$so->set_duality(false); //设定是否将闲散文字自动以二字分词法聚合 //设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
//也可用 1-15 来表示:(1)短词 (2)二元(将相邻的2个单字组合成一个词) (4)重要单字 (8)全部单字
$so->set_multi(0); //发送设定分词所要切割的文本
//执行本函数时,若未加载任何词典和规则集,则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集
$so->send_text($text); $getWords = $so->get_words($xattr); //n,nz,un,ns,i
//print_r($getWords);
if(is_array($getWords)){
foreach($getWords as $arrWord){
if(preg_match('/[a-zA-Z0-9]{2,}/',$arrWord['word'],$arrMatch)){
$word_fc .= $arrWord['word'].' ';
}elseif(strlen($arrWord['word'])>=4){
$word_fc .= $arrWord['word'].' ';
}
}
return trim($word_fc);
}else{
return false;
}
} /**
* 分词转码
* @param strKeywords 已经分词的字符串(词间“空格”分隔)
* @return 返回分词的转码字符串
* @author martinzhang
*/
function fenCi2Encode($strKeywords){
$pattern = array('/%/','/\+/');
$replace = array('',' ');
return preg_replace($pattern,$replace,urlencode(trim($strKeywords)));
} /**
* 将搜索关键词 高亮
* @param keywordStr 关键词(多关键词以“空格”分隔)
* @param contentStr 待替换的内容部分
* @param color 设置高亮颜色(默认:#ff0000)
* @return 返回替换后的新内容
* @author martinzhang
*/
function highLightKeyword($keywordStr,$contentStr,$color='#ff0000'){
$arrKW = explode(' ',$keywordStr);
$arrKW = array_unique($arrKW);
$color == '' ? $color = '#ff0000' : $color = $color;
foreach($arrKW as $val){
$contentStr = str_replace($val,"<span style='color:{$color}'>$val</span>",$contentStr);
}
return $contentStr;
}
SCWS中文分词,功能函数实例应用的更多相关文章
- SCWS 中文分词
SCWS 中文分词v1.2.3 开源免费的中文分词系统,PHP分词的上乘之选! 首页 下载 演示 文档 关于 服务&支持 API/HTTP 论坛 捐赠 源码@github 文档目录 SCWS- ...
- SCWS中文分词,词典词性标注详解
SCWS中文分词词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了 ---- 附北大词性标注版本 ----Ag 形语素 形容词性语素.形容词代码为a,语素代码g前面置以A. a ...
- SCWS中文分词,安装说明(以:Win32环境、utf8字符集为例)
SCWS官方网站:http://www.xunsearch.com/scws/ 1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库. 目前支持 PHP-5. ...
- ThinkPHP3.2添加scws中文分词
前言 前一段时间,公司网站做站内搜索,只简单针对输入的文字进行搜索,作全匹配检索,搜索出来的内容很少.如何达到模糊搜索,匹配到更多的内容成了需要解决的问题.于是,今天想到可以做分词检索,如何对输入的一 ...
- SCWS中文分词,demo演示
上文已经讲了关于SCSW中文分词的安装配置,本节进入demo演示: <?php header('Content-Type:text/html;charset=UTF-8'); echo '< ...
- Thinkphp3.2使用scws中文分词 提取关键词
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统).1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www ...
- SCWS中文分词PHP扩展详细安装说明
因最近写的一段代码,需要用到中文分词,在网上找了一下,发现了scws这个不错的插件,故根据文档安装使用,下面记录下安装的全过程 系统:centos 安装scws wget http://www.xun ...
- SCWS中文分词,向xdb词库添加新词
SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_f ...
- 基于Tire树和最大概率法的中文分词功能的Java实现
对于分词系统的实现来说,主要应集中在两方面的考虑上:一是对语料库的组织,二是分词策略的制订. 1. Tire树 Tire树,即字典树,是通过字串的公共前缀来对字串进行统计.排序及存储的一种树形结构 ...
随机推荐
- Redis 哨兵 Sentinel
Redis Sentinel:redis集群应用,分布式系统. 多个Sentinal进程之间通过 gossip 协议来接收主服务器是否下线的信息,通过 Raft 一致性协议来决定故障转移及转移服务 ...
- python怎么安装requests、beautifulsoup4等第三方库
零基础学习python最大的难题之一就是安装所有需要的软件,下面来简单介绍一下如何安装用pip安装requests.beautifulsoup4等第三方库: 方法/步骤 点击开始,在运行里 ...
- PytorchZerotoAll学习笔记(二)--梯度下降之手动求导
梯度下降算法: 待优化的损失值为 loss,那么我们希望预测的值能够很接近真实的值 y_pred ≍ y_label 我们的样本有n个,那么损失值可以由一下公式计算得出: 要使得los ...
- python打印图形大全(详解)
,): shixin=chr() print(shixin) -------------------结果:2) for i in range(0,10): shixin=chr(9679) print ...
- 《我是一只IT小小鸟》心得
虽然读这本书是老师布置的作业,但是读了几页后就被书中的内容所吸引住了.或许是因为我也是学这个专业的,所以书中的一些内容让我觉得非常的有兴趣.作为一个学习软件工程的大一学生还没真正的认识到这个专业的深奥 ...
- Eclipse添加Jquery和javascript的智能提示
使用Eclipse写Jquery和Javascript代码的时候,是没有智能提示的.我们可以使用一个插件来解决这个问题. 安装完成后,Eclipse会自动重启.重启之后,我们在项目上右键, 根据自 ...
- "firstday"-软件工程
阅读以下文章 http://www.thea.cn/news/terminal/9/9389.html http://www.shzhidao.cn/system/2015/09/22/0102 ...
- QUdpSocket-Qt使用Udp通讯实现服务端和客户端
版权声明:若无来源注明,Techie亮博客文章均为原创. 转载请以链接形式标明本文标题和地址: 本文标题:QUdpSocket-Qt使用Udp通讯实现服务端和客户端 本文地址:https:// ...
- get_list_by_where
/** * 查询数据 * @param $param * @param bool $get_rows 或者总数 * @param bool $get_one 或者一条记录 * @param bool ...
- crontab部署定时任务
1.安装cron工具:apt-getinstall cron 2.开启定时任务:crontab –e 定时任务语句格式为:执行周期+命令. 周期有5个域,分别是分,时,日(day of month), ...