结合前文的demo演示,现写一个实用的功能函数,使用方法:
header('Content-Type:text/html;charset=UTF-8');
$text        = '我是一个中国人,我会C++语言,我也有很多T恤衣服,我想知道奥迪A6与第八代索纳塔哪个油耗低,谢谢花好月圆二手奥拓芽菜好吃悦翔V3怎么样卧槽日系车Q5';
$so          = scws_new();
$getFCstr = scwsFenCi($so,$text,$xattr='');
echo $getFCstr;
echo '<br />--------------------<br />';
echo fenCi2Encode($getFCstr);

/**
* SCWS中文分词
* @param so SCWS对象实例,如:$so = scws_new();
* @param text 待分词的中文文本
* @param xattr 过滤的词性(为空就是不过滤词性)
* @return 返回分好词的字符串(多词空格间隔);失败返回false;
* @author martinzhang
*/
function scwsFenCi($so,$text,$xattr=''){
if(!is_object($so)){return false;} //设定分词词典、规则集、欲分文本字符串的字符集(utf8 和 gbk)
$so->set_charset('utf8'); //强行设定分词所用的词典
//$so->set_dict('D:/Program Files/AppServ/scws/etc/dict.utf8.xdb'); //强行设定分词所用的新词识别规则集(用于人名、地名、数字时间年代等识别)
//$so->set_rule('D:/Program Files/AppServ/scws/etc/rules.utf8.ini'); $so->set_ignore('yes'); //设定分词返回结果时是否去除一些特殊的标点符号之类
$so->set_duality(false); //设定是否将闲散文字自动以二字分词法聚合 //设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
//也可用 1-15 来表示:(1)短词 (2)二元(将相邻的2个单字组合成一个词) (4)重要单字 (8)全部单字
$so->set_multi(0); //发送设定分词所要切割的文本
//执行本函数时,若未加载任何词典和规则集,则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集
$so->send_text($text); $getWords = $so->get_words($xattr); //n,nz,un,ns,i
//print_r($getWords);
if(is_array($getWords)){
foreach($getWords as $arrWord){
if(preg_match('/[a-zA-Z0-9]{2,}/',$arrWord['word'],$arrMatch)){
$word_fc .= $arrWord['word'].' ';
}elseif(strlen($arrWord['word'])>=4){
$word_fc .= $arrWord['word'].' ';
}
}
return trim($word_fc);
}else{
return false;
}
} /**
* 分词转码
* @param strKeywords 已经分词的字符串(词间“空格”分隔)
* @return 返回分词的转码字符串
* @author martinzhang
*/
function fenCi2Encode($strKeywords){
$pattern = array('/%/','/\+/');
$replace = array('',' ');
return preg_replace($pattern,$replace,urlencode(trim($strKeywords)));
} /**
* 将搜索关键词 高亮
* @param keywordStr 关键词(多关键词以“空格”分隔)
* @param contentStr 待替换的内容部分
* @param color 设置高亮颜色(默认:#ff0000)
* @return 返回替换后的新内容
* @author martinzhang
*/
function highLightKeyword($keywordStr,$contentStr,$color='#ff0000'){
$arrKW = explode(' ',$keywordStr);
$arrKW = array_unique($arrKW);
$color == '' ? $color = '#ff0000' : $color = $color;
foreach($arrKW as $val){
$contentStr = str_replace($val,"<span style='color:{$color}'>$val</span>",$contentStr);
}
return $contentStr;
}

SCWS中文分词,功能函数实例应用的更多相关文章

  1. SCWS 中文分词

    SCWS 中文分词v1.2.3 开源免费的中文分词系统,PHP分词的上乘之选! 首页 下载 演示 文档 关于 服务&支持 API/HTTP 论坛 捐赠 源码@github 文档目录 SCWS- ...

  2. SCWS中文分词,词典词性标注详解

    SCWS中文分词词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了 ---- 附北大词性标注版本 ----Ag 形语素 形容词性语素.形容词代码为a,语素代码g前面置以A. a ...

  3. SCWS中文分词,安装说明(以:Win32环境、utf8字符集为例)

    SCWS官方网站:http://www.xunsearch.com/scws/ 1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库.    目前支持 PHP-5. ...

  4. ThinkPHP3.2添加scws中文分词

    前言 前一段时间,公司网站做站内搜索,只简单针对输入的文字进行搜索,作全匹配检索,搜索出来的内容很少.如何达到模糊搜索,匹配到更多的内容成了需要解决的问题.于是,今天想到可以做分词检索,如何对输入的一 ...

  5. SCWS中文分词,demo演示

    上文已经讲了关于SCSW中文分词的安装配置,本节进入demo演示: <?php header('Content-Type:text/html;charset=UTF-8'); echo '< ...

  6. Thinkphp3.2使用scws中文分词 提取关键词

    SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统).1.下载scws官方提供的类(这里使用的是pscws第四版的)http://www ...

  7. SCWS中文分词PHP扩展详细安装说明

    因最近写的一段代码,需要用到中文分词,在网上找了一下,发现了scws这个不错的插件,故根据文档安装使用,下面记录下安装的全过程 系统:centos 安装scws wget http://www.xun ...

  8. SCWS中文分词,向xdb词库添加新词

    SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_f ...

  9. 基于Tire树和最大概率法的中文分词功能的Java实现

    对于分词系统的实现来说,主要应集中在两方面的考虑上:一是对语料库的组织,二是分词策略的制订. 1.   Tire树 Tire树,即字典树,是通过字串的公共前缀来对字串进行统计.排序及存储的一种树形结构 ...

随机推荐

  1. Unity LineRenderer制作画版

    Source: using System.Collections; using System.Collections.Generic; using UnityEngine; public class ...

  2. 工作中遇到的令人头疼的bug

    工作中我们会遇到形形色色的bug,但是很多bug都可以调试很明显的看出来,这种bug解决起来我们不会那么头疼但是有些却让人头疼而捉急,特别是本地运行一切正常,上传服务器就会出现bug.现在我总结几个我 ...

  3. python-前方高能-面向对象-进阶3

    面向对象 你写代码的时候 什么时候用面向对象 代码量大,功能多的时候 处理比较复杂的角色之间的关系 qq 好友 陌生人 群 组 复杂的电商程序 公司/学校的人事管理/功能的系统 我的代码的清晰度更高了 ...

  4. 微信小程序和微信H5测试中易出Bug的点和注意事项

    一.微信小程序 易出Bug的点: 小程序的分享转发功能 背景:小程序项目开发基本完毕也都已经测过几轮,功能上基本没有什么问题,但是上线后却被客户发现通过分享转发小程序给别人,别人无法正常打开的情况 原 ...

  5. 中国天气网 城市代码 sql语句

    mysql的 下载地址:http://download.csdn.net/detail/songzhengdong82/6252651

  6. android 签名相关

    查看keystorekeytool -list -v -keystore debug.keystoreapk签名不带别名 apksigner sign --ks debug.keystore test ...

  7. 修改Linux系统下的最大文件描述符限制

    通常我们通过终端连接到linux系统后执行ulimit -n 命令可以看到本次登录的session其文件描述符的限制,如下: $ulimit -n1024 当然可以通过ulimit -SHn 1024 ...

  8. PReLU——Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

    1. 摘要 在 \(ReLU\) 的基础上作者提出了 \(PReLU\),在几乎没有增加额外参数的前提下既可以提升模型的拟合能力,又能减小过拟合风险. 针对 \(ReLU/PReLU\) 的矫正非线性 ...

  9. Android 7.1.1 又出幺蛾子了 —— 再谈 Android 上的 Wifi 连接

    在之前的博客文章中,我写了点在 Android 6 系统中连接到指定名称的 Wifi 的体验.然而,在 Android 7 中,有一些东西又变化了.另外就是在那篇文章中我说要提供代码,结果拖到这篇文章 ...

  10. C++:this指针的简单理解

    一.什么是this指针 要想理解什么是this指针,首先必须理解在C++中是如何为类的对象分配内存空间的. #include<iostream> using namespace std; ...