php 分词 —— PHPAnalysis无组件分词系统

分词，顾名思义就是把词语分开，从哪里分开？当然是一大堆词语里了，一大堆词语是什么？是废话或者名言。这在数据库搜索时非常有用。

官方网站 http://www.phpbone.com/phpanalysis/#api

下面是 PHPAnalysis无组件分词系统的介绍和API

    分词系统简介：PHPAnalysis分词程序使用居于unicode的词库，使用反向匹配模式分词，理论上兼容编码更广泛，并且对utf-8编码尤为方便。 由于PHPAnalysis是无组件的系统，因此速度会比有组件的稍慢，不过在大量分词中，由于边分词边完成词库载入，因此内容越多，反而会觉得速度越快，这是正常现象，PHPAnalysis的词库是用一种类似哈希(Hash)的数据结构进行存储的，因此对于比较短的字符串分词，只需要占极小的资源，比那种一次性载入所有词条的实际性要高得多，并且词库容量大小不会影响分词执行的速度。

        PHPAnalysis分词系统是基于字符串匹配的分词方法进行分词的，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配 和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与 标注相结合的一体化方法。常用的几种机械分词方法如下：

    1）正向最大匹配法（由左到右的方向）；

    2）逆向最大匹配法（由右到左的方向）；

    3）最少切分（使每一句中切出的词数最小）。

        还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向 最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169， 单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各 种其它的语言信息来进一步提高切分的准确率。另一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明 显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类 信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

        PHPAnalysis分词先对需要分词的词进行粗分，然后对粗分的短句子进行二次逆向最大匹配法(RMM)的方法进行分词，分词后对分词结果进行优化，然后才得到最终的分词结果。

    PHPAnalysis类API文档

    一、比较重要的成员变量

    $resultType   = 1        生成的分词结果数据类型(1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文)

                                        这个变量一般用 SetResultType( $rstype ) 这方法进行设置。

    $notSplitLen  = 5        切分句子最短长度

    $toLower      = false    把英文单词全部转小写

    $differMax    = false    使用最大切分模式对二元词进行消岐

    $unitWord     = true     尝试合并单字(即是新词识别)

    $differFreq   = false    使用热门词优先模式进行消岐

    二、主要成员函数列表

    1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')

    函数说明：构造函数

    参数列表：

    $source_charset      源字符串编码

    $target_charset      目录字符串编码

    $load_all            是否完全加载词典（此参数已经作废）

    $source              源字符串

    如果输入输出都是utf-8，实际上可以不必使用任何参数进行初始化，而是通过 SetSource 方法设置要操作的文本

    2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )

    函数说明：设置源字符串

    参数列表：

    $source              源字符串

    $source_charset      源字符串编码

    $target_charset      目录字符串编码

    返回值：bool

    3、public function StartAnalysis($optimize=true)

    函数说明：开始执行分词操作

    参数列表：

    $optimize            分词后是否尝试优化结果

    返回值：void

    一个基本的分词过程：

    //////////////////////////////////////

    $pa = new PhpAnalysis();

    $pa->SetSource('需要进行分词的字符串');

    //设置分词属性

    $pa->resultType = 2;

    $pa->differMax  = true;

    $pa->StartAnalysis();

    //获取你想要的结果

    $pa->GetFinallyIndex();

    ////////////////////////////////////////

    4、public function SetResultType( $rstype )

    函数说明：设置返回结果的类型

    实际是对成员变量$resultType的操作

    参数 $rstype 值为：

    1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文

    返回值：void

    5、public function GetFinallyKeywords( $num = 10 )

    函数说明：获取出现频率最高的指定词条数（通常用于提取文档关键字）

    参数列表：

    $num = 10  返回词条个数

    返回值：用","分隔的关键字列表

    6、public function GetFinallyResult($spword=' ')

    函数说明：获得最终分词结果

    参数列表：

    $spword    词条之间的分隔符

    返回值：string

    7、public function GetSimpleResult()

    函数说明：获得粗分结果

    返回值：array

    8、public function GetSimpleResultAll()

    函数说明：获得包含属性信息的粗分结果

    属性（1中文词句、2 ANSI词汇（包括全角），3 ANSI标点符号（包括全角），4数字（包括全角），5 中文标点或无法识别字符）

    返回值：array

    9、public function GetFinallyIndex()

    函数说明：获取hash索引数组

    返回值：array('word'=>count,...) 按出现频率排序

    10、public function MakeDict( $source_file, $target_file='' )

    函数说明：把文本文件词库编译成词典

    参数列表：

    $source_file   源文本文件

    $target_file   目标文件(如果不指定，则为当前词典)

    返回值：void

    11、public function ExportDict( $targetfile )

    函数说明：导出当前词典全部词条为文本文件

    参数列表：

    $targetfile  目标文件

    返回值：void

下面是案例

文件位置如图

demo.php代码：

     require_once './phpanalysis.class.php';

     $pa=new PhpAnalysis();

     $pa->SetSource("小明他大爷");    //设置原字符串

     $pa->resultType=2;

     $pa->differMax=true;

     $pa->StartAnalysis();

     $arr=$pa->GetFinallyIndex();

     echo "<pre>";

     print_r($arr);

     echo "</pre>";

访问demo.php，显示如下

下载地址 http://download.csdn.net/detail/lhat_7/9653027

php 分词 —— PHPAnalysis无组件分词系统的更多相关文章

【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
Python 结巴分词（1）分词
利用结巴分词来进行词频的统计,并输出到文件中. 结巴分词github地址:结巴分词结巴分词的特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成 ...
自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
组件-实体-系统 Entiy-Compoent-System ECS架构整理
继承体系的问题,为什么要用ECS 面向对象的问题当一个新的类型需要多个老类型的不同功能的时候,不能很好的继承出来游戏开发后期会有非常多的类,很难维护游戏中子系统很多,它们对一个对象的关注点往往互 ...
【Lucene3.6.2入门系列】第05节_自定义停用词分词器和同义词分词器
首先是用于显示分词信息的HelloCustomAnalyzer.java package com.jadyer.lucene; import java.io.IOException; import j ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
盘古分词demo，盘古分词怎么用
1.下载PanGu.dll dll地址:http://download.csdn.net/detail/dhfekl/7493687 2.将PanGu.dll和词库引入到项目最新词库地址:http: ...
02Oracle Database 安装，卸载，系统服务，系统组件及系统表空间
Oracle Database 安装,卸载,系统服务,系统组件及系统表空间 Oracle Database 安装 Oracle Database 卸载 Oracle Database 系统服务 Ora ...
02Microsoft SQL Server 安装，卸载，系统服务，系统组件及系统数据库
Microsoft SQL Server 安装,卸载,系统服务,系统组件及系统数据库 1. Microsoft SQL Server 安装通过单击下拉框,选择浏览,然后在Active Directo ...

随机推荐

Android SDK、ADT认识
Android SDK: (software development kit)软件开发工具包. 包含一些实用的Android sdk api,供开发者使用,就像开发java程序需要的使用JDK一样. ...
MATLAB学习笔记（八）——MATLAB数值积分与微分
(一)数值积分一.数值积分的MATLAB实现方法: 1.变步长辛普生法(quad)法: (1)调用格式: [I,n]=quad('fname',a,b,tol,trace); fname是被积函数: ...
js:语言精髓笔记3----语句
JS语句分类:(注意语句都是有返回值的) 声明语句: 变量声明语句: 标签声明语句: 函数声明语句: 表达式语句:(表达式加分号) 变量赋值语句:具有声明一个变量的隐式效果: 函数调用语句; 属性赋值 ...
Div 添加阴影
<style type="text/css">.mydiv{ width:250px;height:auto;border:#909090 1px solid;ba ...
spring实战五之Bean的自动检测
在spring实战四中,使用在Spring中增加<context:annotation-config>的方式告诉Spring,我们打算使用基于注解的自动装配,希望Spring特殊对待我们所 ...
阿里云SDK手册之java SDK
进行阿里云sdk开发的前提是已经购买阿里云的相关服务才能调用阿里的相关接口进行开发.最近公司在做云管控的项目,于是进行下摘录总结. 一. 环境准备阿里云针对不同的开发语言提供不同的sdk,由于项目用 ...
JavaScript判断用户是通过电脑端还是移动端访问
每个浏览器对应的useragent不同,JavaScript通过判断useragent的类型,便可以判断出用户所使用的浏览器类型,包括 IE.Firefox.chrome等.还可以判断用户是否通过移动 ...
【BZOJ】1070: [SCOI2007]修车（费用流+特殊的技巧）
http://www.lydsy.com/JudgeOnline/problem.php?id=1070 好神的题!!!orz 首先我是sb不会拆点..... 首先,每一个技术人员维修车辆都有一个先后 ...
VTK 5.10.1 VS2010 Configuration 配置
Download VTK 5.10.1 Download VS2010 Download CMake 3.2.0 I assume you've already installed VS2010 an ...
使用SBT构建Scala应用(转自git)
# 使用SBT构建Scala应用 ## SBT简介 SBT是Simple Build Tool的简称,如果读者使用过Maven,那么可以简单将SBT看做是Scala世界的Maven,虽然二者各有优劣, ...

php 分词 —— PHPAnalysis无组件分词系统

php 分词 —— PHPAnalysis无组件分词系统的更多相关文章

随机推荐

热门专题