php 分词 —— PHPAnalysis无组件分词系统

分词，顾名思义就是把词语分开，从哪里分开？当然是一大堆词语里了，一大堆词语是什么？是废话或者名言。这在数据库搜索时非常有用。

官方网站 http://www.phpbone.com/phpanalysis/#api

下面是 PHPAnalysis无组件分词系统的介绍和API

    分词系统简介：PHPAnalysis分词程序使用居于unicode的词库，使用反向匹配模式分词，理论上兼容编码更广泛，并且对utf-8编码尤为方便。 由于PHPAnalysis是无组件的系统，因此速度会比有组件的稍慢，不过在大量分词中，由于边分词边完成词库载入，因此内容越多，反而会觉得速度越快，这是正常现象，PHPAnalysis的词库是用一种类似哈希(Hash)的数据结构进行存储的，因此对于比较短的字符串分词，只需要占极小的资源，比那种一次性载入所有词条的实际性要高得多，并且词库容量大小不会影响分词执行的速度。

        PHPAnalysis分词系统是基于字符串匹配的分词方法进行分词的，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配 和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与 标注相结合的一体化方法。常用的几种机械分词方法如下：

    1）正向最大匹配法（由左到右的方向）；

    2）逆向最大匹配法（由右到左的方向）；

    3）最少切分（使每一句中切出的词数最小）。

        还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向 最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169， 单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各 种其它的语言信息来进一步提高切分的准确率。另一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明 显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类 信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

        PHPAnalysis分词先对需要分词的词进行粗分，然后对粗分的短句子进行二次逆向最大匹配法(RMM)的方法进行分词，分词后对分词结果进行优化，然后才得到最终的分词结果。

    PHPAnalysis类API文档

    一、比较重要的成员变量

    $resultType   = 1        生成的分词结果数据类型(1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文)

                                        这个变量一般用 SetResultType( $rstype ) 这方法进行设置。

    $notSplitLen  = 5        切分句子最短长度

    $toLower      = false    把英文单词全部转小写

    $differMax    = false    使用最大切分模式对二元词进行消岐

    $unitWord     = true     尝试合并单字(即是新词识别)

    $differFreq   = false    使用热门词优先模式进行消岐

    二、主要成员函数列表

    1、public function __construct($source_charset='utf-8', $target_charset='utf-8', $load_all=true, $source='')

    函数说明：构造函数

    参数列表：

    $source_charset      源字符串编码

    $target_charset      目录字符串编码

    $load_all            是否完全加载词典（此参数已经作废）

    $source              源字符串

    如果输入输出都是utf-8，实际上可以不必使用任何参数进行初始化，而是通过 SetSource 方法设置要操作的文本

    2、public function SetSource( $source, $source_charset='utf-8', $target_charset='utf-8' )

    函数说明：设置源字符串

    参数列表：

    $source              源字符串

    $source_charset      源字符串编码

    $target_charset      目录字符串编码

    返回值：bool

    3、public function StartAnalysis($optimize=true)

    函数说明：开始执行分词操作

    参数列表：

    $optimize            分词后是否尝试优化结果

    返回值：void

    一个基本的分词过程：

    //////////////////////////////////////

    $pa = new PhpAnalysis();

    $pa->SetSource('需要进行分词的字符串');

    //设置分词属性

    $pa->resultType = 2;

    $pa->differMax  = true;

    $pa->StartAnalysis();

    //获取你想要的结果

    $pa->GetFinallyIndex();

    ////////////////////////////////////////

    4、public function SetResultType( $rstype )

    函数说明：设置返回结果的类型

    实际是对成员变量$resultType的操作

    参数 $rstype 值为：

    1 为全部， 2为 词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文

    返回值：void

    5、public function GetFinallyKeywords( $num = 10 )

    函数说明：获取出现频率最高的指定词条数（通常用于提取文档关键字）

    参数列表：

    $num = 10  返回词条个数

    返回值：用","分隔的关键字列表

    6、public function GetFinallyResult($spword=' ')

    函数说明：获得最终分词结果

    参数列表：

    $spword    词条之间的分隔符

    返回值：string

    7、public function GetSimpleResult()

    函数说明：获得粗分结果

    返回值：array

    8、public function GetSimpleResultAll()

    函数说明：获得包含属性信息的粗分结果

    属性（1中文词句、2 ANSI词汇（包括全角），3 ANSI标点符号（包括全角），4数字（包括全角），5 中文标点或无法识别字符）

    返回值：array

    9、public function GetFinallyIndex()

    函数说明：获取hash索引数组

    返回值：array('word'=>count,...) 按出现频率排序

    10、public function MakeDict( $source_file, $target_file='' )

    函数说明：把文本文件词库编译成词典

    参数列表：

    $source_file   源文本文件

    $target_file   目标文件(如果不指定，则为当前词典)

    返回值：void

    11、public function ExportDict( $targetfile )

    函数说明：导出当前词典全部词条为文本文件

    参数列表：

    $targetfile  目标文件

    返回值：void

下面是案例

文件位置如图

demo.php代码：

     require_once './phpanalysis.class.php';

     $pa=new PhpAnalysis();

     $pa->SetSource("小明他大爷");    //设置原字符串

     $pa->resultType=2;

     $pa->differMax=true;

     $pa->StartAnalysis();

     $arr=$pa->GetFinallyIndex();

     echo "<pre>";

     print_r($arr);

     echo "</pre>";

访问demo.php，显示如下

下载地址 http://download.csdn.net/detail/lhat_7/9653027

php 分词 —— PHPAnalysis无组件分词系统的更多相关文章

【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
Python 结巴分词（1）分词
利用结巴分词来进行词频的统计,并输出到文件中. 结巴分词github地址:结巴分词结巴分词的特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成 ...
自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
组件-实体-系统 Entiy-Compoent-System ECS架构整理
继承体系的问题,为什么要用ECS 面向对象的问题当一个新的类型需要多个老类型的不同功能的时候,不能很好的继承出来游戏开发后期会有非常多的类,很难维护游戏中子系统很多,它们对一个对象的关注点往往互 ...
【Lucene3.6.2入门系列】第05节_自定义停用词分词器和同义词分词器
首先是用于显示分词信息的HelloCustomAnalyzer.java package com.jadyer.lucene; import java.io.IOException; import j ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
盘古分词demo，盘古分词怎么用
1.下载PanGu.dll dll地址:http://download.csdn.net/detail/dhfekl/7493687 2.将PanGu.dll和词库引入到项目最新词库地址:http: ...
02Oracle Database 安装，卸载，系统服务，系统组件及系统表空间
Oracle Database 安装,卸载,系统服务,系统组件及系统表空间 Oracle Database 安装 Oracle Database 卸载 Oracle Database 系统服务 Ora ...
02Microsoft SQL Server 安装，卸载，系统服务，系统组件及系统数据库
Microsoft SQL Server 安装,卸载,系统服务,系统组件及系统数据库 1. Microsoft SQL Server 安装通过单击下拉框,选择浏览,然后在Active Directo ...

随机推荐

.Net的后台服务技术有哪些？
ashx(一般处理程序)WCFWebServiceASP.NET Web API 1 ashx(一般处理程序) 一般处理程序(HttpHandler)是·NET众多web组件的一种,ashx是其扩展 ...
php操作数据库找不到列
IDEA中如何添加Scala插件。我使用的IDEA版本是14
如图:
Hark的数据结构与算法练习之煎饼排序
算法说明假设煎锅里边有N个煎饼摞在了一起,它们大小不一并且顺序不一致,我们需要通过拿铲子将它们不停的翻个,进行排序,最终得到一个底下是大的煎饼,上边是小的煎饼的序列.这个排序的过程就是煎饼排序. 这 ...
js:数据结构笔记6--字典
Dictionary类的基础是数组不是对象:字典的主要用途是通过键取值: 基本定义: function Dictionary() { this.dataStore = new Array(); thi ...
Xamarin.iOS编译时无法连接苹果系统
Xamarin.iOS编译时无法连接苹果系统错误信息:Unable to connect to Address=’***.***.***.***’ with User=’***’ 即使Vis ...
DFS+模拟 ZOJ 3861 Valid Pattern Lock
题目传送门 /* 题意:手机划屏解锁,一笔连通所有数字,输出所有可能的路径: DFS:全排列 + ok () 判断函数,去除一些不可能连通的点:) */ #include <cstdio> ...
ZOJ 3603 DP LCS
已经5年没有做OJ了, 曾经沧海难为水,除去巫山不是云" 准备每周刷1-2题! 题目大意:给出N个字符串,且各个字符串都包含唯一的字母,即不存在"ABCA"(A重复了), ...
不容易系列之二[HDU2042]
不容易系列之二 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Sub ...
VSPM虚拟串口使用
(1)打开虚拟串口工具,当你设置好你程序中的串口信息后,打开程序中的串口,然后虚拟串口中所显示的就是程序的所提供的串口信息 (2)选中其中一个串口,修改管理信息,点击”重新连接“ , 直接在管理那里, ...

php 分词 —— PHPAnalysis无组件分词系统

php 分词 —— PHPAnalysis无组件分词系统的更多相关文章

随机推荐

热门专题