C#分词算法

本文用到的库下载：点此下载

将词库直接放到项目根目录

词库设置如下：

类库说明

词库查看程序：点此下载

可以在上面的程序中添加常用行业词库还可以通过下面的类在程序中实现

完整的盘古release：点此下载

最新字典文件下载位置

http://pangusegment.codeplex.com/releases/view/47411

默认字典位置为 ..\Dictionaries 你可以通过设置PanGu.xml 文件来修改字典的位置

Demo.exe 分词演示程序

DictManage.exe 字典管理程序

PanGu.xml 分词配置文件

PanGu.HighLight.dll 高亮组件

Lucene.Net

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，是一个Library.你也可以把它理解为一个将索引,搜索功能封装的很好的一套简单易用的API(提供了完整的查询引擎和索引引擎)。利用这套API你可以做很多有关搜索的事情,而且很方便.。开发人员可以基于Lucene.net实现全文检索的功能。

注意：Lucene.Net只能对文本信息进行检索。如果不是文本信息，要转换为文本信息，比如要检索Excel文件，就要用NPOI把Excel读取成字符串，然后把字符串扔给Lucene.Net。Lucene.Net会把扔给它的文本切词保存，加快检索速度。

ok,接下来就细细详解下士怎样一步一步实现这个效果的。

Lucene.Net 核心——分词算法（Analyzer）

学习Lucune.Net，分词是核心。当然最理想状态下是能自己扩展分词，但这要很高的算法要求。Lucene.Net中不同的分词算法就是不同的类。所有分词算法类都从Analyzer类继承，不同的分词算法有不同的优缺点。

内置的StandardAnalyzer是将英文按照空格、标点符号等进行分词，将中文按照单个字进行分词，一个汉字算一个词

namespace EazyCMS.Common

{

    /// <summary>

    /// 分词类

    /// </summary>

    public class Participle

    {

        public List<string> list = new List<string>();

        public  void get_participle()

        {

            Analyzer analyzer = new StandardAnalyzer();

                TokenStream tokenStream = analyzer.TokenStream("",new StringReader("Hello Lucene.Net,我1爱1你China"));

                Lucene.Net.Analysis.Token token = null;

                while ((token = tokenStream.Next()) != null)

                {

                //Console.WriteLine(token.TermText());

                string s = token.TermText();

                } 

        }

    }

}

二元分词算法，每两个汉字算一个单词，“我爱你China”会分词为“我爱爱你 china”，点击查看二元分词算法CJKAnalyzer。

namespace EazyCMS.Common

{

    /// <summary>

    /// 分词类

    /// </summary>

    public class Participle

    {

        public List<string> list = new List<string>();

        public  void get_participle()

        {

            //Er

            Analyzer analyzer = new CJKAnalyzer();

            TokenStream tokenStream = analyzer.TokenStream("", new StringReader("我爱你中国China中华人名共和国"));

            Lucene.Net.Analysis.Token token = null;

            while ((token = tokenStream.Next()) != null)

            {

                Response.Write(token.TermText() + "<br/>");

            }

        }

    }

}

这时，你肯定在想，上面没有一个好用的，二元分词算法乱枪打鸟，很想自己扩展Analyzer，但并不是算法上的专业人士。怎么办？

天降圣器，盘古分词，

盘古分词的用法首先引用以上的盘古dll 文件

将xml文件放在项目的根目录下

<?xml version="1.0" encoding="utf-8"?>

<PanGuSettings xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns="http://www.codeplex.com/pangusegment">

  <DictionaryPath>Dict</DictionaryPath>

  <MatchOptions>

    <ChineseNameIdentify>true</ChineseNameIdentify>

    <FrequencyFirst>false</FrequencyFirst>

    <MultiDimensionality>false</MultiDimensionality>

    <EnglishMultiDimensionality>true</EnglishMultiDimensionality>

    <FilterStopWords>true</FilterStopWords>

    <IgnoreSpace>true</IgnoreSpace>

    <ForceSingleWord>false</ForceSingleWord>

    <TraditionalChineseEnabled>false</TraditionalChineseEnabled>

    <OutputSimplifiedTraditional>false</OutputSimplifiedTraditional>

    <UnknownWordIdentify>true</UnknownWordIdentify>

    <FilterEnglish>false</FilterEnglish>

    <FilterNumeric>false</FilterNumeric>

    <IgnoreCapital>false</IgnoreCapital>

    <EnglishSegment>false</EnglishSegment>

    <SynonymOutput>false</SynonymOutput>

    <WildcardOutput>false</WildcardOutput>

    <WildcardSegment>false</WildcardSegment>

    <CustomRule>false</CustomRule>

  </MatchOptions>

  <Parameters>

    <UnknowRank>1</UnknowRank>

    <BestRank>5</BestRank>

    <SecRank>3</SecRank>

    <ThirdRank>2</ThirdRank>

    <SingleRank>1</SingleRank>

    <NumericRank>1</NumericRank>

    <EnglishRank>5</EnglishRank>

    <EnglishLowerRank>3</EnglishLowerRank>

    <EnglishStemRank>2</EnglishStemRank>

    <SymbolRank>1</SymbolRank>

    <SimplifiedTraditionalRank>1</SimplifiedTraditionalRank>

    <SynonymRank>1</SynonymRank>

    <WildcardRank>1</WildcardRank>

    <FilterEnglishLength>0</FilterEnglishLength>

    <FilterNumericLength>0</FilterNumericLength>

    <CustomRuleAssemblyFileName>CustomRuleExample.dll</CustomRuleAssemblyFileName>

    <CustomRuleFullClassName>CustomRuleExample.PickupVersion</CustomRuleFullClassName>

    <Redundancy>0</Redundancy>

  </Parameters>

</PanGuSettings>

在全局文件中填入以下代码

   protected void Application_Start(object sender, EventArgs e)

        {

            //log4net.Config.XmlConfigurator.Configure();

            //logger.Debug("程序开始");

            Segment.Init(HttpContext.Current.Server.MapPath("~/PanGu.xml"));

        }

分词方法

 Segment segment = new Segment();

                var ss = segment.DoSegment("海信的,家就看到");

                foreach (var s in ss)

                {

                    string sa = s.Word;

                }

设置过滤词（注意这里的过滤词不要放在第一个上）

C#分词算法的更多相关文章

IK分词算法设计总结
IK分词算法设计思考加载词典 IK分词算法初始化时加载了“敏感词”.“主词典”.“停词”.“量词”,如果这些词语的数量很多,怎么保证加载的时候内存不溢出分词缓冲区在分词缓冲区中进行分词操作,怎么 ...
LTP 分词算法实践
参考链接: https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst http://www.xfyun.cn/index.php/serv ...
中文分词算法之最大正向匹配算法（Python版）
最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的. 正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配. 首先我们可以规定一个词的最大长度,每次扫描的时候 ...
浅谈分词算法（5）基于字的分词方法（bi-LSTM）
目录前言目录循环神经网络基于LSTM的分词 Embedding 数据预处理模型如何添加用户词典前言很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做 ...
浅谈分词算法（4）基于字的分词方法（CRF）
目录前言目录条件随机场(conditional random field CRF) 核心点线性链条件随机场简化形式 CRF分词 CRF VS HMM 代码实现训练代码实验结果参考文献 ...
浅谈分词算法（3）基于字的分词方法（HMM）
目录前言目录隐马尔可夫模型(Hidden Markov Model,HMM) HMM分词两个假设 Viterbi算法代码实现实现效果完整代码参考文献前言在浅谈分词算法(1)分词中的 ...
C#汉字转拼音，可识别多音字，带声调，提供正向、逆向、双向分词算法的小程序
用C#写了个汉字转拼音的小工具,和网上大部分工具不同,这个通过分词算法,解决了多音字的问题,并且提供声调,可开可关. 如题,用"银行行不行行家说了算"举例,如果转拼音却不能识别 ...
在Hadoop上运行基于RMM中文分词算法的MapReduce程序
原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词 ...
使用织梦开源的分词算法库编写的YII获取分词扩展
在编辑文章中,很多时候都需要自动根据文章内容获取关键字的功能,因此,本文主要是说明如何在yii中使用织梦开源的分词算法编写一个独立的扩展,可以在不同的模块中使用,步骤如下: 1 到这里下载其他朋友整理 ...

随机推荐

Bootstrap第3天
Bootstrap第3天图片样式 .img-responsive:直接为图片添加该样式,可以实现响应式图片. .center-block:图片居中样式,而不能使用text-center样式. 图片形 ...
Cordova+FrameWork7开发简单教程
1: 环境要有:(一个不会搭建环境的程序员,要么学,要么退出编程 ) 环境这里我只说需要什么: 1>AndroidStudio 3.0 (2.几的版本总会出问题.我喜欢用新版本) 2>co ...
改善程序与设计的55个具体做法 day5
条款12:复制对象时勿忘其每一个成分这里的复制是拷贝构造和operator= 每一个成分有几个维度: 1.每个成员变量这个很好理解,添加新的成员时也要记得为每个新添加的成员执行合适的复制操作 2. ...
牛客练习赛13 A 幸运数字Ⅰ 【暴力】
题目链接 https://www.nowcoder.com/acm/contest/70/A 思路暴力每一个子串用 MAP 标记一下然后最后遍历一遍 MAP 找出出现次数最多并且字典序 ...
SQL语法结构
目录一.增 1.增加字段 2.新建约束二.删 1.删除字段 2.删除约束三.改 1.修改字段一.增 1.增加字段: ALTER TABLE [表名] ADD [字段名] NVARCHAR () ...
iOS 发大招 otherButtonTitles:(nullable NSString *)otherButtonTitles, ... 写法 && 编写通用类的时候关于可变参数的处理
开始我以为这个 alertView 里面 ...的写法应该是一个普通的数组然并没有分享一篇好文 http://www.tekuba.net/program/290/ IOS实现 ...
Android Theme主题
•android:theme="@android:style/Theme.Dialog" 将一个Activity显示为能话框模式 •android:theme="@and ...
【Flask】query可用参数
### query可用参数:1. 模型对象.指定查找这个模型中所有的对象.2. 模型中的属性.可以指定只查找某个模型的其中几个属性.3. 聚合函数. * func.count:统计行的数量. * fu ...
nova 为何要做互信
1.计算节点为什么要做nova 的互信? nova 做resize 或者冷迁移需要两台计算节点做互信. 原因:resize(冷迁移)实际上是运行scp 文件到另一台主机上,如下的命令 Command: ...
Linux 中 bashrc 中的 rc 是什么意思
刚刚配置 .bashrc 文件时,突然想,这里面的 rc 是什么意思? 使用了这么长时间,这个都不知道,这是醉了.Google 之,还真有不少人探究过,哈哈. 这个 ubuntu 中文论坛里,有人回答 ...

C#分词算法

C#分词算法的更多相关文章

随机推荐

热门专题