中文分词之结巴分词~~~附使用场景+demo（net）

先说下注意点，结巴分词他没有对分词进行一次去重，我们得自己干这件事；字典得自行配置或者设置成输出到bin目录

应用场景举例（搜索那块大家都知道，说点其他的）

——————————————————————————————————————————————————

言归正传：看一组民间统计数据：（非Net版，指的是官方版）

net版的IKanalyzer和盘古分词好多年没更新了，所以这次选择了结巴分词（这个名字也很符合分词的意境~~结巴说话，是不是也是一种分词的方式呢？）

下面简单演示一下：

1.先引入包：

2.字典设置：

3.简单封装的帮助类：

using System.Linq;

using JiebaNet.Segmenter;

using System.Collections.Generic;

namespace LoTLib.Word.Split

{

    #region 分词类型

    public enum JiebaTypeEnum

    {

        /// <summary>

        /// 精确模式---最基础和自然的模式，试图将句子最精确地切开，适合文本分析

        /// </summary>

        Default,

        /// <summary>

        /// 全模式---可以成词的词语都扫描出来, 速度更快，但是不能解决歧义

        /// </summary>

        CutAll,

        /// <summary>

        /// 搜索引擎模式---在精确模式的基础上对长词再次切分，提高召回率，适合用于搜索引擎分词

        /// </summary>

        CutForSearch,

        /// <summary>

        /// 精确模式-不带HMM

        /// </summary>

        Other

    }

    #endregion

    /// <summary>

    /// 结巴分词

    /// </summary>

    public static partial class WordSplitHelper

    {

        /// <summary>

        /// 获取分词之后的字符串集合

        /// </summary>

        /// <param name="objStr"></param>

        /// <param name="type"></param>

        /// <returns></returns>

        public static IEnumerable<string> GetSplitWords(string objStr, JiebaTypeEnum type = JiebaTypeEnum.Default)

        {

            var jieba = new JiebaSegmenter();

            switch (type)

            {

                case JiebaTypeEnum.Default:

                    return jieba.Cut(objStr);                 //精确模式-带HMM

                case JiebaTypeEnum.CutAll:

                    return jieba.Cut(objStr, cutAll: true);   //全模式

                case JiebaTypeEnum.CutForSearch:

                    return jieba.CutForSearch(objStr);        //搜索引擎模式

                default:

                    return jieba.Cut(objStr, false, false);   //精确模式-不带HMM

            }

        }

        /// <summary>

        /// 获取分词之后的字符串

        /// </summary>

        /// <param name="objStr"></param>

        /// <param name="type"></param>

        /// <returns></returns>

        public static string GetSplitWordStr(this string objStr, JiebaTypeEnum type = JiebaTypeEnum.Default)

        {

            var words = GetSplitWords(objStr, type);

            //没结果则返回空字符串

            if (words == null || words.Count() < 1)

            {

                return string.Empty;

            }

            words = words.Distinct();//有时候词有重复的，得自己处理一下

            return string.Join(",", words);//根据个人需求返回

        }

    }

}

调用很简单：

            string str = "bootstrap-datetimepicker 进一步跟进~~~开始时间和结束时间的样式显示";

            Console.WriteLine("\n精确模式-带HMM：\n");

            Console.WriteLine(str.GetSplitWordStr());

            Console.WriteLine("\n全模式：\n");

            Console.WriteLine(str.GetSplitWordStr(JiebaTypeEnum.CutAll));

            Console.WriteLine("\n搜索引擎模式：\n");

            Console.WriteLine(str.GetSplitWordStr(JiebaTypeEnum.CutForSearch));

            Console.WriteLine("\n精确模式-不带HMM：\n");

            Console.WriteLine(str.GetSplitWordStr(JiebaTypeEnum.Other));

            Console.ReadKey();

效果：

--------------------------

有人可能会说，那内容关键词提取呢？==》别急，看下面：

这种方式所对应的字典是它=》idf.txt

简单说下Constants==》

效果：

完整帮助类（最新看github）：https://github.com/dunitian/TempCode/tree/master/2016-09-05

using System.Linq;

using JiebaNet.Segmenter;

using System.Collections.Generic;

using JiebaNet.Analyser;

namespace LoTLib.Word.Split

{

    #region 分词类型

    public enum JiebaTypeEnum

    {

        /// <summary>

        /// 精确模式---最基础和自然的模式，试图将句子最精确地切开，适合文本分析

        /// </summary>

        Default,

        /// <summary>

        /// 全模式---可以成词的词语都扫描出来, 速度更快，但是不能解决歧义

        /// </summary>

        CutAll,

        /// <summary>

        /// 搜索引擎模式---在精确模式的基础上对长词再次切分，提高召回率，适合用于搜索引擎分词

        /// </summary>

        CutForSearch,

        /// <summary>

        /// 精确模式-不带HMM

        /// </summary>

        Other

    }

    #endregion

    /// <summary>

    /// 结巴分词

    /// </summary>

    public static partial class WordSplitHelper

    {

        #region 公用系列

        /// <summary>

        /// 获取分词之后的字符串集合

        /// </summary>

        /// <param name="objStr"></param>

        /// <param name="type"></param>

        /// <returns></returns>

        public static IEnumerable<string> GetSplitWords(string objStr, JiebaTypeEnum type = JiebaTypeEnum.Default)

        {

            var jieba = new JiebaSegmenter();

            switch (type)

            {

                case JiebaTypeEnum.Default:

                    return jieba.Cut(objStr);                 //精确模式-带HMM

                case JiebaTypeEnum.CutAll:

                    return jieba.Cut(objStr, cutAll: true);   //全模式

                case JiebaTypeEnum.CutForSearch:

                    return jieba.CutForSearch(objStr);        //搜索引擎模式

                default:

                    return jieba.Cut(objStr, false, false);   //精确模式-不带HMM

            }

        }

        /// <summary>

        /// 提取文章关键词集合

        /// </summary>

        /// <param name="objStr"></param>

        /// <returns></returns>

        public static IEnumerable<string> GetArticleKeywords(string objStr)

        {

            var idf = new TfidfExtractor();

            return idf.ExtractTags(objStr, 10, Constants.NounAndVerbPos);//名词和动词

        }

        /// <summary>

        /// 返回拼接后的字符串

        /// </summary>

        /// <param name="words"></param>

        /// <returns></returns>

        public static string JoinKeyWords(IEnumerable<string> words)

        {

            //没结果则返回空字符串

            if (words == null || words.Count() < 1)

            {

                return string.Empty;

            }

            words = words.Distinct();//有时候词有重复的，得自己处理一下

            return string.Join(",", words);//根据个人需求返回

        }

        #endregion

        #region 扩展相关

        /// <summary>

        /// 获取分词之后的字符串

        /// </summary>

        /// <param name="objStr"></param>

        /// <param name="type"></param>

        /// <returns></returns>

        public static string GetSplitWordStr(this string objStr, JiebaTypeEnum type = JiebaTypeEnum.Default)

        {

            var words = GetSplitWords(objStr, type);

            return JoinKeyWords(words);

        }

        /// <summary>

        /// 提取文章关键词字符串

        /// </summary>

        /// <param name="objStr"></param>

        /// <returns></returns>

        public static string GetArticleKeywordStr(this string objStr)

        {

            var words = GetArticleKeywords(objStr);

            return JoinKeyWords(words);

        }

        #endregion

    }

}

还有耐心或者只看末尾的有福了~

web端的字典配置那是个烦啊，逆天把源码微调了下

使用方法和上面一样

web版演示：

https://github.com/dunitian/LoTCode/blob/master/PawChina/PawChina/PawChina.UI/Areas/PawRoot/assets/js/note.js

https://github.com/dunitian/LoTCode/blob/master/PawChina/PawChina/PawChina.UI/Areas/PawRoot/Controllers/PartialViewController.cs

结巴中文分词相关：

https://github.com/fxsjy/jieba

https://github.com/anderscui/jieba.NET

http://cppjieba-webdemo.herokuapp.com

中文分词之结巴分词~~~附使用场景+demo（net）的更多相关文章

python中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
python 中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
python中文分词工具——结巴分词
传送门: http://www.iteye.com/news/26184-jieba
结巴分词 java 高性能实现，是 huaban jieba 速度的 2倍
Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 变更日志创作目的分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作 ...
python 结巴分词简介以及操作
中文分词库:结巴分词文档地址:https://github.com/fxsjy/jieba 代码对 Python 2/3 均兼容全自动安装:easy_install jieba 或者 pip in ...
ElasticSearch自定义分析器-集成结巴分词插件
关于结巴分词 ElasticSearch 插件: https://github.com/huaban/elasticsearch-analysis-jieba 该插件由huaban开发.支持Elast ...
Simple: SQLite3 中文结巴分词插件
一年前开发 simple 分词器,实现了微信在两篇文章中描述的,基于 SQLite 支持中文和拼音的搜索方案.具体背景参见这篇文章.项目发布后受到了一些朋友的关注,后续也发布了一些改进,提升了项目易用 ...
北大开源全新中文分词工具包：准确率远超THULAC、结巴分词
最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率.其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32% ...
中文分词接口api，采用结巴分词PHP版中文分词接口
中文分词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字.句和段能通过明显的分界符来简单划界,唯独词没有一个形式上 ...

随机推荐

【.net 深呼吸】细说CodeDom（6）：方法参数
本文老周就给大伙伴们介绍一下方法参数代码的生成. 在开始之前,先补充一下上一篇烂文的内容.在上一篇文章中,老周检讨了 MemberAttributes 枚举的用法,老周此前误以为该枚举不能进行按位操作 ...
nodejs进阶(3)—路由处理
1. url.parse(url)解析该方法将一个URL字符串转换成对象并返回. url.parse(urlStr, [parseQueryString], [slashesDenoteHost]) ...
SQLServer地址搜索性能优化例子
这是一个很久以前的例子,现在在整理资料时无意发现,就拿出来再改写分享. 1.需求 1.1 基本需求: 根据输入的地址关键字,搜索出完整的地址路径,耗时要控制在几十毫秒内. 1.2 数据库地址表结构和数 ...
Android数据存储之Android 6.0运行时权限下文件存储的思考
前言: 在我们做App开发的过程中基本上都会用到文件存储,所以文件存储对于我们来说是相当熟悉了,不过自从Android 6.0发布之后,基于运行时权限机制访问外置sdcard是需要动态申请权限,所以以 ...
JQuery 复制粘贴上传图片插件（textarea 和 tinyMCE）
开源地址:https://github.com/yuezhongxin/paste-upload-image.js 支持 Ctrl+C/Ctrl+V 上传,支持拖拽上传,也支持 QQ/微信截图上传. ...
数据图表插件Echarts（一）
一.引言最近做一个智慧城市项目,项目中需要图表和报表进行数据分析,从网上找了很多,最后找到了百度开放的echarts,一个很强大的插件. 二.介绍 ECharts,缩写来自Enterprise Ch ...
前端开发：面向对象与javascript中的面向对象实现（二）构造函数与原型
前端开发:面向对象与javascript中的面向对象实现(二)构造函数与原型前言(题外话): 有人说拖延症是一个绝症,哎呀治不好了.先不说这是一个每个人都多多少少会有的,也不管它究竟对生活有多么大的 ...
一些关于Linux入侵应急响应的碎碎念
近半年做了很多应急响应项目,针对黑客入侵.但疲于没有时间来总结一些常用的东西,寄希望用这篇博文分享一些安全工程师在处理应急响应时常见的套路,因为方面众多可能有些杂碎. 个人认为入侵响应的核心无外乎四个 ...
第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南
欢迎查看第六代智能英特尔® 酷睿™ 处理器图形 API 开发人员指南,该处理器可为开发人员和最终用户提供领先的 CPU 和图形性能增强.各种新特性和功能以及显著提高的性能. 本指南旨在帮助软件开发人员 ...
一个无限加载瀑布流jquery实现
实现大概是下面的效果,写了比较详细的注释 <!DOCTYPE html><html> <head> <meta charset="UTF-8&quo ...

中文分词之结巴分词~~~附使用场景+demo（net）

中文分词之结巴分词~~~附使用场景+demo（net）的更多相关文章

随机推荐

热门专题