逆向最大匹配分词算法C#

逆向顺序

句子：大家好我叫XX我是一名程序员

程序员　　->　　序员　　->　　员

名程序　　->　　程序　　->　　序

一名程　　->　　名程　　->　　程

是一名　　->　　一名　　->　　名

我是一　　->　　是一　　->　　一

X我是　　 ->　　我是　　->　　是

XX我　　 ->　　X我　　->　　我

叫XX　　 ->　　XX　　 ->　　X

我叫X　　 ->　　叫X　　->　　X

好我叫　　->　　我叫　　->　　叫

家好我　　->　　好我　　->　　我

大家好　　->　　家好　　->　　好

大家　　 ->　　家

大

class Program

    {

        public static HashSet<string> dictionary = new HashSet<string>();

        static void Main(string[] args)

        {

            Initail();

            List<string> list = new List<string>();

            string s = "大家好我叫XX我是一名程序员";

            string[] sentences = s.Split('，');

            int max = 3;

            for (int i = 0; i < sentences.Length; i++)

            {

                string str = sentences[i];

                int start = sentences[i].Length - max;

                int len = sentences[i].Length - start;

                while (len > 0)

                {

                    string subWord = sentences[i].Substring((start < 0 ? 0 : start), len);

                    Console.WriteLine(subWord);

                    if (Search(subWord))

                    {

                        list.Add(subWord);

                        start = start - max;

                        if (start < 0)

                        {

                            len = start < 0 ? max + start : max;

                        }

                    }

                    else

                    {

                        int k = 1;

                        bool flag = false;

                        string tempWord = null;

                        for (; k <= subWord.Length - 1; k++)

                        {

                            tempWord = subWord.Substring(k);

                            Console.WriteLine(tempWord);

                            if (Search(tempWord))

                            {

                                flag = true;

                                list.Add(tempWord);

                                break;

                            }

                        }

                        if (flag)

                        {

                            start = start - tempWord.Length;

                        }

                        else

                        {

                            start--;

                        }

                        len = start < 0 ? max + start : max;

                    }

                }

            }

            foreach (string x in list)

            {

                Console.WriteLine(x);

            }

            Console.ReadKey();

        }

        public static void Initail()

        {

            dictionary.Add("大家");

            dictionary.Add("好");

            dictionary.Add("我");

            dictionary.Add("一名");

            dictionary.Add("程序员");

            dictionary.Add("nick");

        }

        public static bool Search(string word)

        {

            return dictionary.Contains(word);

        }

    }

逆向最大匹配分词算法C#的更多相关文章

【nlp】中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析
分词算法设计中的几个基本原则: 1.颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安局长”.“公安局长” ...
C#汉字转拼音，可识别多音字，带声调，提供正向、逆向、双向分词算法的小程序
用C#写了个汉字转拼音的小工具,和网上大部分工具不同,这个通过分词算法,解决了多音字的问题,并且提供声调,可开可关. 如题,用"银行行不行行家说了算"举例,如果转拼音却不能识别 ...
中文分词算法之最大正向匹配算法（Python版）
最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的. 正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配. 首先我们可以规定一个词的最大长度,每次扫描的时候 ...
【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
分词 | 双向匹配中文分词算法python实现
本次实验内容是基于词典的双向匹配算法的中文分词算法的实现.使用正向和反向最大匹配算法对给定句子进行分词,对得到的结果进行比较,从而决定正确的分词方法. 算法描述正向最大匹配算法先设定扫描的窗口大小ma ...
Mmseg中文分词算法解析
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索 ...
IK分词算法设计总结
IK分词算法设计思考加载词典 IK分词算法初始化时加载了“敏感词”.“主词典”.“停词”.“量词”,如果这些词语的数量很多,怎么保证加载的时候内存不溢出分词缓冲区在分词缓冲区中进行分词操作,怎么 ...
LTP 分词算法实践
参考链接: https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst http://www.xfyun.cn/index.php/serv ...
SPOJ 4206 Fast Maximum Matching (二分图最大匹配 Hopcroft-Carp 算法模板)
题目大意: 有n1头公牛和n2头母牛,给出公母之间的m对配对关系,求最大匹配数.数据范围: 1 <= n1, n2 <= 50000, m <= 150000 算法讨论: 第一反应 ...

随机推荐

【读书笔记】iOS-GCD-block
一,block的定义 //申明变量 (void)(^PrintStr)(void); //定义 PrintStr=^{ NSLog(@"PrintStr"); }; //调用 Pr ...
github与eclipse创建仓库及克隆仓库
1.前往github官网注册账号,并下载客户端: 2.为eclipse工程创建本地仓库: 1,目前大多eclipse都预装了egit插件,如果没有请自行安装 2,在eclipse内创建工程->右 ...
解决log4j:WARN Error initializing output writer. log4j:WARN Unsupported encoding?的问题
异常名:log4j:WARN Error initializing output writer. log4j:WARN Unsupported encoding? 异常截图: 在一般的javaweb项 ...
java基础-在dos控制台编写简易的java程序
第一步:在文件夹中修改隐藏的文件扩展名,让其文件的扩展名全部显示:————win7系统在文件的组织下方的文件夹和搜索选项,选择查看,将里面的隐藏选项取消: 第二步:在文件夹中新建一个text文件,将其 ...
读书笔记——Windows核心编程（15）在应用程序中使用虚拟内存
微软的Windows提供了三种机制对内存进行操控 1 虚拟内存(最适合管理大型对象数组或大型结构数组) 2 内存映射文件(大型数据流/文件,共享数据) 3 堆(大量的小型对象) 预订地址空间区域Vi ...
oracle错误（ORA-01691），单个数据文件大小限制问题
1.问题:数据库从其他库同步一张大表时,出现错误 ERROR at line : ORA-: illegal parameter value in OCI lob function ORA-: pre ...
android中TimePicker和DatePicker的简单使用
package com.example.demo10; import java.util.Calendar; import android.support.v7.app.ActionBarActivi ...
QT添加程序图标及窗口图标
程序图标材料准备图标文件:*.ico文件,存放在源文件同一目录下,如"myapp.ico" 写入图标向*.pro文件中,独立一行写入"RC_ICONS = *.ic ...
esxi安装全过程及基本配置
esxi6.0下载地址链接: http://pan.baidu.com/s/1jIfg2yU 密码: qacv 支持检测可以参考:http://www.linuxidc.com/Linux/2012 ...
Ubuntu进阶学习，指令迅速查询，Bug迅速查询（Ctrl+F）
There is some notes while I am learning Ubuntu Operate System! (Ask Ubuntu) 1-- Hard link : ln comma ...

逆向最大匹配分词算法C#

逆向最大匹配分词算法C#的更多相关文章

随机推荐

热门专题