一、N-gram介绍

　　n元语法（英语：N-gram）指文本中连续出现的n个语词。n元语法模型是基于(n - 1)阶马尔可夫链的一种概率语言模型，通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学（如基于统计的自然语言处理NLP）、计算生物学（如序列分析）、数据压缩等领域。

　　N-gram文本广泛用于文本挖掘和自然语言处理任务。它们基本上是给定窗口内的一组同时出现的单词，在计算n元语法时，通常会将一个单词向前移动（尽管在更高级的场景中可以使X个单词向前移动）。

　　例如，对于句子"The cow jumps over the moon" ，N = 2（称为二元组），则 ngram 为：

the cow
cow jumps
jumps over
over the
the moon

　　因此，在这种情况下，有 5 个 n-gram。

　　再来看看 N = 3，ngram 将为：

the cow jumps
cow jumps over
jumps over the
over the moon

　　因此，在这种情况下，有 4 个 n-gram。

　　所以，在一个句子中 N-grams 的数量有：

　　　　　　N_grams(K)= X - (N - 1)

　　其中，X 为给定句子K中的单词数，N 为 N-gram 的N，指的是连续出现的 N 个单词。

　　N-gram用于各种不同的任务。例如，在开发语言模型时，N-grams不仅用于开发unigram模型，而且还用于开发bigram和trigram模型。谷歌和微软已经开发了网络规模的 n-gram模型，可用于多种任务，例如拼写校正、分词和文本摘要。N-gram的另一个用途是为受监督的机器学习模型（例如SVM，MaxEnt模型，朴素贝叶斯等）开发功能。其想法是在特征空间中使用标记（例如双字母组），而不是仅使用字母组合。

　　下面简单介绍一下如何用 Java 生成 n-gram。

二、用 Java 生成 n-gram

　　这个是生成 n-gram 的主要方法，方法首先是对传进来的句子 sentence 进行单词拆分，这个正则表达式“\\s+”是能匹配任何空白字符，包括空格、制表符、换页符等等, 等价于 [ \f\n\r\t\v]。拆分完后对单词进行拼接。算法时间复杂度为 O(X - (N - 1))，X 为给定句子K中的单词数，N 为 N-gram 的 N。

 1     /**

 2      * 生成n元语法

 3      * <p>

 4      * 一个句子中有多少个N-gram?

 5      * 如果 X = 给定句子K中的单词数，则句子K的 N-gram数为:

 6      * N(grams<K>) = X - (N - 1)

 7      *

 8      * @param n        连续 n个单词

 9      * @param sentence 句子级别的文本

10      * @return         存着ngram的列表

11      */

12     public static List<String> ngrams(int n, String sentence) {

13         List<String> ngrams = new ArrayList<>();

14         String[] words = sentence.split("\\s+");

15         for (int i = 0; i < words.length - n + 1; i++)

16             ngrams.add(concat(words, i, i + n));

17         return ngrams;

18     }

　　进行单词拼接，这里使用 StringBuilder（线程不安全，效率相对StringBuffer高点）对拆分好的单词进行拼接并返回拼接好的字符串。

 1     /**

 2      * 拼接单词

 3      *

 4      * @param words 单词

 5      * @param start 开始位置

 6      * @param end   结束位置

 7      * @return      拼接好的字符串

 8      */

 9     public static String concat(String[] words, int start, int end) {

10         StringBuilder sb = new StringBuilder();

11         for (int i = start; i < end; i++)

12             sb.append(i > start ? " " : "").append(words[i]);

13         return sb.toString();

14     }

　　对 n-gram 的出现次数进行统计，使用 HashMap<String, Integer> 来存储 n-gram 的出现次数，并且按照 value 的逆序排序 Map，次数较多的在前面先打印。这里使用 Java 8 Stream API 按照 value 降序顺序进行 Map 排序。

　　在 Java 8 中，Map.Entry类具有静态方法 comparingByValue() 来帮助按 value 排序，此方法返回以自然顺序 Comparator 比较 Map.Entry值的。还有，你可以传递自定义Comparator 以用于排序。

　　下面是根据 value 进行排序的方法：

 1     /**

 2      * 按 value对 HashMap进行逆序排序

 3      * <p>

 4      * 使用 Java 8 Stream API按照降序对Value进行Map排序

 5      * 逻辑的中心是按自然顺序 Map.Entry.comparingByValue()比较 Map.Entry值的方法。

 6      *

 7      * @param unSortedMap 未排序的HashMap

 8      * @return 按照value降序排序的HashMap

 9      */

10     public static HashMap<String, Integer> sortByValue(HashMap<String, Integer> unSortedMap) {

11         // System.out.println("Unsorted Map : " + unSortedMap);

12

13         // LinkedHashMap保留插入元素的顺序

14         LinkedHashMap<String, Integer> reverseSortedMap = new LinkedHashMap<>();

15

16         // 使用 Comparator.reverseOrder() 进行反向排序

17         unSortedMap.entrySet()

18                 .stream()

19                 .sorted(Map.Entry.comparingByValue(Comparator.reverseOrder()))

20                 .forEachOrdered(x -> reverseSortedMap.put(x.getKey(), x.getValue()));

21

22         // System.out.println("Reverse Sorted Map   : " + reverseSortedMap);

23

24         return reverseSortedMap;

25     }

　　主函数测试代码：

 1 public static void main(String[] args) {

 2         HashMap<String, Integer> count = new HashMap<>();

 3         String text = "I can go to the supermarket to buy spicy bars or go to the store to buy spicy bars.";

 4

 5         // 生成n为1~3的N元语法

 6 //        for (int n = 1; n <= 3; n++) {

 7 //            for (String ngram : ngrams(n, text)) {

 8 //                System.out.println(ngram);

 9 //            }

10 //            System.out.println();

11 //        }

12

13         for (String ngram : ngrams(3, text)) {

14             // counting ngram by using HashMap

15             if (!count.containsKey(ngram)) {

16                 count.put(ngram, 1);

17             } else if (count.containsKey(ngram)) {

18                 count.replace(ngram, count.get(ngram) + 1);

19             }

20             System.out.println(ngram);

21         }

22

23         // 按出现次由多到少的顺序打印ngram

24         System.out.println("\nCounting Result: ");

25         for (Map.Entry<String, Integer> entry : sortByValue(count).entrySet()) {

26             System.out.println(entry.getKey() + ": " + entry.getValue());

27         }

28

29     }

算法：N-gram语法的更多相关文章

acm算法模板（2）
数学问题: 1.精度计算——大数阶乘 2.精度计算——乘法(大数乘小数) 3.精度计算——乘法(大数乘大数) 4.精度计算——加法 5.精度计算——减法 6.任意进制转换 7.最大公约数.最小公倍数 ...
Lua学习系列（二）
资源整理: 风云老师博客: http://blog.codingnow.com/eo/luaoeeeaeau/ 知乎: https://www.zhihu.com/question/20736660 ...
STL 小白学习（1）初步认识
#include <iostream> using namespace std; #include <vector> //动态数组 #include <algorithm ...
学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
J2EE开发实战基础系列之开卷有益
2014.10.24[致歉]{抱歉,从7.4号接到朋友的请求,一直忙到现在,最近又有新的CASE要忙,很抱歉教程要延误,开课时间请大家关注Q群} 时隔七年再次接触培训有关的事情,是兴奋,更多的是恐惧, ...
boost开发指南
C++确实很复杂,神一样的0x不知道能否使C++变得纯粹和干爽? boost很复杂,感觉某些地方有过度设计和太过于就事论事的嫌疑,对实际开发工作的考虑太过于理想化.学习boost本身就是一个复杂度,有 ...
2019年10月13日 spss习题 wangqingchao
1.spss发行版本的说法,正确的是:B a.两年发行一个新版本 b.一年发行一个新版本 c.没有任何规律 d.三年发行一个新版本 2.哪些是spss统计分析软件的基本窗口:A a.结果查看 ...
SPSS数据分析基础考题
选择题 1. SPSS发行版本的说法,正确的是: B A. 两年发行一个新版本 B.一年发行一个新版本 C.没有任何规律 D.三年发行三个新版本 2.哪些是SPSS统计分析软件的基本窗口: A A.结 ...
关于一些JS的运算符
首先呢,什么是JavaScript:JavaScript是一种脚本语言,也是一种解释型语言,更是一种由数据值决定变量类型的弱类型语言 JavaScript主要由三部分组成 ECMAScript 这个 ...

随机推荐

剑指offer计划19（搜索与回溯算法中等）---java
1.1.题目1 剑指 Offer 64. 求1+2+-+n 1.2.解法这题看评论区真的绝了,都是人才,各个说话都好听,我看到个还有用异常来结束的就离谱. 这题用了&&当左边为fal ...
如何在word中美观地插入编程代码
零.缘起在整理Java笔记时,想把代码直接贴到word文档中,原来一直截图很麻烦,所以找到以下方法. 思想:问题比答案更重要!你能想到问题,才知道去百度搜索. 一.打开网站 http://www.p ...
Spotlight监控工具的使用
Spotlight下载地址:http://spotlight-on-unix.software.informer.com/download/#downloading Spotlight是Quest公司 ...
idea使用gitee的小坑
1. 账号配置账号配置登陆时提示 *** is not a valid login name: Email support only. 翻译:只能支持邮箱登录解决方法:在gitee网站上查看自己配 ...
Gaussion
# Kernel density estimation import numpy as np import matplotlib.pyplot as plt from scipy.stats impo ...
Java8通过Function获取字段名（获取实体类的字段名称）
看似很鸡肋其实在某些特殊场景还是比较有用的.比如你将实体类转Map或者拿到一个Map结果的时候,你是怎么获取某个map的key和value.方法一:声明 String key1="name& ...
AtCoder Beginner Contest 221 A~E题解
目录 A - Seismic magnitude scales B - typo C - Select Mul D - Online games E - LEQ 发挥比较好的一场,就来搓篇题解. F ...
设计模式如何提升 vivo 营销自动化业务扩展性 | 引擎篇01
在<vivo 营销自动化技术解密 |开篇>中,我们从整体上介绍了vivo营销自动化平台的业务架构.核心业务模块功能.系统架构和几大核心技术设计. 本次带来的是系列文章的第2篇,本文详细解析 ...
Bayou复制分布式存储系统
本文主要参考文献[1]完成. 第1章导读 Bayou是一个复制的.弱一致性的存储系统,用于移动计算环境.为了最大化可用性,Bayou为用户提供了可以任意读写访问的副本.Bayou的设计侧重于为应用程序 ...
CEF使用过程问题合集
CEF使用过程问题合集 1.Couldn't mmap icu data file 解决方案:检查程序执行目录下是否有icudtl.dat文件,如果没有请从cef的Resources文件夹中复制一份. ...

算法：N-gram语法

一、N-gram介绍

二、用 Java 生成 n-gram

算法：N-gram语法的更多相关文章

随机推荐

热门专题