A Language Modeling Approach to Predicting Reading Difficulty-paer

Volume:Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL 2004
Authors:Kevyn Collins-Thompson | James P Callan 、
Year:2004
Venues:NAACL | HLT

数据不公开：
550英文document，12个等级，448715个token，17928个type，来自不同主题

1 introduction
公式的方法~线性回归模型
我们的统计模型~
1）捕捉每个单词的更细节的特征~我们在更短的文章甚至小于10个单词时，准确率也很高
2）统计的方法可以获得概率分布，而不仅仅是一个预测

2 Description of Web Corpus
token定义为任何一个word的出现
type定义为一个word字符串，无论出现多少次也只算一次
数据：550英文document，12个等级，448715个token，17928个type，来自不同主题
我们的假设是：即使文本内容的主题不一样，单词的使用模式和文本的难度是有明显关系的

3 Related Work
之前的可读性评价依赖于两个主要因素：
1）the familiarity of semantic units(words or phrases)语义单元的熟悉度，如word或短语
2）the complexity of syntax. 句法的复杂
最为常用的是‘vocabulary-based measures’：
使用一个单词列表来估计语法难度，而不是number of syllables in a word，例如以下都是用单词列别的一些类型来估计语法难度
the Lexile measure (Stenner et al., 1988)
the Revised Dale-Chall formula (Chall and Dale,1995)
the Fry Short Passage measure (Fry, 1990).
--Lexile (version 1.0) uses the Carroll- Davies-Richman corpus of 86,741 types (Carroll et al., 1971);
--Dale-Chall uses the Dale 3000 word list;
Fry's Short Passage Measure uses Dale & O'Rourke's
--‘The Living Word Vocabulary’ of 43,000 types (Dale
and O'Rourke, 1981)

和Si and Callan(2001)这篇最早的也是唯一的使用语言模型的方法相比：
2001：只使用了science一个主题，分为3个难度，贝叶斯，没有实现特征选择方法的分析，所以并不知道它们的分类是是否将话题预测和难度预测混为一谈
我们：不限主题，12个难度等级，训练集更大，也使用贝叶斯，但是每个类别并不是独立的，我们使用了混合等级模型，大大提高了准确率。也没有把句子长度作业一个句法成分。测试了特征提取以及模型的泛化能力

4 The Smoothed Unigram Model

多项式和ngram的理解~~~~嘻嘻~~

4 The Smoothed Unigram Model
我们根据12个等级训练了12个语言模型，模型是基于unigrams，假设给定难度等级的情况下一个token的概率适合周围的token无关的。一个unigram语言模型是由types列表和它们各自的概率所定义的。即使这个一个weak model，它也能够比更复杂的模型用更少的数据训练，最后得到好的准确率。
4.1 Prediction with Multinomial Naïve Bayes

5 Implementation
5.1 smoothing
在测试集中会不包含训练集里的一些类型或者是很少出现，这就需要在训练的模型中采用smoothing。因此，我们调整了概率分布，将观察到的类型的概率转移一部分到没出现或出现很少的类型中。
首先对每个等级的模型分别做smoothing，使用了Simple Good-Turing smoothing；接下来，唉等级语言模型之间使用的smoothing。这不是标准的文本分类方法，标准的文本分类方法是要把每个类别独立对待的。然而对于文本难度而言，我们假设nearbygrade models是高度相关的，因此即使在一个grade的训练数据当中不包含某个类型，我们也可以通过interpolating
estimates from nearby grade models来估计出它的概率。例如，如果type w旨在至少一个grade语言模型中出现过，我们可以在所有grade models中用带有高斯核的回归来做，得到一个平滑值P(w|G)。如果w没有在任何模型中出现过，就是用传统的semantic变量，用一个type length的函数来估计。

5.2 Feature Selection
第一步是去除停用词，也就是频率最高的types。但是因为在难度较低的文本里，停用词占了大多数，所以我们不去除停用词。
第二步是移除低频词，也就是每个模型中出现次数少于2-5次的词。但是因为我们做平滑的时候是在模型之间做的，所以我们选择了在整个语料中出现次数少于3次的词。
不想普通的文本分类场景，我们也希望避免highly grade-specific的类型。例如，在grade3 model中出现频率非常高的一个type却从来没有在其他model中出现过，就更可能是site-specific noise而不是genuine vocabulary item。因此我们去除了grade低于3的model里的任何出现过的types，无论出现的频率有多么高。我们基于剩下的types的预测特定grade的能力来对剩下的types进行打分。我们使用了lag-odds ratio的形式，它对多项式贝叶斯分类器有很好的性能。

5.3 Implementation Specifics
为了降低prediction variance，对模型做了两个改变
1)没有选择可能性最大的grde语言模型，而是计算了top N结果的加权平均，N=2，权重是似然概率的相对差异
2）考虑到更长的文本中的vocabulary variation，我们把document分成了100token组成的passages。然后对每个passage做了一个grade预测。之前有人的工作表明，一个文本75%的理解率是一个理想的目标，所以我们选择占到75%分布的对应的geade level来获得最后的预测，必要的时候要用到插值。

6 evaluation
评估包括model的四个方面
1)衡量在web语料上训练的模型在别的以前没有出现过的语料上的泛化能力
2）passage长度对accuracy的影响
3）评估额外的训练数据对模型accuracy的影响
4)model在别的语言中的适用能力，实验中用的法语
6.1 Overall Accuracy and Generalization Ability
对比的accuracy:
我们的mdoel
UNK：text中unknown的比例
types：per 100-token passage里的type即unique单词的个数
MLF：passage和大语料的相对log平均概率
FK：FK公式

我们的分类器性能超过了上述semantic difficulty，但是没有捕捉到syntactic information

6.2 Effect of Passage Length on Accuracy
结果：我们的model用的ngram，对passage长度不那么敏感，更能够捕捉word级别的难度，例如即使两个词有一样多的音节且都在~语料中出现同样的次数，模型也能够根据每个单词的grade usage来区分难度

6.3 Effect of Training Set Size on Accuracy

6.4 Application to French Web Pages
通过figure4可以看出，在level低时预测的难度偏高，可能是由于取top2的平均导致bias。

7 discussion
1）smoothing大大降低了对每个grade model的训练数据的要求
2)我们对grade level的相对概率而不是绝对概率感兴趣，这样更为合理，因为绝对概率对不同主题的训练数据model拟合的太近了
3)have normalized incoming types to accommodate the morphology of a language, the same core classifier approach may still be applicable, at least for some family of languages.

A Language Modeling Approach to Predicting Reading Difficulty-paer的更多相关文章

斯坦福大学自然语言处理第四课“语言模型（Language Modeling）”
http://52opencourse.com/111/斯坦福大学自然语言处理第四课-语言模型(language-modeling) 一.课程介绍斯坦福大学于2012年3月在Coursera启动了在 ...
Recurrent Neural Network Language Modeling Toolkit代码学习
Recurrent Neural Network Language Modeling Toolkit 工具使用点击打开链接本博客地址:http://blog.csdn.net/wangxingin ...
RNN and Language modeling in TensorFlow
RNNs and Language modeling in TensorFlow From feed-forward to Recurrent Neural Networks (RNNs) In th ...
课程五(Sequence Models)，第一周（Recurrent Neural Networks） —— 2.Programming assignments：Dinosaur Island - Character-Level Language Modeling
Character level language model - Dinosaurus land Welcome to Dinosaurus Island! 65 million years ago, ...
Language Modeling with Gated Convolutional Networks
语言模型所谓的语言模型,即是指在得知前面的若干个单词的时候,下一个位置上出现的某个单词的概率. 最朴素的方法是N-gram语言模型,即当前位置只和前面N个位置的单词相关.如此,问题便是,N小了,语言 ...
【NLP】Conditional Language Modeling with Attention
Review: Conditional LMs Note that, in the Encoder part, we reverse the input to the ‘RNN’ and it per ...
NLP | 自然语言处理 - 语言模型（Language Modeling）
转:http://blog.csdn.net/lanxu_yy/article/details/29918015 为什么需要语言模型? 想象“语音识别”这样的场景,机器通过一定的算法将语音转换为文字, ...
语言模型（Language Modeling）与统计语言模型
1. n-grams 统计语言模型研究的是一个单词序列出现的概率分布(probability distribution).例如对于英语,全体英文单词构成整个状态空间(state space). 边缘概 ...
Language Modeling with Gated Convolutional Networks(句子建模之门控CNN）--模型简介篇
版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/liuchonge/article/deta ...

随机推荐

剑指offer（56）删除链表中重复的节点
一直忘记更新了,把剑指offer更新完吧.... 题目描述在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针. 例如,链表1->2->3-&g ...
docker从容器里面拷文件到宿主机或从宿主机拷文件到docker容器里面
1.从容器里面拷文件到宿主机? 答:在宿主机里面执行以下命令 docker cp 容器名:要拷贝的文件在容器里面的路径要拷贝到宿主机的相应路径示例: 假设容器名为testtomcat, ...
antd Select进阶功能动态更新、函数防抖
一.动态更新Options Antd Select自带的搜索功能很多时候需要结合后端的接口,输入一个关键字的时候会自动更新选择器的选项. 下面列一些注意点基础实现选择器选项必须和每次更新的数据挂钩 ...
git pull代码冲突。怪异问题，了解一下
当远程仓库代码与本地代码产生冲突,无法 pull,且决定放弃本地代码的时候. 或者, 碰见我这种不知道什么问题的情况, pull 成功了,但是远程仓库代码和本地代码竟然也不一样. 天呐,网管常规操作, ...
postman(一)：主界面模块解析
在做接口测试时经常会用到postman,但是一直没有总结过,太过零散,这次找了一些好的资料,结合自己平时所用到的功能,总结一波打开postman,主界面如下左侧菜单 1.History标签里面存 ...
Introducing the Microservices Reference Architecture from NGINX
Introducing the Microservices Reference Architecture from NGINX https://www.nginx.com/blog/introduci ...
django1
* <pre>━━━━━━神兽出没━━━━━━ * ┏┓ ┏┓ * ┏┛┻━━━┛┻┓ * ┃ 王 ┃ * ┃ ┃ * ┃ ┳┛ ┗┳ ┃ * ┃ ┃ * ┃ ┻ ┃ * ┃ ┃ * ...
ES6学习笔记（二）—— 通过ES6 Module看import和require区别
前言说到import和require,大家平时开发中一定不少见,尤其是需要前端工程化的项目现在都已经离不开node了,在node环境下这两者都是大量存在的,大体上来说他们都是为了实现JS代码的模块化 ...
微信小程序silk格式转码成mp3格式
最近小程序项目需要录制语音并上传到服务器,经过查资料了解目前微信小程序录音的文件后缀名是silk,因此需要转换. 经过查资料了解,参考一下的地址 https://github.com/kn007/s ...
GDT全局描述符表
GDT全局描述符表什么是GDT全局描述符表 GDT全称为Global Descriptor Table,全局描述符表. 保护模式的寻址方式不在使用寄存器分段的方式直接寻址方式了.而采用的是使用GDT ...

A Language Modeling Approach to Predicting Reading Difficulty-paer

A Language Modeling Approach to Predicting Reading Difficulty-paer的更多相关文章

随机推荐

热门专题