Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper
http://www.aclweb.org/anthology/N07-1058
Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT
数据不公开
1、introduction
L1英语学习者而言,英语水平很高的时候的语法能力其实和开始学英语的时候差不多,因为他们的语法是在使用中互动中学会的,而L2是在课本中学会的,所以L2高级学习者的语法可能不可强。所以grammer对于L2的readability的预测和评估很重要,比如动词时态、被动时态等。
2、language model readability prediction for first language texts
统计语言模型比传统公式的好处:
1)短文本和web文本上的准确率更高
2)给出概率分布而不是一个预测值
3)语言模型可以提供更多关于文本中单词相对难度的数据
我们的统计模型用的是多项式贝叶斯分布(就跟上一篇paper一样)
虽然unigram是weak model,但是会比tri、bi这种更复杂的模型要求更少的数据集
3、grammatical construction readability prediction for second language texts
3.1 features for grammer-based prediction
斯坦福parser用来产生constituent structure trees
PCFG scores可以用来过滤掉预料中有问题的文本
默认训练集是Penn Treebank来parser,因为该文本和L2学习者的阅读材料是相近的
predictor用的是Tgrep2,一个树结构的searching tool,可以找到instances of target patterns,a Tgrep2 patterns会定义dominance,sisterhood,precedence支配地位、姐妹关系、优先地位及其他parse tree中的节点信息
注:
Penn Treebank:
NLP中常用的PTB语料库
Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。
语料来源为:1989年华尔街日报
语料规模:1M words,2499篇文章
斯坦福parser:
--既是一个高度优化的概率上下文无关文法和词汇化依存分析器,也是一个词汇化上下文无关文法分析器。
--基于权威可靠的宾州树库(Penn Treebank)作为分析器的训练数据,目前已面向英文、中文、德文、阿拉伯文、意大利文、保加利亚文、葡萄牙文等语种提供句法分析功能。
Tgrep2:
Like its predecessor tgrep, which was written by Richard Pito, Tgrep2 is a search engine for finding structures in a corpus of trees. The most common application of these programs is in extracting data from the Penn Treebank corpora of parsed sentences.
第一组grammer特征集合:只选择单词级别,是为了不受句子长度的影响,包含22个grammatical 特征,例如被动、过去时、perfect完成、continuous tense进行时、关系从句等
第二组grammer特征集合:12个不需要大量句法分析的grammer特征,比如句子长度、不同动词时态、单词的pos
3.2基于grammer特征分类器算法
knn即k近邻算法模型 * 置信值 + 语言模型
4 实验
评估标准:
1)相关系数:预测值和人工值的匹配度
2)mean square error即MSE均方误差,它可以给严重的错误更多惩罚。不选择precision、recall、accuracy的原因是,错误预测比实际level相差了5个level和相差一个level,错误的严重程度是不一样的。
3)9折交叉验证
4.2 语料
噪声很多,所以对基于grammer的预测来说影响更大,例如一个图片的caption,对于unigram并没有什么影响,但是会影响dependency的分析!
5 实验结果
LM效果更好,但是线性差值两个模型后的效果更好
两个features集合也分别对比:第一个集合包含了更复杂的syntactic结构,MSE更低,相关系数更高,但是第二组效果也不差,说明在语料很大、算力受限时,即使pos、词数这些简单的grammer特征也是有效的!
6 discussion
LM在L1\L2语料上都比基于grammer的model更有效的原因是
1)LM可以捕捉到文本中所有word
2)噪声对grammer的影响很大!
3)英语是morphological impoverished(形态学,贫乏)的语言,文本分类、信息提取等很多任务甚至不需要考虑形态学相关的语法特征
7conclusion
1)基于词汇的语言模型ngram更好,线性差值结合后更更好
2)grammer对于第二语言的readability来说很重要
Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper的更多相关文章
- [Typescript] Improve Readability with TypeScript Numeric Separators when working with Large Numbers
When looking at large numbers in code (such as 1800000) it’s oftentimes difficult for the human eye ...
- READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification-paper
https://aclanthology.info/pdf/W/W11/W11-2308.pdf 2 background2000年以前 ----传统可读性准则局限于表面的文本特征,例如the Fle ...
- Readability Assessment for Text Simplification -paper
https://pdfs.semanticscholar.org/e43a/3c3c032cf3c70875c4193f8f8818531857b2.pdf 1.introduction在Brazil ...
- Go 语言相关的优秀框架,库及软件列表
If you see a package or project here that is no longer maintained or is not a good fit, please submi ...
- [2017 ACL] 对话系统
Long Papers [Domain adaptation ] 1. Adversarial Adaptation of Synthetic or Stale Data ( Cited by 14 ...
- Awesome Go精选的Go框架,库和软件的精选清单.A curated list of awesome Go frameworks, libraries and software
Awesome Go financial support to Awesome Go A curated list of awesome Go frameworks, libraries a ...
- Java资源大全中文版(Awesome最新版)
Awesome系列的Java资源整理.awesome-java 就是akullpp发起维护的Java资源列表,内容包括:构建工具.数据库.框架.模板.安全.代码分析.日志.第三方库.书籍.Java 站 ...
- 转载:10 Easy Steps to a Complete Understanding of SQL
10 Easy Steps to a Complete Understanding of SQL 原文地址:http://tech.pro/tutorial/1555/10-easy-steps-to ...
- File I/O
File I/O Introduction We'll start our discussion of the UNIX System by describing the functions ...
随机推荐
- Unicode编码问题 如:\u529e\u7406\u9996\u6c7d\u52a0\u6cb9
python 遇到\u529e\u7406\u9996\u6c7d\u52a0\u6cb9 解决方法: a = "\u529e\u7406\u9996\u6c7d\u52a0" b ...
- Swagger2使用参考
GitHub例子: 参考博客: https://blog.csdn.net/sanyaoxu_2/article/details/80555328 http://www.cnblogs.com/Joi ...
- centos7安装bbr
centos7安装bbr 安装 sudo wget --no-check-certificate https://github.com/teddysun/across/raw/master/bbr.s ...
- 智能合约遇到的小错误 network up to date解决办法
https://blog.csdn.net/qindong564950620/article/details/68933678 说 network up to date .这个错误我刚开始不知道怎么解 ...
- [Android] QPST,解BL锁,刷Recovery,备份系统,root,刷框架.
QPST刷到qpst的1.9出厂版本,这个版本的BootLoader是锁定的: bootloader locked.其他版本不会重新锁定,只能relocked,不能恢复最初的locked,这样就不能升 ...
- LOG4NET用法(个人比较喜欢的用法)
LOG4NET用法(个人比较喜欢的用法) http://fanrsh.cnblogs.com/archive/2006/06/08/420546.html
- ranch 源码分析(二)
接上ranch 源码分析(一) 上次讲到了ranch.erl的start_listener函数,下面我们详细分析下这个函数 -module(ranch). %...... 省略若干行 -spec st ...
- React Native 开发日常、常见问题总结及解决
优点: 1.写 UI 快,跟写 HTML 差不多,flex 布局写起来很爽,而且跨平台: 2.调试方便,command + R 直接刷新 Simulator,不用像 Xcode 等待编译: 3.体验好 ...
- libdl.so 动态库加载、查找
使用libdl.so库 动态库加载原理 动态库中函数的查找已经封装成 libdl.so,有4个函数: dlopen : 打开一个动态库 dlsym : 在打开的动态库里找一个函数 dlclo ...
- ES5和ES6那些你必须知道的事儿(一)
ES5和ES6那些你必须知道的事儿 ES5新增的东西 一.数组方法 1.forEach 用途:遍历,循环 对于空数组不会执行回调函数 //用法 array.forEach( function( ...