http://www.aclweb.org/anthology/N07-1058

Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT

数据不公开

1、introduction

L1英语学习者而言,英语水平很高的时候的语法能力其实和开始学英语的时候差不多,因为他们的语法是在使用中互动中学会的,而L2是在课本中学会的,所以L2高级学习者的语法可能不可强。所以grammer对于L2的readability的预测和评估很重要,比如动词时态、被动时态等。

2、language model readability prediction for first language texts

统计语言模型比传统公式的好处:

1)短文本和web文本上的准确率更高

2)给出概率分布而不是一个预测值

3)语言模型可以提供更多关于文本中单词相对难度的数据

我们的统计模型用的是多项式贝叶斯分布(就跟上一篇paper一样)

虽然unigram是weak model,但是会比tri、bi这种更复杂的模型要求更少的数据集

3、grammatical construction readability prediction for second language texts

3.1 features for grammer-based prediction

斯坦福parser用来产生constituent structure trees

PCFG scores可以用来过滤掉预料中有问题的文本

默认训练集是Penn Treebank来parser,因为该文本和L2学习者的阅读材料是相近的

predictor用的是Tgrep2,一个树结构的searching tool,可以找到instances of target patterns,a Tgrep2 patterns会定义dominance,sisterhood,precedence支配地位、姐妹关系、优先地位及其他parse tree中的节点信息

注:

Penn Treebank:

NLP中常用的PTB语料库
Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。

语料来源为:1989年华尔街日报
语料规模:1M words,2499篇文章

斯坦福parser:

--既是一个高度优化的概率上下文无关文法和词汇化依存分析器,也是一个词汇化上下文无关文法分析器。

--基于权威可靠的宾州树库(Penn Treebank)作为分析器的训练数据,目前已面向英文、中文、德文、阿拉伯文、意大利文、保加利亚文、葡萄牙文等语种提供句法分析功能。

Tgrep2:

Like its predecessor tgrep, which was written by Richard Pito, Tgrep2 is a search engine for finding structures in a corpus of trees. The most common application of these programs is in extracting data from the Penn Treebank corpora of parsed sentences.

第一组grammer特征集合:只选择单词级别,是为了不受句子长度的影响,包含22个grammatical 特征,例如被动、过去时、perfect完成、continuous tense进行时、关系从句等

第二组grammer特征集合:12个不需要大量句法分析的grammer特征,比如句子长度、不同动词时态、单词的pos

3.2基于grammer特征分类器算法

knn即k近邻算法模型 * 置信值 + 语言模型

4 实验

评估标准:

1)相关系数:预测值和人工值的匹配度

2)mean square error即MSE均方误差,它可以给严重的错误更多惩罚。不选择precision、recall、accuracy的原因是,错误预测比实际level相差了5个level和相差一个level,错误的严重程度是不一样的。

3)9折交叉验证

4.2 语料

噪声很多,所以对基于grammer的预测来说影响更大,例如一个图片的caption,对于unigram并没有什么影响,但是会影响dependency的分析!

5 实验结果

LM效果更好,但是线性差值两个模型后的效果更好

两个features集合也分别对比:第一个集合包含了更复杂的syntactic结构,MSE更低,相关系数更高,但是第二组效果也不差,说明在语料很大、算力受限时,即使pos、词数这些简单的grammer特征也是有效的!

6 discussion

LM在L1\L2语料上都比基于grammer的model更有效的原因是

1)LM可以捕捉到文本中所有word

2)噪声对grammer的影响很大!

3)英语是morphological impoverished(形态学,贫乏)的语言,文本分类、信息提取等很多任务甚至不需要考虑形态学相关的语法特征

7conclusion

1)基于词汇的语言模型ngram更好,线性差值结合后更更好

2)grammer对于第二语言的readability来说很重要

Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper的更多相关文章

  1. [Typescript] Improve Readability with TypeScript Numeric Separators when working with Large Numbers

    When looking at large numbers in code (such as 1800000) it’s oftentimes difficult for the human eye ...

  2. READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification-paper

    https://aclanthology.info/pdf/W/W11/W11-2308.pdf 2 background2000年以前 ----传统可读性准则局限于表面的文本特征,例如the Fle ...

  3. Readability Assessment for Text Simplification -paper

    https://pdfs.semanticscholar.org/e43a/3c3c032cf3c70875c4193f8f8818531857b2.pdf 1.introduction在Brazil ...

  4. Go 语言相关的优秀框架,库及软件列表

    If you see a package or project here that is no longer maintained or is not a good fit, please submi ...

  5. [2017 ACL] 对话系统

    Long Papers [Domain adaptation ] 1. Adversarial Adaptation of Synthetic or Stale Data ( Cited by 14 ...

  6. Awesome Go精选的Go框架,库和软件的精选清单.A curated list of awesome Go frameworks, libraries and software

    Awesome Go      financial support to Awesome Go A curated list of awesome Go frameworks, libraries a ...

  7. Java资源大全中文版(Awesome最新版)

    Awesome系列的Java资源整理.awesome-java 就是akullpp发起维护的Java资源列表,内容包括:构建工具.数据库.框架.模板.安全.代码分析.日志.第三方库.书籍.Java 站 ...

  8. 转载:10 Easy Steps to a Complete Understanding of SQL

    10 Easy Steps to a Complete Understanding of SQL 原文地址:http://tech.pro/tutorial/1555/10-easy-steps-to ...

  9. File I/O

    File I/O Introduction     We'll start our discussion of the UNIX System by describing the functions ...

随机推荐

  1. Intellij IDEA的下载安装与破解

    一,下载与安装 1.官网下载:https://www.jetbrains.com/idea/ 2.选择Windows对应版本安装 二,破解 1.下载破解补丁:http://idea.lanyus.co ...

  2. TCP 基础知识

    参考 朱小厮-一文详解TCP 博客园-"三次握手,四次挥手"你真的懂吗? 博客园-深度解密HTTP通信细节

  3. Qt自定义阴影效果和QOpenGLWidget冲突导致控件不刷新

    Qt5.6.2版本存在这样一个问题(其它版本未测试),当main函数中设置了application.setAttribute(Qt::AA_NativeWindows)(用于使得每个子界面都可以获取w ...

  4. jsp/servlet学习一之servlet初窥

    Java Servlet技术简称Servlet技术,是java开发web应用的底层技术.Servlet是一个java程序,一个servlet应用有一个或多个Servlet程序.jsp页面会被转换和编译 ...

  5. ssh登录后很慢 卡住 树莓派

    ssh登录后很慢,ls命令都响应很慢.sftp也连接不上.结果发现是路由器的问题,重启一下路由器就好了

  6. js 数组的拷贝

    在js中,数组Array是引用类型,直接将数组赋值给一个变量名,二者所指向的地址是一样的. 所以直接复制数组会产生意想不到的结构. 要想解决拷贝一个数组但是对副本的修改不影响原来的数组,有以下方式: ...

  7. html复习小结

    border-radius可以设置百分比 百分之五十是圆形 class="class1 class2" 无序列表 <ul><li></li>&l ...

  8. js Infinity 属性

    Infinity 属性用于存放表示正无穷大的数值. 说明 无法使用 for/in 循环来枚举 Infinity 属性,也不能用 delete 运算符来删除它. Infinity 不是常量,可以把它设置 ...

  9. Hibernate注意项

    Hibernate实体规则 1.持久化类提供无参数构造 2.成员变量私有,提供getset访问,提供实行 3.持久化类属性,尽量使用包装类型 4.持久化类需要提供oid与数据库中的主键列对应 5.不要 ...

  10. ES6的小知识(前半部分)

    一.let与const的使用 let:用来声明一个变量,与var类似 1.用let声明的变量,所声明的变量只在命令所在的代码块内有效 function hander(){ let a = 10; co ...