http://www.aclweb.org/anthology/N07-1058

Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT

数据不公开

1、introduction

L1英语学习者而言,英语水平很高的时候的语法能力其实和开始学英语的时候差不多,因为他们的语法是在使用中互动中学会的,而L2是在课本中学会的,所以L2高级学习者的语法可能不可强。所以grammer对于L2的readability的预测和评估很重要,比如动词时态、被动时态等。

2、language model readability prediction for first language texts

统计语言模型比传统公式的好处:

1)短文本和web文本上的准确率更高

2)给出概率分布而不是一个预测值

3)语言模型可以提供更多关于文本中单词相对难度的数据

我们的统计模型用的是多项式贝叶斯分布(就跟上一篇paper一样)

虽然unigram是weak model,但是会比tri、bi这种更复杂的模型要求更少的数据集

3、grammatical construction readability prediction for second language texts

3.1 features for grammer-based prediction

斯坦福parser用来产生constituent structure trees

PCFG scores可以用来过滤掉预料中有问题的文本

默认训练集是Penn Treebank来parser,因为该文本和L2学习者的阅读材料是相近的

predictor用的是Tgrep2,一个树结构的searching tool,可以找到instances of target patterns,a Tgrep2 patterns会定义dominance,sisterhood,precedence支配地位、姐妹关系、优先地位及其他parse tree中的节点信息

注:

Penn Treebank:

NLP中常用的PTB语料库
Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。

语料来源为:1989年华尔街日报
语料规模:1M words,2499篇文章

斯坦福parser:

--既是一个高度优化的概率上下文无关文法和词汇化依存分析器,也是一个词汇化上下文无关文法分析器。

--基于权威可靠的宾州树库(Penn Treebank)作为分析器的训练数据,目前已面向英文、中文、德文、阿拉伯文、意大利文、保加利亚文、葡萄牙文等语种提供句法分析功能。

Tgrep2:

Like its predecessor tgrep, which was written by Richard Pito, Tgrep2 is a search engine for finding structures in a corpus of trees. The most common application of these programs is in extracting data from the Penn Treebank corpora of parsed sentences.

第一组grammer特征集合:只选择单词级别,是为了不受句子长度的影响,包含22个grammatical 特征,例如被动、过去时、perfect完成、continuous tense进行时、关系从句等

第二组grammer特征集合:12个不需要大量句法分析的grammer特征,比如句子长度、不同动词时态、单词的pos

3.2基于grammer特征分类器算法

knn即k近邻算法模型 * 置信值 + 语言模型

4 实验

评估标准:

1)相关系数:预测值和人工值的匹配度

2)mean square error即MSE均方误差,它可以给严重的错误更多惩罚。不选择precision、recall、accuracy的原因是,错误预测比实际level相差了5个level和相差一个level,错误的严重程度是不一样的。

3)9折交叉验证

4.2 语料

噪声很多,所以对基于grammer的预测来说影响更大,例如一个图片的caption,对于unigram并没有什么影响,但是会影响dependency的分析!

5 实验结果

LM效果更好,但是线性差值两个模型后的效果更好

两个features集合也分别对比:第一个集合包含了更复杂的syntactic结构,MSE更低,相关系数更高,但是第二组效果也不差,说明在语料很大、算力受限时,即使pos、词数这些简单的grammer特征也是有效的!

6 discussion

LM在L1\L2语料上都比基于grammer的model更有效的原因是

1)LM可以捕捉到文本中所有word

2)噪声对grammer的影响很大!

3)英语是morphological impoverished(形态学,贫乏)的语言,文本分类、信息提取等很多任务甚至不需要考虑形态学相关的语法特征

7conclusion

1)基于词汇的语言模型ngram更好,线性差值结合后更更好

2)grammer对于第二语言的readability来说很重要

Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper的更多相关文章

  1. [Typescript] Improve Readability with TypeScript Numeric Separators when working with Large Numbers

    When looking at large numbers in code (such as 1800000) it’s oftentimes difficult for the human eye ...

  2. READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification-paper

    https://aclanthology.info/pdf/W/W11/W11-2308.pdf 2 background2000年以前 ----传统可读性准则局限于表面的文本特征,例如the Fle ...

  3. Readability Assessment for Text Simplification -paper

    https://pdfs.semanticscholar.org/e43a/3c3c032cf3c70875c4193f8f8818531857b2.pdf 1.introduction在Brazil ...

  4. Go 语言相关的优秀框架,库及软件列表

    If you see a package or project here that is no longer maintained or is not a good fit, please submi ...

  5. [2017 ACL] 对话系统

    Long Papers [Domain adaptation ] 1. Adversarial Adaptation of Synthetic or Stale Data ( Cited by 14 ...

  6. Awesome Go精选的Go框架,库和软件的精选清单.A curated list of awesome Go frameworks, libraries and software

    Awesome Go      financial support to Awesome Go A curated list of awesome Go frameworks, libraries a ...

  7. Java资源大全中文版(Awesome最新版)

    Awesome系列的Java资源整理.awesome-java 就是akullpp发起维护的Java资源列表,内容包括:构建工具.数据库.框架.模板.安全.代码分析.日志.第三方库.书籍.Java 站 ...

  8. 转载:10 Easy Steps to a Complete Understanding of SQL

    10 Easy Steps to a Complete Understanding of SQL 原文地址:http://tech.pro/tutorial/1555/10-easy-steps-to ...

  9. File I/O

    File I/O Introduction     We'll start our discussion of the UNIX System by describing the functions ...

随机推荐

  1. Unicode编码问题 如:\u529e\u7406\u9996\u6c7d\u52a0\u6cb9

    python 遇到\u529e\u7406\u9996\u6c7d\u52a0\u6cb9 解决方法: a = "\u529e\u7406\u9996\u6c7d\u52a0" b ...

  2. Swagger2使用参考

    GitHub例子: 参考博客: https://blog.csdn.net/sanyaoxu_2/article/details/80555328 http://www.cnblogs.com/Joi ...

  3. centos7安装bbr

    centos7安装bbr 安装 sudo wget --no-check-certificate https://github.com/teddysun/across/raw/master/bbr.s ...

  4. 智能合约遇到的小错误 network up to date解决办法

    https://blog.csdn.net/qindong564950620/article/details/68933678 说 network up to date .这个错误我刚开始不知道怎么解 ...

  5. [Android] QPST,解BL锁,刷Recovery,备份系统,root,刷框架.

    QPST刷到qpst的1.9出厂版本,这个版本的BootLoader是锁定的: bootloader locked.其他版本不会重新锁定,只能relocked,不能恢复最初的locked,这样就不能升 ...

  6. LOG4NET用法(个人比较喜欢的用法)

    LOG4NET用法(个人比较喜欢的用法) http://fanrsh.cnblogs.com/archive/2006/06/08/420546.html

  7. ranch 源码分析(二)

    接上ranch 源码分析(一) 上次讲到了ranch.erl的start_listener函数,下面我们详细分析下这个函数 -module(ranch). %...... 省略若干行 -spec st ...

  8. React Native 开发日常、常见问题总结及解决

    优点: 1.写 UI 快,跟写 HTML 差不多,flex 布局写起来很爽,而且跨平台: 2.调试方便,command + R 直接刷新 Simulator,不用像 Xcode 等待编译: 3.体验好 ...

  9. libdl.so 动态库加载、查找

    使用libdl.so库 动态库加载原理   动态库中函数的查找已经封装成 libdl.so,有4个函数: dlopen  : 打开一个动态库 dlsym   : 在打开的动态库里找一个函数 dlclo ...

  10. ES5和ES6那些你必须知道的事儿(一)

    ES5和ES6那些你必须知道的事儿 ES5新增的东西 一.数组方法 1.forEach     用途:遍历,循环 对于空数组不会执行回调函数 //用法 array.forEach( function( ...