这篇论文的related work非常详尽地介绍了各种readability的语料

abstract
这个paper描述了onestopengilish这个三个level的文本语料的收集和整理,阐述了再自动可读性评估和自动文本简化方面的有效性。语料包括189个texts,每个text有3个level的版本,一共由于567个text。
1 introduction
Automatic Readability Assessment (ARA)非常需要平行语料,以前都是依赖simple wiki来对模型进行测试和评估,但是缺少另外的语料来对该简化方法的繁华能力进行评估。
贡献1:
我们创建了在text和sentence级别对齐的语料,共有3个level,分别是beginner、intermediate和advanced,目标群体是ESL即英语第二学习者。这是第一个免费的可读性评估研究的语料,比之前的句子对齐的语料更大更干净。
我们的https://zenodo.org/record/1219041
贡献2:
论证了这个预料对于可读性自动分类和文本简化的有用性。

2 Related Work
之前语料的问题:
1)不公开
2)针对L1学习者
3)众包价格高,所以数据少,虽然评估效果好但是不适合建立新模型
4)文本自身不具备可比较性,平行语料不足
另外一个唯一免费的但是有版权限制的平行难度语料是NewsEla3 corpus,手动简化,但是是针对L1学习者
https://newsela.com/

3 corpus
语料来自于onestopenglish网站,这个网站的受众是100多个国家的70万使用者,上每周会发放卫报文章,然后回请老师写三个等级的改编版,分别是针对elementary、intermediate和advanced三类。
数据包括文章、文章前后的问题和其他材料数据清洗的流程:
数据清洗的流程:
用文本转换器自动转换-》作者之一手动看所有文件确保没有遗漏的
3个level的平均单词数,的确和难度成正比,但是方差也成正比,这说明文本长度并不是决定性因素。
初步分析:
特征:Flesch-Kincaid Grade Level (FKGL)、Type-token ratio (TTR), and occurrences of different phrases, as given by Stanford Parser例如NP\VP\PP
结果:这五个值都随着难度的增大而增大
Sentence Alignment:
两两句子作为一个pair,例如计算level1中的某个句子和level2中所有及句子的cos相似度,相似度太高了可能只是一个标点符号的差别,太低了也不行,最终取得是[0.7-0.95]的阈值,获得了1674个的level2-3,2166个level1-3,3154个1-2这些pair,平均来看2-3的pair的相似度和别的更高。

4 实验
论证了该语料在两项应用上的有用性:readability assessment和text simplification
4.1 readability assessment和text
对分类问题建模,特征包括:
1. Word n-grams: Uni, Bi, Trigram features
2. POS n-grams: Bi and Trigrams of POS tags from Stanford tagger (Toutanova et al., 2003)
3. Character n-grams: 2–5 character n-grams,considering word boundaries
4. Syntactic production rules: phrase structure production rules from Stanford parser (Klein and Manning, 2003)
5. Dependency relations: Dependency relation triplets of the form (relation, head, word) from Stanford dependency parser (Chen and Manning, 2014)
baseline:所有类别数都相等,即33%
LightSide text mining workbench用来提取特征,SMO分类器(线性核)得到分类结果。其中字符ngrams表现最好,依赖于更深层次语言表示的数据驱动的特征考起来要比这些简单的特征的效果差。特别是依存关系表现的比随机的baseline都差。单词ngram效果不是很好,因为很多词都是再各个级别都会出现的,character表现的推测是由于捕捉到了单词子部分简化了的文本信息例如某个前缀后缀的使用。
除了上面这些类型特征,还用一般都会在ARA中使用的特征:
1、过去所有ARA models中使用的特征和公式
2、lexical变化、tye token ratio,pos tag ratio based features
3 基于psycholinguistic数据库的特征
4 基于constituent parse trees的特征
5 discourse语篇特征包括:
Coh-Metrix测试文档中句子的重复率
从上下文连接词tagger中获取的不同的连接词的使用
CoreNLP中的coreference chains共指
Code for feature extraction is available at:
https://bitbucket.org/nishkalavallabhi/complexity-features
然后,所有的特征加起来得到的准确率只比用character ngrams多了0.01的准确率。
机之前用Weebit数据集的获得了90%的准确率,但是由于我们的数据集是支队同一个topic只是形式不同而不是类容不同,所以更难去建模。
有了这个预料后,未来可以用来做句子级别和段落级别的不同可读性评估和rank问题。
4.2 text simplification
Automatic Text Simplification (ATS),使用adv-ele这部分语料
我们的语料不适合去训练一个新模型(小),但是可以用来评估泛化能力,或者和别的语料共同组成新数据来训练新模型。我们的语料不适合去训练一个新模型(小),但是可以用来评估泛化能力,或者和别的语料共同组成新数据来训练新模型。

OneStopEnglish Corpus Release:

https://zenodo.org/record/1219041#.XBYESZwzbD5

Discourse Connectives Tagger工具:

http://www.cis.upenn.edu/~nlp/software/discourse.html

OneStopEnglish corpus: A new corpus for automatic readability assessment and text simplification-paper的更多相关文章

  1. Readability Assessment for Text Simplification -paper

    https://pdfs.semanticscholar.org/e43a/3c3c032cf3c70875c4193f8f8818531857b2.pdf 1.introduction在Brazil ...

  2. Structural Features for Predicting the Linguistic Quality of Text: Applications to Machine Translation, Automatic Summarization and Human-Authored Text -paper

    abstract句子结构是文本语言质量的关键,我们记录了以下实验结果:句法短语统计和其他结构特征对文本方面的预测能力.手工评估的句子fluency流利度用于机器翻译评估和文本摘要质量的评估是黄金准则. ...

  3. [转]NLP Tasks

    Natural Language Processing Tasks and Selected References I've been working on several natural langu ...

  4. 机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)

    函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string)  用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0- ...

  5. READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification-paper

    https://aclanthology.info/pdf/W/W11/W11-2308.pdf 2 background2000年以前 ----传统可读性准则局限于表面的文本特征,例如the Fle ...

  6. 自然语言15.1_Part of Speech Tagging 词性标注

    QQ:231469242 欢迎喜欢nltk朋友交流 https://en.wikipedia.org/wiki/Part-of-speech_tagging In corpus linguistics ...

  7. 词性标注 parts of speech tagging

    In corpus linguistics, part-of-speech tagging (POS tagging or POST), also called grammatical tagging ...

  8. ### Paper about Event Detection

    Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

  9. (转)awesome-text-summarization

    awesome-text-summarization 2018-07-19 10:45:13 A curated list of resources dedicated to text summari ...

随机推荐

  1. topcoder srm 580 div1

    problem1 link 最优选择一定是在$2n$个端点中选出两个. problem2 link 分开考虑每个区间.设所有区间的左端点的最大值为$lc$,所有区间的右端点的最小值为$rc$.对于某个 ...

  2. 对负载均衡的理解及nginx负载均衡的配置

    https://blog.csdn.net/qq_28602957/article/details/61615876

  3. Java Volatile关键字 以及long,double在多线程中的应用

    概念: volatile关键字,官方解释:volatile可以保证可见性.顺序性.一致性. 可见性:volatile修饰的对象在加载时会告知JVM,对象在CPU的缓存上对多个线程是同时可见的. 顺序性 ...

  4. rm 命令

    rm 命令 rm命令可以删除一个目录中的一个或多个文件或目录,也可以将某个目录及其下属的所有文件及其子目录均删除掉.对于链接文件,只是删除整个链接文件,而原有文件保持不变. 语法 rm (选项) (文 ...

  5. HTML基础【2】:基础标签

    H系列标签(H1 ~ H6) 作用: 用于给文本添加标题语义 格式: <h1>xxxxxx</h1> 注意点 H 标签是用来给文本添加标题语义的,而不是用来修改文本的样式的 H ...

  6. Linux——入门命令

    授课内容: 0.linux系统由来 linux各种常用命令以及对命令参数选项的熟悉: 1.目录操作命令([跳转:查看自己当下的位置-绝对路径:查看任何路径下的目录内容]pwd(Print Workin ...

  7. P2292 [HNOI2004]L语言

    传送门 思路:  毒瘤的字典树! ▲主要分有两个步骤: ① 日常的建树. ② 暴力地求解. ▲日常建树:过于基础,跳过. ▲重点在于如何暴力地求解而不被卡掉(DP?不存在的) 可以利用区间动规的思想, ...

  8. 构建oracle12c的Docker镜像

    1. 准备工作 需要下载oracle相关的东东,例如安装文件,dockerfile.这些都可以从oracle 的github 上面找到.https://github.com/oracle/docker ...

  9. android -------- OkGo (让网络请求更简单的框架)

    项目地址:https://github.com/jeasonlzy 该库是封装了okhttp的网络框架,可以与RxJava完美结合,比Retrofit更简单易用.支持大文件上传下载,上传进度回调,下载 ...

  10. ES6 新加的类型Symbol()

    Symbol()如果一个对象中的键已经存在,但目前我们目前不知道这个键是存在的,然后我们去给这个键赋值,Symbol()就不会改变这个键对应的值