Authors:
Sarah E. Schwarm University of Washington, Seattle, WA
Mari Ostendorf University of Washington, Seattle, WA
Published in: ACL
time:June 25 - 30, 2005
Association for Computational Linguistics Stroudsburg, PA, USA ©2005

数据不公开

2 reading level assessment

最早:公式,syntactic特征(如句长)
之后:概率语言模型(前两个论文),smoothed unigram分类器捕捉词的变化
smoothed unigram分类器的Overall Accuracy and Generalization Ability
UNK:text中unknown的比例
types:per 100-token passage里的type即unique单词的个数
MLF:passage和大语料的相对log平均概率
FK:FK公式
smoothed unigram分类器性能超过了上述semantic difficulty,但是没有捕捉到syntactic information

我们的模型,使用ngram,捕捉both semantic和syntactic信息

补充:
Syntax是语法上的,Sematic是语义上的。
在自然语言范围内举个简单的例子The dog is a man.从syntax上来说,这句话没有错,主谓宾齐全而且各个成分的性和格也没错,但是语义上来说是错的,dog 怎么能是man呢。在不同的领域,syntax 和semantic有着不同的对照,但大致关系和自然语言里是差不多的。
syntactic,也就是句法,指的是语言的结构,简单说就是名词动词形容词等等不同词性的词应该按什么顺序在某一个语言里出现,还有某一种词性的词组可以衍生出什么新 的结构(比如VP->V NP) 。
结构正确的句子不一定有意义(semantic,也就是语义,指的是语言表达的意义)。 一个著名的例子是:“Colorless green ideas sleep furiously“。这个句子句法上完全正确,形容词名词动词副词各就各位,但是一点不make sense,正常生活中人不会明白这个句子要表达什么意思。
比较简单的理解语义和句法的区别的方法是:句法是讲一个东西往哪摆的,语义是研究 摆那以后对句子的interpretation的影响的。

3 corpora
??即使一些corpora没有等级,但是可以用来作为Weekly数据的补充,让model来区分能够为更细节的分类。

4 approach
ngram model
Kneser-Ney smoothing
SRI language Modeling Toolkit
4.1 statistical 语言模型
P(w)
LM:文本t分类到c的概率/文本t分类到其他类别的概率和
可以使用语言模型LM中的分数、复杂度作为分类器SVM的特征
4.2 feature selection
IG信息增益-单个词汇的作用
unknown替换成POS
特征
1)平均句长
2)每个单词的平均音节
3)FK得分
4)6 OOV rate scores
难度最低的文本中最常见的100、200、500个词,对于每篇文章计算和这三部分的token和type比值
5)parse特征~平均parse tree height、名词短语平均数目、动词短语平均数目、SBAR平均数目~从句
6)12语言模型复杂度得分
tri、bi、unigram在四个语料上,共3*4

SVMLIGHT来训练svm

5、实验

language model classifier:Ngran

svm分类器:用的LM特征

DET curves:

DET(Detection Error Tradeoff )曲线是对二元分类系统误码率的曲线图,绘制出错误拒绝率FRR(False Reject Rate)与错误接受率(False Accept Rate)之间随着判断阈值的变化而变化的曲线图。现在DET曲线扩展到用于模式识别分类器性能的评价的一个指标之一。在上式中, 表示正样本总数, 表示正样本被拒绝即判定为负样本的数目, 表示负样本总数,表示被错误接受的样本数,也就是本身是负样本被判定为正样本的样本数目。由此可以看出,FRR与FAR均受到判定阈值的影响,并且当FAR逐渐增大的时候,也就是当错误接受率逐渐靠近1时,FRR错误拒绝率逐渐减小;当FRR逐渐增大时,FAR必然是逐渐减小的。当在不同的判定阈值时,画出FRR与FAR的关系,也就是DET曲线。

accuracy和precision的区别:

分类正确率(Accuracy),不管是哪个类别,只要预测正确,其数量都放在分子上,而分母是全部数据数量,这说明正确率是对全部数据的判断。而准确率在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。或者说,Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。

Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper的更多相关文章

  1. Support Vector Machines for classification

    Support Vector Machines for classification To whet your appetite for support vector machines, here’s ...

  2. Machine Learning - 第7周(Support Vector Machines)

    SVMs are considered by many to be the most powerful 'black box' learning algorithm, and by posing构建 ...

  3. Ng第十二课:支持向量机(Support Vector Machines)(三)

    11 SMO优化算法(Sequential minimal optimization) SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规 ...

  4. Introduction to One-class Support Vector Machines

    Traditionally, many classification problems try to solve the two or multi-class situation. The goal ...

  5. 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 12—Support Vector Machines 支持向量机

    Lecture 12 支持向量机 Support Vector Machines 12.1 优化目标 Optimization Objective 支持向量机(Support Vector Machi ...

  6. 【Supervised Learning】支持向量机SVM (to explain Support Vector Machines (SVM) like I am a 5 year old )

    Support Vector Machines 引言 内核方法是模式分析中非常有用的算法,其中最著名的一个是支持向量机SVM 工程师在于合理使用你所拥有的toolkit 相关代码 sklearn-SV ...

  7. (原创)Stanford Machine Learning (by Andrew NG) --- (week 7) Support Vector Machines

    本栏目内容来源于Andrew NG老师讲解的SVM部分,包括SVM的优化目标.最大判定边界.核函数.SVM使用方法.多分类问题等,Machine learning课程地址为:https://www.c ...

  8. Andrew Ng机器学习编程作业:Support Vector Machines

    作业: machine-learning-ex6 1. 支持向量机(Support Vector Machines) 在这节,我们将使用支持向量机来处理二维数据.通过实验将会帮助我们获得一个直观感受S ...

  9. Coursera 机器学习 第7章 Support Vector Machines 学习笔记

    7 Support Vector Machines7.1 Large Margin Classification7.1.1 Optimization Objective支持向量机(SVM)代价函数在数 ...

随机推荐

  1. win10虚拟桌面使用方法-提高工作效率

    任务栏右键 => 显示任务视图按钮 然后坐下角出现的任务视图按钮可以添加虚拟桌面 快捷键: win + ctrl + 左/右 切换桌面 win + tab 打开任务视图 win + ctrl + ...

  2. 多台linux主机间免密码登录

    即在一台主机上登录另一台主机. 有2台linux主机A.B.A输入命令ssh B的ip地址以连接B,发现需要输入B的登录密码,怎样不需要输入密码呢? 步骤1: 在主机A中,输入ssh-keygen - ...

  3. DRF中的APIView源码分析

    首先写一个简单的drf接口 from rest_framework.views import APIView from rest_framework.response import Response ...

  4. 微软官方的Windowsphone社区

    微软官方的Windowsphone社区 http://answers.microsoft.com/zh-hans/winphone/forum/wp8?tab=Threads http://answe ...

  5. 使用ByteArrayOutputStream解决IO乱码问题的踩坑记录

    经过:今天在用s3接口做ceph储存的时候,要实现一个io下载的接口.需要把InputStream转成byte[],一开始,是的写法是这样的: byte[] buf = new byte[(int) ...

  6. leecode第一百五十五题(最小栈)

    class MinStack { public: stack<int> cur_stack; stack<int> cur_min;//用来存储最小值的栈 int min_nu ...

  7. 通过RequestContextHolder直接获取HttpServletRequest对象

    问题 朋友遇到一个问题:他想在Service方法中使用HttpServletRequest的API,但是又不想把HttpServletRequest对象当作这个Service方法的参数传过来,原因是这 ...

  8. Android Vector曲折的兼容之路

    Android Vector曲折的兼容之路 两年前写书的时候,就在研究Android L提出的Vector,可研究下来发现,完全不具备兼容性,相信这也是它没有被广泛使用的一个原因,经过Google的不 ...

  9. node基础知识-常用node命令

    node中js的组成部分:ECMAScript核心+全局成员+模块系统成员 浏览器中的js组成部分:ECMAScripts核心+BOM+DOM 常用node命令 cmd中进入REPL环境:直接输入no ...

  10. Ansible 小手册系列 十四(条件判断和循环)

    条件判断 When 语句 在when 后面使用Jinja2 表达式,结果为True则执行任务. tasks: - name: "shut down Debian flavored syste ...