文本分类学习（六） AdaBoost和SVM

直接从特征提取，跳到了BoostSVM，是因为自己一直在写程序，分析垃圾文本，和思考文本分类用于识别垃圾文本的短处。自己学习文本分类就是为了识别垃圾文本。

中间的博客待自己研究透彻后再补上吧。

因为获取垃圾文本的时候，发现垃圾文本不是简单的垃圾文本，它们具有多个特性：

1. 种类繁多，难有共同的特征。涵盖各行各业的广告，或者政治敏感内容，或者色情信息。不像对文本分类那样，属于一类的文本，他们的内容都属于那个领域之内，特征提取就很方便

2. 具有一定的伪装性，表面上看80%的内容都属于正常，只有20%再介绍广告的内容

3. 形式多样化，有大量火星文的垃圾文本，有大量链接的垃圾文本，这些都无法分词。

之所考虑到AdaBoost ,一是因为确实有人研究过AdaBoost和SVM结合，将SVM训练出来的弱分类器集合成一个强分类器。

二是因为，我自己我感觉SVM对于以上描述的垃圾文本的分类效果会很差。SVM原本训练出来的就是一个强分类器，如果调节参数始终正确率在50%左右，那么就是一个弱分类器了，通过AdaBoost是否可以解决这个问题呢？一切都有待实际操作去验证。

AdaBoost 算法的基本思想：

一开始给定一个训练集N，给训练集标上权值W，初始阶段所有训练样本的W = 1/N 。

然后通过机器学习进行学习得到一分类器（弱分类器），发现训练集有些样本通过这个弱分类器会分错，我们把这些分错的样本权值增加，并且计算这个分类器的权值

第三步，改变权值过后的训练集，我们选择那些权值大的训练样本（上一个分类器分错的样本）挑选出来继续训练，得到第二个分类器，再重复第二步的步骤

迭代T次之后，得到T个分类器，和他们的权值，这些个分类器组合起来就是一个强分类器。

AdaBoost和SVM结合起来：

文本分类学习（六） AdaBoost和SVM的更多相关文章

文本分类学习（八）SVM 入门之线性分类器
SVM 和线性分类器是分不开的.因为SVM的核心:高维空间中,在线性可分(如果线性不可分那么就使用核函数转换为更高维从而变的线性可分)的数据集中寻找一个最优的超平面将数据集分隔开来. 所以要理解SVM ...
文本分类学习（九）SVM入门之拉格朗日和KKT条件
上一篇说到SVM需要求出一个最小的||w|| 以得到最大的几何间隔. 求一个最小的||w|| 我们通常使用来代替||w||,我们去求解 ||w||2 的最小值.然后在这里我们还忽略了一个条件,那就是 ...
文本分类学习（十）构造机器学习Libsvm 的C# wrapper（调用c/c++动态链接库）
前言: 对于SVM的了解,看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解,比如线性分类器,和求凸二次规划中用到的高等数学知识.然而SVM最核心的地方应该在于核函数和求关于α函数的极值的方法: ...
文本分类学习（七）支持向量机SVM 的前奏结构风险最小化和VC维度理论
前言: 经历过文本的特征提取,使用LibSvm工具包进行了测试,Svm算法的效果还是很好的.于是开始逐一的去了解SVM的原理. SVM 是在建立在结构风险最小化和VC维理论的基础上.所以这篇只介绍关于 ...
文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）
前言: 上一篇比较详细的介绍了卡方检验和卡方分布.这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行.然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样 ...
文本分类学习（三）特征权重（TF/IDF）和特征提取
上一篇中,主要说的就是词袋模型.回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示.首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的 ...
文本分类（六）：使用fastText对文本进行分类--小插曲
http://blog.csdn.net/lxg0807/article/details/52960072 环境说明:python2.7.linux 自己打自己脸,目前官方的包只能在linux,mac ...
文本分类：Keras+RNN vs传统机器学习
摘要:本文通过Keras实现了一个RNN文本分类学习的案例,并详细介绍了循环神经网络原理知识及与机器学习对比. 本文分享自华为云社区<基于Keras+RNN的文本分类vs基于传统机器学习的文本分 ...
NLTK学习笔记(六):利用机器学习进行文本分类
目录一.监督式分类:建立在训练语料基础上的分类特征提取器和朴素贝叶斯分类器过拟合:当特征过多错误分析二.实例:文本分类和词性标注文本分类词性标注:"决策树"分类器三 ...

随机推荐

Leetcode_14_Longest Common Prefix
本文是在学习中的总结,欢迎转载但请注明出处:http://blog.csdn.net/pistolove/article/details/40555783 Longest Common Prefix ...
视音频编解码学习工程：TS封装格式分析器
=====================================================视音频编解码学习工程系列文章列表: 视音频编解码学习工程:H.264分析器视音频编解码学习工 ...
C++ Primer 有感（命名的强制类型转换）
C++四种强制类型转换的方法以及其应用场合,之前有看过这个知识点,但是,面试的时候怎么想也就没有写的很全面,于是,这里整理一下: C++中的四种强制类型转换除了具有C语言强制类型转换的功能外,还可提供 ...
std::cout和printf
禁止std::cout和printf混用,在多线程环境下可能导致coredump. 说明:printf和std::cout分别为标准c语言与c++中的函数,两者的缓冲区机制不同(printf无缓冲区, ...
内存分配的原理__进程分配内存有两种方式，分别由两个系统调用完成：brk和mmap（不考虑共享内存）
如何查看进程发生缺页中断的次数? 用ps -o majflt,minflt -C program命令查看. majflt代表major fault,中文名叫大错误,minflt代表minor faul ...
Chipmunk碰撞形状:cpShape
目前有3种碰撞类型: 圆(Circles):最快并且最简单的碰撞形状线段(Line segment):主要用于静态形状.可以表示斜线(Can be beveled in order to give ...
viewpager循环滚动和自动轮播的问题
ViewPager是一个常用的android组件,不过通常我们使用ViewPager的时候不能实现左右无限循环滑动,在滑到边界的时候会看到一个不能翻页的动画,可能影响用户体验.此外,某些区域性的Vie ...
shell的date命令：使用方法，以及小时、分钟的计算
shell命令格式严格,不像python那样命令行中可以添加空格.如等号两边无空格.有多余空格错误,日期date命令就是最明显的例子. 命令格式: date [-u] [-d datestr] [-s ...
Esper剖析
Esper剖析最近在看论文,发现文中有些语言自己未曾见过,经过一番搜索,才发觉是自己接触到了新知识. 官网: )esper的核心包包含了EPL语法解析引擎,事件监听机制,事件处理等核心模块. (2) ...
【一天一道LeetCode】#21. Merge Two Sorted Lists
一天一道LeetCode系列 (一)题目 Merge two sorted linked lists and return it as a new list. The new list should ...

文本分类学习（六） AdaBoost和SVM

文本分类学习（六） AdaBoost和SVM的更多相关文章

随机推荐

热门专题