1.GCN的概念        传统CNN卷积可以处理图片等欧式结构的数据,却很难处理社交网络.信息网络等非欧式结构的数据.一般图片是由c个通道h行w列的矩阵组成的,结构非常规整.而社交网络.信息网络等是图论中的图(定点和边建立起的拓扑图).        传统CNN卷积面对输入数据维度必须是确定的,进而CNN卷积处理后得到的输出数据的维度也是确定的.欧式结构数据中的每个点周边结构都一样,如一个像素点周围一定有8个像素点,即每个节点的输入维度和输出维度都是固定的.而非欧式结构数据则不一定,如社交…
原创作者 | 苏菲 论文来源: https://aclanthology.org/2020.emnlp-main.668/ 论文题目: Text Graph Transformer for Document Classification (文本图Tranformer在文本分类中的应用) 论文作者: Haopeng Zhang Jiawei Zhang 01 引言 文本分类是自然语言处理中的基本任务之一,而图神经网络(GNN)技术可以描述词语.文本以及语料库,最近研究者将GNN应用到抓取语料库中单…
1,概述 目前有效的文本分类方法都是建立在具有大量的标签数据下的有监督学习,例如常见的textcnn,textrnn等,但是在很多场景下的文本分类是无法提供这么多训练数据的,比如对话场景下的意图识别,这个时候如果我们还以传统的深度学习模型+softmax的形式来分类的话,是极容易陷入过拟合的状态.因此就有很多人研究在少量样本下如何建模.one-shot learning,few-shot learning,甚至是zero-shot learning都是旨在解决这类的问题. 本篇博客将会介绍下几种…
摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文文本分类万字总结(CNN.TextCNN.BiLSTM.注意力)>,作者: eastmount. 一.文本分类概述 文本分类旨在对文本集按照一定的分类体系或标准进行自动分类标记,属于一种基于分类体系的自动分类.文本分类最早可以追溯到上世纪50年代,那时主要通过专家定义规则来进行文本分类:80年代出现了利…
前言: 上一篇比较详细的介绍了卡方检验和卡方分布.这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行.然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样就完美了. 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特征权重(TF/IDF)和特征提取        文本分类学习(四)特征选择之卡方检验 文本分类学习(五)机器学习SVM的前奏-特征提取(卡方检验续集) 一,回顾卡方检验 1.公式一: 先回顾一下卡方检验: 卡…
前言: 经历过文本的特征提取,使用LibSvm工具包进行了测试,Svm算法的效果还是很好的.于是开始逐一的去了解SVM的原理. SVM 是在建立在结构风险最小化和VC维理论的基础上.所以这篇只介绍关于SVM的理论基础.参考this paper: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/svmtutorial.pdf 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特征权重…
前言: 对于SVM的了解,看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解,比如线性分类器,和求凸二次规划中用到的高等数学知识.然而SVM最核心的地方应该在于核函数和求关于α函数的极值的方法:SMO算法(当然还有很多别的算法.libsvm使用的是SMO,SMO算法也是最高效和简单的),还有松弛变量..毕设答辩在即,这两个难点只能拖到后面慢慢去研究了. 于是我便是用了LibSvm,也就是台湾大学某某教授写的一个专门用于svm的工具包,其中有java语言的,python语言的,c语言的.我只…
SVM 和线性分类器是分不开的.因为SVM的核心:高维空间中,在线性可分(如果线性不可分那么就使用核函数转换为更高维从而变的线性可分)的数据集中寻找一个最优的超平面将数据集分隔开来. 所以要理解SVM首先要明白的就是线性可分和线性分类器. 可以先解释这张图,通过这张图就可以了解线性分类器了. 这是一个在二维平面的图.其中实心点和空心点是分别属于两类的,Origin 是原点. 先看中间那条直线,中间的直线就是一条可以实心点和空心点分隔开来的直线,所以上图中的数据点是线性可分的. 这条直线其实就是线…
多视图学习(multi-view learning) 前期吹牛:今天这一章我们就是来吹牛的,刚开始老板在和我说什么叫多视图学习的时候,我的脑海中是这么理解的:我们在欣赏妹子福利照片的时候,不能只看45度角的吧,要不那样岂不是都是美女了,这还得了.所以我们要看各个角度的照片,打击盗版美女,给大家创建一个真诚的少点欺骗的和谐世界.所以说,多视图学习就是360度,全方位无死角的欣赏(学习)然后得到最接近真实值的判定. 话说那么一天啊,一个人和一个蚂蚁在对话,他们看着一个米饭粒,人说,这个米饭粒胖嘟嘟的…
用于文本分类的RNN-Attention网络 https://blog.csdn.net/thriving_fcl/article/details/73381217 Attention机制在NLP上最早是被用于seq2seq的翻译类任务中,如Neural Machine Translation by Jointly Learning to Align and Translate这篇文章所说. 之后在文本分类的任务中也用上Attention机制,这篇博客主要介绍Attention机制在文本分类任务…