NLP文本多标签分类---HierarchicalAttentionNetwork

最近一直在做多标签分类任务，学习了一种层次注意力模型，基本结构如下：

简单说，就是两层attention机制，一层基于词，一层基于句。

首先是词层面：

输入采用word2vec形成基本语料向量后，采用双向GRU抽特征：

一句话中的词对于当前分类的重要性不同，采用attention机制实现如下：

tensorflow代码实现如下：

···

def attention_word_level(self, hidden_state):

    """

    input1:self.hidden_state: hidden_state:list,len:sentence_length,element:[batch_size*num_sentences,hidden_size*2]

    input2:sentence level context vector:[batch_size*num_sentences,hidden_size*2]

    :return:representation.shape:[batch_size*num_sentences,hidden_size*2]

    """

    hidden_state_ = tf.stack(hidden_state, axis=1)  # shape:[batch_size*num_sentences,sequence_length,hidden_size*2]

    # 0) one layer of feed forward network

    hidden_state_2 = tf.reshape(hidden_state_, shape=[-1,

                                                      self.hidden_size * 2])  # shape:[batch_size*num_sentences*sequence_length,hidden_size*2]

    # hidden_state_:[batch_size*num_sentences*sequence_length,hidden_size*2];W_w_attention_sentence:[,hidden_size*2,,hidden_size*2]

    hidden_representation = tf.nn.tanh(tf.matmul(hidden_state_2,

                                                 self.W_w_attention_word) + self.W_b_attention_word)  # shape:[batch_size*num_sentences*sequence_length,hidden_size*2]

    hidden_representation = tf.reshape(hidden_representation, shape=[-1, self.sequence_length,

                                                                     self.hidden_size * 2])  # shape:[batch_size*num_sentences,sequence_length,hidden_size*2]

    # attention process:1.get logits for each word in the sentence. 2.get possibility distribution for each word in the sentence. 3.get weighted sum for the sentence as sentence representation.

    # 1) get logits for each word in the sentence.

    hidden_state_context_similiarity = tf.multiply(hidden_representation,

                                                   self.context_vecotor_word)  # shape:[batch_size*num_sentences,sequence_length,hidden_size*2]

    attention_logits = tf.reduce_sum(hidden_state_context_similiarity,

                                     axis=2)  # shape:[batch_size*num_sentences,sequence_length]

    # subtract max for numerical stability (softmax is shift invariant). tf.reduce_max:Computes the maximum of elements across dimensions of a tensor.

    attention_logits_max = tf.reduce_max(attention_logits, axis=1,

                                         keep_dims=True)  # shape:[batch_size*num_sentences,1]

    # 2) get possibility distribution for each word in the sentence.

    p_attention = tf.nn.softmax(

        attention_logits - attention_logits_max)  # shape:[batch_size*num_sentences,sequence_length]

    # 3) get weighted hidden state by attention vector

    p_attention_expanded = tf.expand_dims(p_attention, axis=2)  # shape:[batch_size*num_sentences,sequence_length,1]

    # below sentence_representation'shape:[batch_size*num_sentences,sequence_length,hidden_size*2]<----p_attention_expanded:[batch_size*num_sentences,sequence_length,1];hidden_state_:[batch_size*num_sentences,sequence_length,hidden_size*2]

    sentence_representation = tf.multiply(p_attention_expanded,

                                          hidden_state_)  # shape:[batch_size*num_sentences,sequence_length,hidden_size*2]

    sentence_representation = tf.reduce_sum(sentence_representation,

                                            axis=1)  # shape:[batch_size*num_sentences,hidden_size*2]

    return sentence_representation  # shape:[batch_size*num_sentences,hidden_size*2]

···

句子层面和词层面基本相同

双向GRU输入，softmax计算attention

最后基于句子层面的输出，计算分类

指数损失

github源代码：https://github.com/zhaowei555/multi_label_classify/tree/master/han

NLP文本多标签分类---HierarchicalAttentionNetwork的更多相关文章

fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
https://mp.weixin.qq.com/s/_xILvfEMx3URcB-5C8vfTw 这个库的目的是探索用深度学习进行NLP文本分类的方法. 它具有文本分类的各种基准模型,还支持多标签分 ...
NLP文本分类方法汇总
模型: FastText TextCNN TextRNN RCNN 分层注意网络(Hierarchical Attention Network) 具有注意的seq2seq模型(seq2seq with ...
NLP文本分类
引言其实最近挺纠结的,有一点点焦虑,因为自己一直都期望往自然语言处理的方向发展,梦想成为一名NLP算法工程师,也正是我喜欢的事,而不是为了生存而工作.我觉得这也是我这辈子为数不多的剩下的可以自己去追 ...
浅谈NLP 文本分类/情感分析任务中的文本预处理工作
目录浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言 NLP相关的文本预处理浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言之所以心血来潮想写这篇博客,是因为最近在关注N ...
LM-MLC 一种基于完型填空的多标签分类算法
LM-MLC 一种基于完型填空的多标签分类算法 1 前言本文主要介绍本人在全球人工智能技术创新大赛[赛道一]设计的一种基于完型填空(模板)的多标签分类算法:LM-MLC,该算法拟合能力很强能感知标签 ...
CSS.02 -- 样式表及标签分类（块、行、行内块元素）、CSS三大特性、背景属性
样式表书写位置内嵌式写法 <head> <style type="text/css"> 样式表写法 </style> </head&g ...
html(常用标签,标签分类)，页面模板， CSS(css的三种引入方式)，三种引入方式优先级
HTML 标记语言为非编程语言负责完成页面的结构组成: 标签:被<>包裹的由字母开头,可以结合合法字符( -|数字 ),能被浏览器解析的特殊符号,标签有头有尾指令:被<>包 ...
从零开始学 Web 之 CSS（二）文本、标签、特性
大家好,这里是「 Daotin的梦呓」从零开始学 Web 系列教程.此文首发于「 Daotin的梦呓」公众号,欢迎大家订阅关注.在这里我会从 Web 前端零基础开始,一步步学习 Web 相关的知识 ...
Python-HTML 最强标签分类
编程: 使用(展示)数据存储数据处理数据前端 1. 前端是做什么的? 2. 我们为什么要学前端? 3. 前端都有哪些内容? 1. HTML 2. CSS 3. JavaScript 4.jQue ...

随机推荐

《RESTful Web APIs》书中有一段POST API示例，现实中我们如何测试这个示例？书中没有说，Let's try it！
<RESTful Web APIs>书中有一段POST API示例: I then send the filled-out template as part of an HTTP POST ...
基础篇：深入解析JAVA泛型和Type类型体系
目录 1 JAVA的Type类型体系 2 泛型的概念 3 泛型类和泛型方法的示例 4 类型擦除 5 参数化类型ParameterizedType 6 泛型的继承 7 泛型变量TypeVariable ...
P4821 [中山市选]生成树
题目链接我们可以看一下题目中给的这张图. 首先,树是没有环的,所以我们要把所有的环上的边都删去一条. 我们可以现在每个五边形上删去一条边. 但删完之后我们会发现,里面还有一圈. 这时候,我们就要在这 ...
LNMP架构介绍与部署
一.LNMP架构介绍 LNMP:Linux系统下Nginx+MySQL+PHP这种网站服务器架构.Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器.My ...
Jmeter之『多变量循环』
假设存在两个参数a,b,需要在一个循环内,同时遍历a_1,a_2,a_3,b_1,b_2,b_3 添加一个循环控制器,循环次数为变量的大小添加一个计数器,引用名称为index(用于拼接变量名称) 同 ...
JavaScript打印给定区间年份的闰年
要求: 用户输入需要判断的年份区间,开始年份和结束年份,输出该区间内所有的闰年. 代码实现: function isRunYear(year) { // 是闰年返回true,否则返回false var ...
MySQL数据备份脚本
#!/bin/bash ############################# # time:20191210 # fage trainning ######################### ...
[学习笔记] 数位DP的dfs写法
跟着洛谷日报走,算法习题全都有! 嗯,没错,这次我也是看了洛谷日报的第84期才学会这种算法的,也感谢Mathison大佬,素不相识,却写了一长篇文章来帮助我学习这个算法. 算法思路: 感觉dfs版的数 ...
Python装饰器实现带参数和不带参数
1 def log(text=None): 2 3 if isinstance(text, str): 4 def decorator(func): 5 @functools.wraps(func) ...
Mysql的Sql语句优化
在Mysql中执行Sql语句经常会遇到有的语句执行时间特别长的情况,出现了这种情况我们就需要静下心分析分析. 首先,我们需要确定系统中哪些语句执行时间比较长.这个可以使用Mysql的慢日志来跟踪.下面 ...

NLP文本多标签分类---HierarchicalAttentionNetwork

NLP文本多标签分类---HierarchicalAttentionNetwork的更多相关文章

随机推荐

热门专题