记录一下，很久之前看的论文-基于RNN来从微博中检测谣言及其代码复现。

1 引言

现有传统谣言检测模型使用经典的机器学习算法，这些算法利用了根据帖子的内容、用户特征和扩散模式手工制作的各种特征，或者简单地利用使用正则表达式表达的模式来发现推特中的谣言（规则加词典）。

特征工程是至关重要的，但手工特征工程是繁琐复杂、有偏见和耗时费力的。例如，图1中的两个时间序列图描述了典型的谣言信号的浅层模式。虽然它们可以表明谣言和非谣言事件的时间特征（微博文本中关键词的时序变化），但这两种情况之间的差异对于特征工程来说既不明确，也不明显。

　　另一方面，深度神经网络在许多机器学习问题上已经显示出了明显的优势。本文利用了循环神经网络RNN来进行有效的谣言检测。RNN适用于处理社交媒体中的文本（retweet）流的序列性质。这是因为RNN可以捕获谣言传播的动态时序特性。

本文提出基于RNN的方法，将谣言检测视为一个序列分类问题。具体地，本文将社会上下文信息（源微博的转帖文本或相关帖子文本）建模为可变长度的时间序列，然后用RNN来学习捕获微博相关帖子的上下文特征随时间的变化。

2 模型

2.1 问题描述

基于事件的谣言检测（单个微博帖子都很短，上下文非常有限。Claim通常与一些与Claim相关的帖子有关）
事件集E={ E_i }， E_i= { (m_i,j,t_i,j) }，事件Ei由时间戳 ti,j内的帖子 mi,j组成。
任务是判断每一个Event是谣言还是不是谣言

2.2 数据预处理-构造可变长度时间序列

　　将输入的序列中的post进行划分，从而将处理后的序列长度限定在在一定范围。

可将每个帖子建模作为一个输入实例，并构建一个序列长度等于帖子数的时间序列的用于RNN建模。然而，一个流行的事件可能会有成千上万个的帖子。我们只有一个输出单元（仅适用最终隐状态，有信息瓶颈问题）来指示在每个事件的最后一个时间步长中的类。通过大量的时间步长进行反向传播，而只有一个最后阶段的损失，计算代价高昂且无效的。（处理长序列时，RNN的BPTT存在的梯度消失问题会导致有偏的权重，即离Loss越远的时间步的梯度对参数的贡献越小，从而使其难以建模好长期依赖）

　　因此，为了妥善处理短时间内密集的帖子序列，本文将一批帖子构成一个时间间隔，并将它作为一个时间序列中的一个输入单元，然后使用RNN进行序列建模。简而言之，就是将原始的帖子序列按相对时间间隔划分成固定长度（例如k个）的子序列，其中子序列中帖子的数量不一定相同。

具体地，给定事件相关帖子的数据集，先将每条帖子视为输入实例，其序列长度等于帖子数量。进一步将帖子按照时间间隔进行批处理，视为时间序列中的单元，然后使用RNN序列进行建模，采用RNN序列的参考长度来构造时间序列。

动态时间序列算法：

　　　　1. 将整个事件线均分为N个internal，形成初始集合U0；
　　　　2. 遍历U0，删除没有包含帖子的internal，形成U1；
　　　　3. 从U1中选出总时间跨度最长的连续internal，形成集合U2（找到一个最长的时间序列）；
　　　　4. 如果U2中internal的数量小于N且大于之前一轮，将internal减半，返回步骤1，继续分区（使最终internal数量接近N）；
　　　　5. 否则，返回该总时间跨度最长的连续internal集合U2。

根据上述算法，其实现如下所示（针对常用的微博数据集，其每一个样本的原始信息存储在JSON文件中）：

def load_rawdata(file_path):

    """ json file, like a list of dict """

    with open(file_path, encoding="utf-8") as f:

        data = json.loads(f.read())

    return data

def GetContinueInterval(inter_index):

    """根据初步划分的间隔索引列表，得出最大连续间隔的索引"""

    max_inters = []

    temp_inters = [inter_index[0]]

    for q in range(1, len(inter_index)):

        if inter_index[q] - inter_index[q - 1] > 1:

            if len(temp_inters) > len(max_inters):

                max_inters = temp_inters

            temp_inters = [inter_index[q]]

        else:

            temp_inters.append(inter_index[q])

    if len(max_inters) == 0:

        max_inters = temp_inters

    return max_inters

def ConstructSeries(tweet_list, interval_num, time_interval):

    """基于相对时间间隔，按照时间戳对post序列进行划分

	Params:

		tweet_list (list), 由Post Index以及时间戳二元组构成的序列

		interval_num (int), 依据基准序列长度N，计算出的当前序列的时间间隔数

		time_interval (float), 单位时间间隔长度

	Returns:

		Output (list), 划分好的post batch，每一个batch包含的一个时间间隔内的post

		inter_index (list), Interval的index列表

	"""

    # 遍历每一个间隔

    tweet_index = 0

    output, inter_index = [], []

    start_time = tweet_list[0][1]

    for inter in range(0, interval_num):

        non_empty = 0

        interval_post = []  # 存储当前间隔内的post

        for q in range(tweet_index, len(tweet_list)):

            if start_time <= tweet_list[q][1] < start_time + time_interval:

                non_empty += 1

                interval_post.append(tweet_list[q][0])

            elif tweet_list[q][1] >= start_time + time_interval:

                # 记录超出interval的tweet位置，下次可直接从此开始

                tweet_index = q - 1

                break

        if non_empty == 0:

            output.append([])  # 空间隔不会记录其索引

        else:

            if tweet_list[-1][1] == start_time + time_interval:

                interval_post.append(tweet_list[-1][0])  # add the last tweet

            inter_index.append(inter)

            output.append(interval_post)

        start_time = start_time + time_interval  # 更新间隔开始时间

    return output, inter_index

　　以下代码为动态时间序列算法主函数，其中N为RNN的参考长度，即超参数：

def SplitSequence(weibo_id, N=50):

    """将source post对应的posts划分成不定长的post batch序列

    Params:

        weibo_id (str), source post对应的id，用于读取对应数据

        N (int), 时间序列的基准time steps个数

    Returns:

        output (list), interval list, 每一个interval包含一定数量的post index

    """

    # 不同时间间隔内的post数量不必相同）

    path = "Weibo" + os_sep + "{}.json".format(weibo_id)

    data = load_rawdata(data_path + path) # 基于weibo id加载包含转帖文本及时间戳的原始数据

    tweet_list = [(idx, tweet["t"]) for idx, tweet in enumerate(data)]

    total_timespan = tweet_list[-1][1] - tweet_list[0][1]  # L(i)

    time_interval = total_timespan / N  # l

    k = 0

    pre_max_inters = []  # U_(k_1)

    while True:

        # Spliting series by the current time interval

        k += 1

        interval_num = int(total_timespan / time_interval)

        output, inter_index = ConstructSeries(tweet_list, interval_num, time_interval)

        max_inters = GetContinueInterval(inter_index)  # maximum continue interval index

        if len(pre_max_inters) < len(max_inters) < N:

            time_interval = int(time_interval * 0.5)  # Shorten the intervals

            pre_max_inters = max_inters

            if time_interval == 0:

                output = output[max_inters[0]:max_inters[-1] + 1]

                break

        else:

            output = output[max_inters[0]:max_inters[-1] + 1]

            break

    return output

2.3 模型结构（two-layer GRU）

　　　　首先，将每一个post的tf-idf向量和一个词嵌入矩阵相乘，这等价于加权求和词向量。由于本文较老，词嵌入是基于监督信号从头开始学习的，而非使用word2vec或预训练的BERT。

　　以下是加载数据的部分的代码。为了便于实现，这里并没有使用torch自带的dataset和dataloader，也没有没有对序列进行截断和填充。

class Data():

    def __init__(self, text_data):

        self.text_data = text_data

    def get_wordindices(self):

        return [torch.from_numpy(inter_text) for inter_text in self.text_data]

def load_data(ids):

    """ 依据weibo的id，加载所有的结点特征

    Params:

        ids (list), 微博id list

    Returns:

        instance_list: a list of numpy ndarray, 每一个numpy ndarray是一个B by k的tf-idf矩阵

    """

    instance_list = []

    for weibo_id in tqdm(ids):

        text_matrix = load_sptext(weibo_id).toarray()  # 所有post的numpy tfidx矩阵

        split_interval = SplitSequence(weibo_id)

        text_data = [text_matrix[interval] for interval in split_interval]

        instance_list.append(Data(text_data))

    return instance_list

　　模型代码：本文的模型对每一个时间间隔内的post的embedding直接使用了最大池化操作。

class GlobalMaxPool1d(nn.Module):

    def __init__(self):

        super(GlobalMaxPool1d, self).__init__()

    def forward(self, x):

        return torch.max_pool1d(x, kernel_size=x.shape[2])

class GRU2_origin(nn.Module):

    def __init__(self, dim_in, dim_word, dim_hid, dim_out):

        """

        Detecting Rumors with Recurrent Neural Network-IJCAI16

        :Params:

            dim_in (int):         post的初始输入特征维度 k

            dim_word(int):        word嵌入的维度

            dim_hid (int):        GRU hidden unit

            dim_out (int):	  模型最终的输出维度，用于分类

        """

        super(GRU2_origin, self).__init__()

        self.word_embeddings = nn.Parameter(nn.init.xavier_uniform_(

            torch.zeros(dim_in, dim_word, dtype=torch.float, device=device), gain=np.sqrt(2.0)), requires_grad=True)

        # GRU for modeling the temporal dynamics

        rnn_num_layers = 2

        self.MaxPooling = GlobalMaxPool1d()

        self.GRU = nn.GRU(dim_word, dim_hid, rnn_num_layers)

        self.H0 = torch.zeros(rnn_num_layers, 1, dim_hid, device=device)

        self.prediction_layer = nn.Linear(dim_hid, dim_out)

        nn.init.xavier_normal_(self.prediction_layer.weight)

    def forward(self, text_data):

        batch_posts = []

        for idx in range(len(text_data)):

            # words_indices is a sparse tf-idf vector with N * 5000 dimension

            words_indices = text_data[idx].to(device)

            tmp_posts = []

            for i in range(words_indices.shape[0]):

                word_indice = torch.nonzero(words_indices[i], as_tuple=True)[0]

                if word_indice.shape[0] == 0:

                    word_indice = torch.tensor([0], dtype=torch.long).to(device)

                words = self.word_embeddings.index_select(0, word_indice)  # select out embeddings

                word_tensor = words_indices[i][word_indice].unsqueeze(dim=0)  # select out weights

                post_embedding = word_tensor.mm(words).squeeze(dim=1)

                tmp_posts.append(post_embedding)

            # Interval中的post batch取平均 (矩阵乘法)

            tmp_embeddings = torch.cat(tmp_posts, dim=0).unsqueeze(1)

            batch_embedding = self.MaxPooling(tmp_embeddings.transpose(0, 2))  # transpose(0, 2)

            batch_posts.append(batch_embedding.squeeze(1).transpose(0, 1))

        x = torch.cat(batch_posts, dim=0)

        gru_output, _ = self.GRU(x.unsqueeze(1), self.H0)

        return self.prediction_layer(gru_output[-1])  # Using the last hidden vector of GRU

　　后续的完整的数据加载、模型初始化、训练和评估，可自行添加。

3 实验

　　模型训练设置：

使用TF-IDF来获取post的初始文本表示
AdaGrad算法进行参数更新
根据经验，将词汇量大小设为k=5000，待从头学的词嵌入维度为100，隐藏单元的尺寸为100，学习率为0.5

　　实验结果：

4 总结

　　这篇文章算是将深度学习用于虚假信息检测的开山之作，开始了利用深度网络来自动提取具备判别性的高阶特征的范式，后续很多文章都是在此基础上改进的。

　　由于文章较老，所以在目前看，待改进的点其实挺多的。首先要注意，原始的TF-IDF特征一般不能在全局数据上提取（训练集、验证集和测试集，暂不考虑半监督的情况），相同的词的在验证集和测试集的TF-IDF特征和训练集取同样的值。而对于新出现的词，取默认值。推广到一般情况，如果提取特征时，不区分训练测试，或许使用了相应特征的对比方法取得的结果过于乐观，并不符合实际情况。

　　此外，可以考虑文本特征的获取、序列的层次化建模、注意力机制、其他特征的使用（用户信息、传播结构特征）、外部知识的引入（知识图谱）、非线性传播结构的利用、多任务学习（结合立场分类）等等。

　　值得注意的是，当算法实际应用时，并不是越复杂的模型的效果就越好，而且需要考虑实际的业务需求和数据。有时候，或许假设简单、模型结构简单的算法或许在大量人工特征的引入和大量数据的支持下，也能取得不错的效果，毕竟数据决定算法的上限。

Detecting Rumors from Microblogs with Recurrent Neural Networks（IJCAI-16）的更多相关文章

Recurrent Neural Network（递归神经网络）
递归神经网络(RNN),是两种人工神经网络的总称,一种是时间递归神经网络(recurrent neural network),另一种是结构递归神经网络(recursive neural network ...
AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networks（解析）
原文链接:https://arxiv.org/abs/1902.09689 发表在:ICLR 2019 ------------------------------------------------ ...
循环神经网络(RNN, Recurrent Neural Networks)介绍（转载）
循环神经网络(RNN, Recurrent Neural Networks)介绍这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neur ...
Attention and Augmented Recurrent Neural Networks
Attention and Augmented Recurrent Neural Networks CHRIS OLAHGoogle Brain SHAN CARTERGoogle Brain Sep ...
cs231n spring 2017 lecture10 Recurrent Neural Networks 听课笔记
(没太听明白,下次重新听一遍) 1. Recurrent Neural Networks
第十四章——循环神经网络（Recurrent Neural Networks）（第一部分）
由于本章过长,分为两个部分,这是第一部分. 这几年提到RNN,一般指Recurrent Neural Networks,至于翻译成循环神经网络还是递归神经网络都可以.wiki上面把Recurrent ...
第十四章——循环神经网络（Recurrent Neural Networks）（第二部分）
本章共两部分,这是第二部分: 第十四章--循环神经网络(Recurrent Neural Networks)(第一部分) 第十四章--循环神经网络(Recurrent Neural Networks) ...
Pixel Recurrent Neural Networks翻译
Pixel Recurrent Neural Networks 目前主要在用的文档存放: https://www.yuque.com/lart/papers/prnn github存档: https: ...
循环神经网络(Recurrent Neural Networks, RNN)介绍
目录 1 什么是RNNs 2 RNNs能干什么 2.1 语言模型与文本生成Language Modeling and Generating Text 2.2 机器翻译Machine Translati ...

随机推荐

k8s入门之Service(六)
将一组pod公开为网络服务,通过service代理,可以实现负载均衡一.ClusterIP 此方式只能在集群内访问 1.使用命令暴露已存在的pod (1)继续使用前面章节的案例,查看名称为nginx ...
Runable与Callable的区别
Runable与Callable的区别: public interface Callable<V> { V call() throws Exception;//V是Callable返回值的 ...
1.17 想学好Linux，这些习惯必须养成（初学者必读）
不管是在生活还是工作中,每个人都会逐渐养成一些小习惯.坏习惯一旦形成就很难改正,所在在系统学习 Linux之前,给大家一些建议,刻意去培养一些好的习惯,对自己是很有利的. 学习Linux,要习惯使用命 ...
《手把手教你》系列基础篇（九十七）-java+ selenium自动化测试-框架设计篇-Selenium方法的二次封装和页面基类（详解教程）
1.简介上一篇宏哥介绍了如何设计支持不同浏览器测试,宏哥的方法就是通过来切换配置文件设置的浏览器名称的值,来确定启动什么浏览器进行脚本测试.宏哥将这个叫做浏览器引擎类.这个类负责获取浏览器类型和启动 ...
超越OpenCV速度的MorphologyEx函数实现（特别是对于二值图，速度是CV的4倍左右）。
最近研究了一下opencv的 MorphologyEx这个函数的替代功能, 他主要的特点是支持任意形状的腐蚀膨胀,对于灰度图,速度基本和CV的一致,但是 CV没有针对二值图做特殊处理,因此,这个函数对 ...
python 动态规划（背包问题和最长公共子串）
背包问题现在要往一个可以装4个单位重量的背包里怎么装价值最高:A重量1个单位,价值15:B重量3个单位,价值20:C重量4个重量,价值30 使用动态规划填充空格 class SolutionBag: ...
Golang：手撸一个支持六种级别的日志库
Golang标准日志库提供的日志输出方法有Print.Fatal.Panic等,没有常见的Debug.Info.Error等日志级别,用起来不太顺手.这篇文章就来手撸一个自己的日志库,可以记录不同级别 ...
Spring Boot 3.0.0 M3、2.7.0发布，2.5.x将停止维护
昨晚(5月19日),Spring Boot官方发布了一系列Spring Boot的版本更新,其中包括: Spring Boot 3.0.0-M3 Spring Boot 2.7.0 Spring Bo ...
K8S 使用Kubeadm搭建高可用Kubernetes(K8S)集群 - 证书有效期100年
1.概述 Kubenetes集群的控制平面节点(即Master节点)由数据库服务(Etcd)+其他组件服务(Apiserver.Controller-manager.Scheduler...)组成. ...
JVM的类加载过程
每日一句人到情多情转薄,而今真个不多情. 每日一句 The frog in the well knows nothing of the great ocean. 井底之蛙,不知大海. JVM 的类加 ...

Detecting Rumors from Microblogs with Recurrent Neural Networks（IJCAI-16）