论文阅读笔记 Improved Word Representation Learning with Sememes

一句话概括本文工作

使用词汇资源——知网——来提升词嵌入的表征能力,并提出了三种基于知网资源的词嵌入学习模型,在通用的中文词嵌入评测数据集上进行了评测,取得了较好的结果。

作者简介

该论文选自 ACL 2017,是清华大学孙茂松刘知远老师组的成果。论文的两名共同第一作者分别是牛艺霖和谢若冰。

牛艺霖,清华本科生。

谢若冰,清华研究生(2014-2017),清华本科生(2010-2014),发表过多篇机器学习领域高质量论文。[1]

论文立意

在表征学习领域,词嵌入(word embedding)问题是一个研究热点。其中,中文领域的词嵌入技术更是得到了很多深入地研究:从把词拆成字(CWE算法)[2],到把汉字拆偏旁部首 [3,4],再到根据人工总结的字件[5],再到基于汉字图片使用卷积神经网络自动提取特征的GWE [6],最后到2018年阿里巴巴提出的基于汉字笔画的词嵌入学习方法[7],中文词嵌入技术在形态学可谓已经被研究到了极致。

本文另辟蹊径,从词汇资源(Lexical Resource)——知网——入手,从词语背后的庞大信息量着手来提升词嵌入的表示能力。

词嵌入的研究方法综述

香港的 NLP 研究者刘李嫣然总结出了词嵌入的四大研究方向,分别是:Interpretable Relations、beyond words、lexical resource、beyond English [8]。

2018年,宋彦师兄创造性地提出了基于强化学习的词嵌入学习方法[9],至此,词嵌入的研究领域新增了一个新的研究方向——new model。也即引入其他学习方法的word embedding思路。

从2015年各大顶会论文的趋势来看,对于 word embedding 的研究已经进入基本完备,也就是进入了所谓的“后 word embedding 时代”[8]。关于word embedding的研究是这样的历史进程: 1954年,Harris 提出“语义相似的单词往往会出现在相似的上下文中 "[13]。2003年,Bengio 提出 神经网络语言模型[14]。2013年,google的Mikolov 提出 word2vec[15,16]。2015年,word embedding领域集大成之作的论文[17]横空出世,标志着后word embedding时代的到来。

本文贡献

首次利用知网中的义原来提高词向量的表征能力;采用注意力机制,从上下文中来寻找词义和学习表示。

本文工作

立意

词义由义原构成,本文改进了google 提出的 word2vec模型,加入注意力机制,从而可以很好的利用词义资源,以此来提高词向量的表征能力。

基线系统

google 提出的 word2vec 中的两种模型:Skip-Gram(SG) 和 CBOW。

斯坦福提出的 GloVe

训练数据集

Sougou-T,搜狗公司提出的互联网语料库,内含1.3亿张网页,相当于27亿个词汇,相当于 5TB 数据量。[10]

测试数据集

清华大学之前提出的词语相似度测试集 WordSim-240, WordSim-297, Analogy [11,12]

评测任务

词语相似度和词汇类推

模型方法

Simple Sememes Aggregation Model

仅利用了词对应的全部义原的平均值。

w 代表“词”;

S 代表词对应的词义集合;

X 代表词义对应的义原集合

m 代表全部义原的数量
\[
w = \frac{1}{m} \sum_{S} \sum_{X}x
\]

Sememe Attention over Context Model

利用注意力机制,根据目标词选择上下文词的适当意义。

\[
w_c = \sum_{j=1}^{|S|} att(S_j) \cdot S_j
\]

\[
att(S_j) = \frac{\exp(w \cdot \hat S_j)}{\sum_{k=1}^{|S|} \exp(w\cdot \hat S_k)}
\]

\[
\hat S^{(w_c)} = \frac{1}{|X_j^{(w_c)}|} \sum_{k=1}^{|X_j^{(w_c)}|} X_k
\]

Sememes Attention over Target Model

以上下文词为关注焦点,选择目标词的词义。

\[
w = \sum_{j=1}^{|S^{}|} att(S_j) \cdot S_j
\]

\[
att(S_j) = \frac{\exp{(w_c{'} \cdot \hat S_j)}}{\sum_{k=1}^{|S|}\exp(w_c{'} \cdot \hat S_k)}
\]

\[
w_c{'} = \frac{1}{2K{'}}\sum_{k=i-K{'}}^{k = i + K{'}} w_k, \quad k \neq i
\]

本文的不足

  1. 过于主观的评价方法,本文不同于其他的高水平词嵌入研究论文, 没有在较有说服力的机器翻译、文本分类上测试该词嵌入方法的性能。
  2. 不好懂的句式、语法和词汇,不同于李航和周志华的英文论文,本文的阅读难度较大。

参考文献

[1] Ruobing Xie`s Profile. http://nlp.csai.tsinghua.edu.cn/~xrb/

[2] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]// International Conference on Artificial Intelligence. AAAI Press, 2015:1236-1242.

[3] Sun Y, Lin L, Yang N, et al. Radical-Enhanced Chinese Character Embedding[J]. Lecture Notes in Computer Science, 2014, 8835:279-286.

[4] Li Y, Li W, Sun F, et al. Component-Enhanced Chinese Character Embeddings[J]. Computer Science, 2015.

[5] Yu J, Jian X, Xin H, et al. Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components[C]// Conference on Empirical Methods in Natural Language Processing. 2017:286-291.

[6] Su T R, Lee H Y. Learning Chinese Word Representations From Glyphs Of Characters[C]// Conference on Empirical Methods in Natural Language Processing. 2017:264-273.

[7] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information. 2018 AAAI

[8] 刘李嫣然. 后 Word Embedding 的热点会在哪里?. 2015. http://yanran.li/peppypapers/2015/08/17/post-word-embedding.html

[9] Yan Song. Learning Word Embedding with Reinforcement Learning. IJCAI. 2018

[10] http://www.sogou.com/labs/resource/t.php

[11] https://github.com/Leonard-Xu/CWE/tree/master/data

[12] Zhiyuan Liu, Maosong Sun, et al. Joint Learning of Character and Word Embeddings. IJCAI 2015.

[13] Harris, Zellig S. Distributional structure. Word 1954

[14] Bengio, Yoshua, et al. A neural probabilistic language model. JMLR 2003

[15] Mikolov, Tomas, et al. Efficient estimation of word representations in vector space[J]. Computer Science. 2013

[16] Mikolov, Tomas, et al. Distributed representations of words and phrases and their compositionality. NIPS 2013

[17] Lai S, et al. How to Generate a Good Word Embedding[J]. IEEE Intelligent Systems, 2016, 31(6): 5-14.

论文阅读笔记 Improved Word Representation Learning with Sememes的更多相关文章

  1. [论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks

    [论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构 解决问题 主要贡献 算法 ...

  2. 翻译 Improved Word Representation Learning with Sememes

    翻译 Improved Word Representation Learning with Sememes 题目 Improved Word Representation Learning with ...

  3. [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding

    [论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 ...

  4. [论文阅读笔记] node2vec Scalable Feature Learning for Networks

    [论文阅读笔记] node2vec:Scalable Feature Learning for Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 由于DeepWal ...

  5. 论文阅读笔记二十三:Learning to Segment Instances in Videos with Spatial Propagation Network(CVPR2017)

    论文源址:https://arxiv.org/abs/1709.04609 摘要 该文提出了基于深度学习的实例分割框架,主要分为三步,(1)训练一个基于ResNet-101的通用模型,用于分割图像中的 ...

  6. Nature/Science 论文阅读笔记

    Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...

  7. 论文阅读笔记 Word Embeddings A Survey

    论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...

  8. [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks

    [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问 ...

  9. [置顶] 人工智能(深度学习)加速芯片论文阅读笔记 (已添加ISSCC17,FPGA17...ISCA17...)

    这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...

随机推荐

  1. Hybrid设计--Hybrid中Native能力的设计

    稍微成熟的团队,header一定是不利于业务的UI组件,这个组件会封装在view层,方便前端使用.对业务前端开发来说,不用关注header是如何实现的,只用框架层释放的API.(一个前端有一个自己的U ...

  2. Kotlin 范型约束

    官方的示意及其简约,该说的一概没说 我在这里给大家一个完整的例子 //test.kt fun <T> cloneWhenGreater(list: List<T>, thres ...

  3. Nuxtjs初始

    今天去看vue的官网,才看了他的升级版-->Nuxtjs,https://nuxtjs.org/guide/installation可以点击链接进入他的官网查看文档 第一步,搭建项目之前的准备工 ...

  4. JSP—简介

    BS/CS的区别? CS模式: client:客户端:存放操作界面的图片样式本地数据和缓存等 server:服务端:保存核心数据 请求响应模式:收到请求后,服务器只需要返回核心的数据 优缺点:需要安装 ...

  5. Verdi如何编译design并打开

    HDL Source文件的编译 针对Verilog文件的编译: 使用vericom工具,将verilog source文件写入一个run.f中,如: system.v pram.v TopModule ...

  6. uva11990 动态逆序对

    这题说的是给了一个数组,按照他给的顺序依次删除数,在删除之前输出此时的逆序对个数 我们用Fenwick树 维护这整个数列, C[i]是一个 treap的头, 管理了在树状数组中 能影响他的点,然后我们 ...

  7. multiprocessing 源码解析 更新中......

    一.参考链接 1.源码包下载·链接:   https://pypi.org/search/?q=multiprocessing+ 2.源码包 链接:https://pan.baidu.com/s/1j ...

  8. mysql使用navicat编写调用存储过程

    在Navicat里面,找到函数,右键,新建函数,选择过程,如果有参数就填写函数,如果没有就直接点击完成 在BEGIN......END中间编写要执行的sql语句,例如下面存储过程取名为pro_data ...

  9. npm 代理的设置和取消

    管理员权限下的控制台输入: 设置代理 npm config set proxy=http://127.0.0.1:8080 npm config set registry=http://registr ...

  10. Eclipse创建maven工程后没有build path解决方案

    1.修改maven工程下的.project文件为如下内容 <?xml version="1.0" encoding="UTF-8"?> <pr ...