调研目的:

了解生成式文本摘要的常用技术和当前的发展趋势,明确当前项目有什么样的摘要需求,判断现有技术能否用于满足当前的需求,进一步明确毕业设计方向及其可行性

调研方向:

  • 项目中需要用到摘要的地方以及区别
  • 数据集(研究用评测集/项目用大规模数据集)
  • 现有技术
    • 分类

      • 有监督
      • 无监督
      • 半监督等(如果有)
    • 效果
    • 优势和缺点
  • 评价现有技术用于当前项目的可行性
  • 扩展:寻找现有技术的研究改进方向

项目中用到摘要的地方

  • 传统新闻摘要任务

    • 单/多文档新闻摘要生成
  • 非传统摘要任务
    • 标题生成
    • 特点
      • 篇幅一般较短
      • 不同位置的内容对摘要没有影响
      • 观点可能包含多种(受限于聚类效果),相当于噪声数据

评价方法

  • 自动评价方法: Rouge

    • 基于N元模型,判断生成的摘要与参考摘要N元组重复比例
    • 自动评价方法本身也是被研究的对象
  • 人工评价方法
    • 由人对摘要内容进行打分,包括可读性、综合质量等。

数据集

  • LCSTS

    • 哈工大中文微博摘要数据集
    • 数据集内容
      • part1: 2.4m训练数据, (短文本,摘要)对
      • part2: 1w标注数据,给摘要和短文本的相关程度打分(1~5),用来去除part1中的噪声数据
      • part3: 1.1k对训练数据,独立于part1&2,由3人对摘要打分,一般保留3分以上的作为摘要训练数据
    • 数据量非常大,噪声非常大
  • DUC2004/Gigaword
    • 抽取式摘要数据集
    • 单句话摘要
  • CNN/Daily Mail
    • 生成式摘要数据集
    • 摘要包含多个句子,但是长度不是太长

思路

  • Seq2seq + Attention(RNN->CNN)
  • Pointer/Generation、CopyNet机制,以及其它的机制
  • Extractor + Abstractor
  • Reinforcement Learning
  • GAN、unsupervised learning

General

  • Category: text-to-text, data-to-text, image/video-to-text
  • Tasks:
    • Content determination 确定生成内容
    • Text structuring 确定生成结构
    • Sentence aggregation 句子聚合
    • Lexicalisation 词法实现
    • Referring expression generation 指代生成
    • Linguistic realisation 语言实现
  • Example:
    • 有一个穿红衣服的小孩子,在雪地里堆雪人。
  • Example:
    • 高铁车票“无纸化”
      近日,中国铁路总公司...
      乘客或可实现“刷手机”、“刷身份证”直接进站乘车,而不需要在乘车之前特意换取纸质车票。...
      最快今年四季度,中国铁路电子客票业务将开展试点运营。
      ...
    • 最快今年四季度,乘客可直接刷手机或身份证直接进站乘坐高铁火车。

Text-to-Text

  • Document Summarization(abstractive)

    • Systems: NeATS, NewsBlaster, NewsInEssence, Summly
    • Evaluation: ROUGE
    • Tasks:
    • Category:
      • single/multi document summarization
    • Seq-to-Seq
      • attention mechanism
      • copying mechanism: 考虑到摘要中的很多字和原文相同,拷贝机制允许直接拷贝输入中的字作为输出,而不是总是通过隐层状态来生成字。
      • Reinforcement Learning: 直接通过Rouge来进行优化比decoder输出的结果的似然函数来优化效果更好
      • limit length
  • Sentence Compression & Fusion
    • few researches
  • Paraphrase Generation
    • few researches

Data-to-Text

Image/Video-to-Text

Natural Language Generation/Abstractive Summarization的更多相关文章

  1. How 5 Natural Language Processing APIs Stack Up

    https://www.programmableweb.com/news/how-5-natural-language-processing-apis-stack/analysis/2014/07/2 ...

  2. Abstractive Summarization

    Sequence-to-sequence Framework A Neural Attention Model for Abstractive Sentence Summarization Alexa ...

  3. 如何将 Cortana 与 Windows Phone 8.1 应用集成 ( Voice command - Natural language recognition )

    随着 Windows Phone 8.1 GDR1 + Cortana 中文版的发布,相信有很多用户或开发者都在调戏 Windows Phone 的语音私人助理 Cortana 吧,在世界杯的时候我亲 ...

  4. Natural language style method declaration and usages in programming languages

    More descriptive way to declare and use a method in programming languages At present, in most progra ...

  5. Natural Language Processing with Python - Chapter 0

    一年之前,我做梦也想不到会来这里写技术总结.误打误撞来到了上海西南某高校,成为了文科专业的工科男,现在每天除了膜ha,就是恶补CS.导师是做计算语言学的,所以当务之急就是先自学计算机自然语言处理,打好 ...

  6. Deep Learning for Natural Language Processing1

    Focus, Follow, and Forward Stanford CS224d 课程笔记 Lecture1 Stanford CS224d 课程笔记 Lecture1 Stanford大学在20 ...

  7. <Natural Language Processing with Python>学习笔记一

    Spoken input (top left) is analyzed, words are recognized, sentences are parsed and interpreted in c ...

  8. spaCy is a library for advanced natural language processing in Python and Cython:spaCy 工业级自然语言处理工具

    spaCy is a library for advanced natural language processing in Python and Cython. spaCy is built on ...

  9. 论文笔记:Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries

    Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries 2018-09-18 09:58:50 Pape ...

随机推荐

  1. 对haproxy文件进行增删改查

    1.文件内容 global log 127.0.0.1 local2 daemon maxconn 256 log 127.0.0.1 local2 info defaults log global ...

  2. 【Excel】SUMIF函数的兼容性

    兼容性非常强的两个函数 SUMIF() 说兼容性,当然得说SUMIF了. 来,我们先举个例子. 现有一个表格,算起来只有"科目划分"."发生额"两列内容,但是折 ...

  3. python中的轻量级定时任务调度库:schedule

    提到定时任务调度的时候,相信很多人会想到芹菜celery,要么就写个脚本塞到crontab中.不过,一个小的定时脚本,要用celery的话太“重”了.所以,我找到了一个轻量级的定时任务调度的库:sch ...

  4. 算法与cpu

    cpu中的控制单元对应算法中的控制: cpu重的计算单元对应算法中的顺序计算:

  5. esp8266(1) 手机+Arduino+esp8266通信

    ESP8266 Android与Arduino通信 功能描述: 1 Arduino上电,它通过软串口(Arduino的 2号和3号脚)发送命令,配置espson8266为 AP模式,wifi名 DDD ...

  6. 2017-2018-2 20155314《网络对抗技术》Exp6 信息搜集与漏洞扫描

    2017-2018-2 20155314<网络对抗技术>Exp6 信息搜集与漏洞扫描 目录 实验目标 实验内容 实验环境 基础问题回答 预备知识 实验步骤 1 信息搜集 1.1 外围信息搜 ...

  7. linux shell脚本调用java main方法 代码

    #!/bin/sh # #该脚本为Linux下启动java程序的通用脚本.即可以作为开机自启动service脚本被调用, #也可以作为启动java程序的独立脚本来使用. # #Author: tuda ...

  8. 84. Largest Rectangle in Histogram

    https://www.cnblogs.com/grandyang/p/4322653.html 1.存储一个单调递增的栈 2.如果你不加一个0进去,[1]这种情况就会输出结果0,而不是1 3.单调递 ...

  9. PAT A1153 Decode Registration Card of PAT (25 分)——多种情况排序

    A registration card number of PAT consists of 4 parts: the 1st letter represents the test level, nam ...

  10. http/2 多路复用技术

    虽然 HTTP 1.1 默认启用长TCP连接,但所有的请求-响应都是按序进行的(这里的长连接可理解成半双工协议.即便是HTTP 1.1引入了管道机制,也是如此).复用同一个TCP连接期间,即便是通过管 ...