Natural Language Generation/Abstractive Summarization
调研目的:
了解生成式文本摘要的常用技术和当前的发展趋势,明确当前项目有什么样的摘要需求,判断现有技术能否用于满足当前的需求,进一步明确毕业设计方向及其可行性
调研方向:
- 项目中需要用到摘要的地方以及区别
- 数据集(研究用评测集/项目用大规模数据集)
- 现有技术
- 分类
- 有监督
- 无监督
- 半监督等(如果有)
- 效果
- 优势和缺点
- 分类
- 评价现有技术用于当前项目的可行性
- 扩展:寻找现有技术的研究改进方向
项目中用到摘要的地方
- 传统新闻摘要任务
- 单/多文档新闻摘要生成
- 非传统摘要任务
- 标题生成
- 特点
- 篇幅一般较短
- 不同位置的内容对摘要没有影响
- 观点可能包含多种(受限于聚类效果),相当于噪声数据
评价方法
- 自动评价方法: Rouge
- 基于N元模型,判断生成的摘要与参考摘要N元组重复比例
- 自动评价方法本身也是被研究的对象
- 人工评价方法
- 由人对摘要内容进行打分,包括可读性、综合质量等。
数据集
- LCSTS
- 哈工大中文微博摘要数据集
- 数据集内容
- part1: 2.4m训练数据, (短文本,摘要)对
- part2: 1w标注数据,给摘要和短文本的相关程度打分(1~5),用来去除part1中的噪声数据
- part3: 1.1k对训练数据,独立于part1&2,由3人对摘要打分,一般保留3分以上的作为摘要训练数据
- 数据量非常大,噪声非常大
- DUC2004/Gigaword
- 抽取式摘要数据集
- 单句话摘要
- CNN/Daily Mail
- 生成式摘要数据集
- 摘要包含多个句子,但是长度不是太长
思路
- Seq2seq + Attention(RNN->CNN)
- Pointer/Generation、CopyNet机制,以及其它的机制
- Extractor + Abstractor
- Reinforcement Learning
- GAN、unsupervised learning
General
- Category: text-to-text, data-to-text, image/video-to-text
- Tasks:
- Content determination 确定生成内容
- Text structuring 确定生成结构
- Sentence aggregation 句子聚合
- Lexicalisation 词法实现
- Referring expression generation 指代生成
- Linguistic realisation 语言实现
- Example:

- 有一个穿红衣服的小孩子,在雪地里堆雪人。
- Example:
- 高铁车票“无纸化”
近日,中国铁路总公司...
乘客或可实现“刷手机”、“刷身份证”直接进站乘车,而不需要在乘车之前特意换取纸质车票。...
最快今年四季度,中国铁路电子客票业务将开展试点运营。
... - 最快今年四季度,乘客可直接刷手机或身份证直接进站乘坐高铁火车。
- 高铁车票“无纸化”
Text-to-Text
- Document Summarization(abstractive)
- Systems: NeATS, NewsBlaster, NewsInEssence, Summly
- Evaluation: ROUGE
- Tasks:
- Category:
- single/multi document summarization
- Seq-to-Seq
- attention mechanism
- copying mechanism: 考虑到摘要中的很多字和原文相同,拷贝机制允许直接拷贝输入中的字作为输出,而不是总是通过隐层状态来生成字。
- Reinforcement Learning: 直接通过Rouge来进行优化比decoder输出的结果的似然函数来优化效果更好
- limit length
- Sentence Compression & Fusion
- few researches
- Paraphrase Generation
- few researches
Data-to-Text
Image/Video-to-Text
Natural Language Generation/Abstractive Summarization的更多相关文章
- How 5 Natural Language Processing APIs Stack Up
https://www.programmableweb.com/news/how-5-natural-language-processing-apis-stack/analysis/2014/07/2 ...
- Abstractive Summarization
Sequence-to-sequence Framework A Neural Attention Model for Abstractive Sentence Summarization Alexa ...
- 如何将 Cortana 与 Windows Phone 8.1 应用集成 ( Voice command - Natural language recognition )
随着 Windows Phone 8.1 GDR1 + Cortana 中文版的发布,相信有很多用户或开发者都在调戏 Windows Phone 的语音私人助理 Cortana 吧,在世界杯的时候我亲 ...
- Natural language style method declaration and usages in programming languages
More descriptive way to declare and use a method in programming languages At present, in most progra ...
- Natural Language Processing with Python - Chapter 0
一年之前,我做梦也想不到会来这里写技术总结.误打误撞来到了上海西南某高校,成为了文科专业的工科男,现在每天除了膜ha,就是恶补CS.导师是做计算语言学的,所以当务之急就是先自学计算机自然语言处理,打好 ...
- Deep Learning for Natural Language Processing1
Focus, Follow, and Forward Stanford CS224d 课程笔记 Lecture1 Stanford CS224d 课程笔记 Lecture1 Stanford大学在20 ...
- <Natural Language Processing with Python>学习笔记一
Spoken input (top left) is analyzed, words are recognized, sentences are parsed and interpreted in c ...
- spaCy is a library for advanced natural language processing in Python and Cython:spaCy 工业级自然语言处理工具
spaCy is a library for advanced natural language processing in Python and Cython. spaCy is built on ...
- 论文笔记:Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries
Dynamic Multimodal Instance Segmentation Guided by Natural Language Queries 2018-09-18 09:58:50 Pape ...
随机推荐
- Win7系统system进程句柄数一直增加解决方案
公司内部最近有个服务端的同事电脑句柄数一开机就一直增加 一台Windows7x64系统16G 其实物理内存使用情况在开机后并没有太大的变化,但虚拟内存占用明显在不停的增加. 我通过“任务管理器”一直也 ...
- sql2008和sql2012混合安装后打开SQL Server 配置管理器查看出现“远程过程调用失败”0x800706be
sql2008和sql2012混合安装后打开SQL Server 配置管理器SQL Server服务出现“远程过程调用失败”0x800706be 网上很多人都说这个解决方案,通过卸载“Microsof ...
- fedora更新
先换源再更新,否则等的太久,如果已经开始了直接ctrl+c取消 # dnf update
- 建立标准编码规则(二)-DiagnosticAnalyzer 增加诊断分析代码
1.使用语法树 当我们要编写一个规则,例如 检测正值表达式的时候,如何编写有效的规则呢 Regex.Match("my text", @"\pXXX"); 这里 ...
- Appium1.9.1 之 Desired Capabilities 释疑
服务关键字 Desired Capabilities在启动session的时候是必须提供的. Desired Capabilities本质上是以key value字典的方式存放,客户端将这些键值对发给 ...
- P2347 砝码称重 (01背包)
题目描述 设有 1g1g1g . 2g2g2g . 3g3g3g . 5g5g5g . 10g10g10g . 20g20g20g 的砝码各若干枚(其总重 ≤1000 \le 1000≤1000 ), ...
- geth中UTC文件与私钥的关系
在创建了自己的本地区块链后,我们会得到一个文件夹keystore,该文件夹是用来存储你在这个区块链中创建的账户的备份钥匙文件,比如在这里我有一个账户的备份钥匙文件为:UTC--2018-07-12T0 ...
- mysql索引类型-方法-形式-使用时机-不足之处--注意事项
一.索引的类型 1.普通索引 增加 create index index_name on table(colume(length)); 例子:cre ...
- [转]matplotlib - plt.rcParams、matshow/cmap/坐标轴设置
转自:https://blog.csdn.net/qq_30815237/article/details/87903024 1.plt.rcParams plt(matplotlib.pyplot)使 ...
- Qt+Qgis二次开发:地理实体抽象
1 概述 地理实体抽象是指点.线.面及其组合而成的,用于描述实际地物的数据结构. 其中包含几何实体和属性数据. GIS中进行几何操作,以各种实体类为基础进行操作. 在OGC中,地理实体可以由WKT表 ...