Learning Conditioned Graph Structures for Interpretable Visual Question Answering 2019-05-29 00:29:43 Paper:http://papers.nips.cc/paper/8054-learning-conditioned-graph-structures-for-interpretable-visual-question-answering.pdf Code:https://github.com…
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://openaccess.thecvf.com/content_ECCV_2018/papers/Damien_Teney_Visual_Question_Answering_ECCV_2018_paper.pdf 1. Introduction: 本文提出一种新的 VQA 思路,将 meta-learning 结…
Learning Visual Question Answering by Bootstrapping Hard Attention Google DeepMind  ECCV-2018   2018-08-05 19:24:44 Paper:https://arxiv.org/abs/1808.00300  Introduction: 本文尝试仅仅用 hard attention 的方法来抠出最有用的 feature,进行 VQA 任务的学习. Soft Attention: Existing…
Visual Question Answering with Memory-Augmented Networks 2018-05-15 20:15:03 Motivation: 虽然 VQA 已经取得了很大的进步,但是这种方法依然对完全 general,freeform VQA 表现很差,作者认为是因为如下两点: 1. deep models trained with gradient based methods learn to respond to the majority of train…
一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]. 翻译为中文:一个VQ…
Hierarchical Question-Image Co-Attention for Visual Question Answering NIPS 2016 Paper: https://arxiv.org/pdf/1606.00061.pdf Code: https://github.com/jiasenlu/HieCoAttenVQA Related Blog: [AI前沿]机器阅读理解与问答·Dynamic Co-Attention Networks Introduction: 本文提…
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering-阅读总结 笔记不能简单的抄写文中的内容,得有自己的思考和理解. 一.基本信息 **\1.标题:**Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering **\2.作者:**Peter Anderson,Xiaodong…
第八讲_图像问答Image Question Answering 课程结构 图像问答的描述 具备一系列AI能力:细分识别,物体检测,动作识别,常识推理,知识库推理..... 先要根据问题,判断什么任务 图像问题与图像描述的关系 研究的难点和挑战 研究方向 数据集 COCO-QA来源MSCOCO VQA(visual question answering) 平衡数据集V1.9-->V2.0 Visual7W---Visual Genome的子集 图像问答模型 模型 基本都是VGG-Net和ResN…
Learning Multi-Domain Convolutional Neural Networks for Visual Tracking CVPR 2016 本文提出了一种新的CNN 框架来处理跟踪问题.众所周知,CNN在很多视觉领域都是如鱼得水,唯独目标跟踪显得有点“慢热”,这主要是因为CNN的训练需要海量数据,纵然是在ImageNet 数据集上微调后的model 仍然不足以很好的表达要跟踪地物体,因为Tracking问题的特殊性,至于怎么特殊的,且听细细道来. 目标跟踪之所以很少被 C…
Deep Learning of Graph Matching 阅读笔记 CVPR2018的一篇文章,主要提出了一种利用深度神经网络实现端到端图匹配(Graph Matching)的方法. 该篇文章理论性较强,较难读懂... 论文链接 介绍这篇文章之前,需要先了解一下什么是图匹配,图匹配是干嘛的. 图匹配 图匹配简单来说就是将已有的两个图中对应的顶点关联起来实现能量函数最大.以多目标跟踪任务来说,每帧图像中的观测都可以构成一个拓扑图,希望将两帧图像中的拓扑图匹配起来以实现同一条轨迹中的观测成功匹…
Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking DCF跟踪算法因边界效应,鲁棒性较差.SRDCF通过引入空间正则参数有效地提升了跟踪性能,但是增加了算法地复杂性.SRDCF在更新网络参数的时候,需要利用多张图片,这无疑增加了算法地运行效率.本文针对SRDCF,引入temporal regularization让SRDCF可以利用一张图片进行更新网络层参数,这一举措可以增加算法地鲁棒性.本文…
Learning Context Graph for Person Search 2019-06-24 09:14:03 Paper:http://openaccess.thecvf.com/content_CVPR_2019/papers/Yan_Learning_Context_Graph_for_Person_Search_CVPR_2019_paper.pdf Code: https://github.com/sjtuzq/person_search_gcn Person Search…
1. 论文概述 论文首次将深度学习同图匹配(Graph matching)结合,设计了end-to-end网络去学习图匹配过程. 1.1 网络学习的目标(输出) 是两个图(Graph)之间的相似度矩阵. 1.2 网络的输入 拿其中的 imageNet 的鸟举例如下图,使用的是另一篇论文使用的数据集.数据特点:①鸟的姿态几乎一致②每个鸟选取15个关键点.这样就默认不同二图中相对应的点(如下图不同颜色的点)是 一 一 匹配的,即当作ground-truth.具体如何将image输入得到graph,下…
目录 概 主要内容 代码 Yu Y., Chen J., Gao T. and Yu M. DAG-GNN: DAG structure learning with graph neural networks. In International Conference on Machine Learning (ICML), 2019. 概 有向无环图 + GNN + VAE. 主要内容 先前已经有工作(NOTEARS)讨论了如何处理线性SEM模型 \[X = A^TX + Z, \] \(A \i…
论文信息 论文标题:Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization论文作者:Wei Dong, Junsheng Wu, Yi Luo, Zongyuan Ge, Peng Wang论文来源:CVPR 2022论文地址:download论文代码:download 1 摘要 在本工作中,我们提出了一种简单而有效的自监督节点表示学习策略,通过直接最大化节点的…
论文信息 论文标题:Accurate Learning of Graph Representations with Graph Multiset Pooling论文作者:Jinheon Baek, Minki Kang, Sung Ju Hwang论文来源:2021, ICLR论文地址:download 论文代码:download 1 Introduction 图池化存在的问题:获得的图表示需进一步使用池化函数将一组节点表示映射为紧凑的形式.对所有节点表示的简单求和或平均都平等地考虑所有节点特征…
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering 2019-04-25 21:43:11 Paper:https://arxiv.org/pdf/1904.04357.pdf Code: https://github.com/fanchenyou/HME-VideoQA 1. Background and Motivation:  用 Memory Network 做视觉问题…
融合异构知识进行常识问答 论文标题 -- <Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering> 论文来源 论文代码 任务介绍 任务概述 以CSQA(常识问答)为例,针对未提及背景知识的问题,要求考虑背景知识并作出回答 任务形式 输入:问题Q=q_1 q_2⋯q_m和包含n个答案的候选答案集合A={a_1,a_2,⋯,a_n} 目标:从候选集合中选出正确答案…
中文简单介绍: 本文对怎样在问答社区对用户主题兴趣及专业度建模分析进行了研究,而且提出了针对此问题的统计图模型Topics Expertise Model. 论文出处:CIKM'13. 英文摘要: Community Question Answering (CQA) websites, where people share expertise on open platforms, have become large repositories of valuable knowledge. To b…
构建常识问答知识路径生成器 论文贡献 ​ 提出学习一个多跳知识路径产生器来根据问题动态产生结构化证据.生成器以预先训练的语言模型为主干,利用语言模型中存储的大量非结构化知识来补充知识库的不完整性.路径生成器生成的这些相关路径被进一步聚合为知识嵌入,并与文本编码器给出的上下文嵌入进行融合. 论文架构 从问题和答案选择中提取实体 使用构造的路径生成器生成一个多跳知识路径来连接每对问答实体 生成器学习将问题实体(红色)和选择实体(绿色)与生成的路径连接起来,这些路径充当QA的动态KG. 将生成的路径聚…
The key mechanism of transformer-based models is cross-attentions, which implicitly form graphs over tokens and act as diffusion operators to facilitate information propagation through the graph for question-answering that requires some reasoning ove…
Link of the Paper: https://arxiv.org/pdf/1504.06692.pdf Innovations: The authors propose the Novel Visual Concept learning from Sentences ( NVCS ) task. In this task, methods need to learn novel concepts from sentence descriptions of a few images. Th…
前言 CVPR2016 来自Korea的POSTECH这个团队   大部分算法(例如HCF, DeepLMCF)只是用在大量数据上训练好的(pretrain)的一些网络如VGG作为特征提取器,这些做法证实利用CNN深度特征对跟踪结果有显著提升. 但是毕竟clssification 和 tracking是两个不同的课题 (predicting object class labels VS locating targets of arbitrary classes.) 所以作者设计了一个网络来做跟踪…
基于多知识库迭代检索的问答系统 论文地址 背景 常识问答任务需要引入外部知识来帮助模型更好地理解自然语言问题,现有的解决方案大都采用两阶段框架: 第一阶段 -- 从广泛的知识来源中找到与给定问题相关的知识事实或者用预训练模型生成相关的知识 第二阶段 -- 将找到的或者生成的知识与问题融合以预测答案. 实验结果证明,外部知识融合到问答系统的做法是十分有效的,但这仍然存在一个关键的问题:就从单一外部知识库找寻相关知识而言,抽取到的部分知识可能对解决问题基本毫无作用,甚至还可能损害模型的性能.例如,以…
1.Information publication:EMNLP 2014 author:Jing Liu(在前一篇sigir基础上,拓展模型的论文) 2.What 衡量CQA中问题的困难程度,提出从两个方向建模 1)利用Competition的比较:Competition Modelq = {ua ≺q , q ≺ub , ua ≺ub , uo1 ≺ub , · · · , uoM ≺ub } , 2) question Text Similarities for QDE,相似程度的问题具有相…
bast-2015-CIKM CIKM全称是International Conference on Information and Knowledge Management 这篇文章主要采用采用learning-2-rank技术解决实体识别和关系识别. KBQA. 测试webquestion KB:freebase 主要思想,分为2步,实体识别,关系识别:最后通过实体和关系确定答案. 他确定好实体和关系后,构造查询语句查询. 实体部分 模板匹配 参考这个图 关系匹配 答案类型匹配 候选答案的特征…
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | AI研习社 作者|Zonghan Wu 这是一个与图神经网络相关的资源集合.相关资源浏览下方Github项目地址,再点击对应链接跳转下载. 01Github项目地址: https://github.com/nnzhan/Awesome-Graph-Neural-Networks 02调查报告 A Comprehensive Survey on Graph Neural Networks. …
[清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐 图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengyan Zhang and Yushi Bai同学对 GNN 相关的综述论文.模型与应用进行了综述,并发布在 GitHub 上.16大应用包含物理.知识图谱等最新论文整理推荐. GitHub 链接: https://github.com/thunlp/GNNPapers 目录            …
​ 我们生活在一个多模态的世界中.视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知.作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题.从15年首次被提出[1]至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,多模态预训练语言模型-近年来发展迅速. 传统的VQA仅凭借视觉与语言信息的组合来回答问题,而近年来许多研究者开始探索外部信息对于解决VQA任务的…
转自:https://github.com/terryum/awesome-deep-learning-papers Awesome - Most Cited Deep Learning Papers A curated list of the most cited deep learning papers (since 2010) I believe that there exist classic deep learning papers which are worth reading re…