当前我对Visual Grounding的看法
3D Visual Grounding
在看到相关论文的时候,我有一种非常严重的直觉——我的博士课题大概就是做这个了,虽然还没找老师聊。
简要解释:在这个任务中,研究者的主要目标是探索如何利用图像和自然语言文本之间的语义关系,从而实现跨模态信息的理解和应用。比如,可以通过将自然语言中的描述和图像中的实例对应起来,从而实现基于图像的语义搜索、自动图像描述、图像问答等应用。
1、有趣,不解释。
2、问题有很大的挑战性。
2D的模型和任务迁移到3D领域是一个潮流,相对于传统的2D问题迁移到3D来说,Visual Grounding具有更大的挑战性。传统的2D->3D主要面临的问题是维度的变化,其中产生的绝大部分挑战主要来源于算力的不现实,但是他们都有一个共同点,即grounding truth一直不变。而Visual Grounding任务在2D也是不变的,但是迁移到3D之后,产生了一个视角变换的问题,顾grounding truth在场景中是会随着视角变化的,因此和传统的2D问题可以说是一个完全不同的工作。
此外,Visual Grounding涉及领域极其广泛,主要有计算机视觉、自然语言处理、多模态、多视图、目标检测、三维数据建模等等。
3、目前有很多内容可以挖掘。
3D Visual grounding正在呈现一个要火起来的趋势,在顶会中,比较早的文章出现在19年,20年、21年大概一年仅仅出现了10篇,可以说2023年是这个领域刚刚开始的阶段,要火起来,但是还没完全火。与此同时,随着ChatGPT对NLP领域带来的巨大冲击,NLP可能会形成一种新的科研局面,这必将对Visual Grounding带来非常深刻的影响,不仅是在3D还是在2D。
此外,3D Visual Grounding目前仍然在起步阶段,很多小问题并没有人来探索,当然这些小问题需要很大的数据集(目前可能连未开源的数据集都没有)与idea支撑,难度很高,例如:
(1) 目前仅考虑了单一物体,如果描述文本描述的多个物体如何解决? e.g. “我要桌子上左边第一个和第三个杯子。”
(2) 目前仅考虑了确切文本,现实生活中我们很难保证总是说没有任何含糊性的话,如果文本是略带含糊的,如何解决或者如何定义这个问题? e.g. “我要桌子下面的那块抹布。”,但是桌子中间夹层有一块布,桌子下面也有一块布。
(3) 目前对“多视图”的理解仍然十分naïve,毕竟领域刚刚起步,此问题的客观通解是针对任何一个视角都可以根据文本标定目标物体,那人类可以做到这个通解吗?如果可以,如何做到,何时做到?如果不可以,能离这个通解多近?边界又在哪里?(这个问题讨论的前提是支撑得住的,因为人类的智能或者说,动物的智能在任何视角下都可以做到区分,人类也可以十分轻易地想象任意其他视角下的场景情况。)
(4) 从3D数据出发,有三维图片、体素、点云等多种描述方式,针对不同数据的visual grounding会有什么不同?目前主要研究的还是点云,主要原因在于基本只有点云的数据集开源了。
(5) 从具体任务出发,有视角需求分类的问题。比如家用机器人如果只能旋转、抬头、低头,那它所需要的视角就离(3)中定义的通解远得很,因此也就不必要追求通解所要求的答案;但是类似具有隐私要求的工厂车间监控,可能需要一些比较***钻的视角,比如垂直地往下、往上看的视角等等。他们的答案都是通解的一部分,但是通解对于他们来说是没有必要的。
PS:纯属门外汉,刚接触这个领域两三天,请多多指正。
当前我对Visual Grounding的看法的更多相关文章
- Multimodal —— 看图说话(Image Caption)任务的论文笔记(三)引入视觉哨兵的自适应attention机制
在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成captio ...
- Awesome Torch
Awesome Torch This blog from: A curated list of awesome Torch tutorials, projects and communities. T ...
- 香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh
Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项之一,被誉为国际人工智能领域的「菲尔兹奖 ...
- Paper Reading - Learning to Evaluate Image Captioning ( CVPR 2018 ) ★
Link of the Paper: https://arxiv.org/abs/1806.06422 Innovations: The authors propose a novel learnin ...
- caffeModels--models-caffes-大全
caffe的伯克利主页:http://caffe.berkeleyvision.org/caffe的github主页:https://github.com/BVLC/caffe caffe的model ...
- CVPR 2017 Paper list
CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View ...
- 多模态数据联合Embedding的方法小结
当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合. 向量拼接.元素级相乘.做 ...
- 【单元测试】NUint使用详解及Visual Studio配置
阅读目录 什么是单元测试? 为什么使用单元测试? NUint使用详解: 示例 属性 断言 简单测试 VS配置: External Tools Visual Nunit 2010 NUnit Test ...
- Visual Studio for Mac 简介
2016-12-13 Hutchinson 微软中国MSDN 在 11 月举行的 Connect(); 上,Microsoft 将推出 Visual Studio for Mac 预览版.这是一个激动 ...
- Visual Studio 2013 Preview对C++11的支持
为期3天的微软Build 2013大会结束了,作为微软一年一度的开发者大会,微软也做足了功夫:很多产品(包括Windows 8.1和Visual Studio 2013 Preview)发布,chan ...
随机推荐
- 构建api gateway之 openresty 中如何使用 wasm
openresty 中如何使用 wasm WASM 是什么? WebAssembly是一种运行在现代网络浏览器中的新型代码,并且提供新的性能特性和效果.它设计的目的不是为了手写代码而是为诸如C.C++ ...
- ROS自定义数据类型
1.简介 自定义数据包可以在使用数据的功能包内进行创建,也可以单独创建一个功能包来专门进行自定义数据类型. 1.步骤: 1.创建一个功能包 进入工作空间catkin_ws/src catkin_cre ...
- 【模板】动态树(Link Cut Tree)
模板 \(\text{Code}\) #include <cstdio> #include <iostream> #define IN inline #define RE re ...
- 双端队列xLIS问题
题目大意 有 \(N\) 个数 \(A_i\) ,他准备将他们依次插入一个双端队列(每次可以在头或尾插入一个元素),最后将 整个队列从尾到头看成一个序列,求出最长上升子序列的长度 .他想知道 , \( ...
- git 合并dev分支到 master分支 (merge)
## 查看分支列表 $ git branch -a ## 切换到本地dev分支 $ git checkout dev ## 更新本地dev 分支 $ git pull ## 切换到master 分支 ...
- Canvas:绘制圆形
函数 arc(x, y, radius, startAngle, endAngle, counterclockwise) 参数名 描述 x.y 圆心坐标轴 radius 圆的半径 startAngle ...
- 基于JavaScript的OpenGL 01 之Hello Triangle
1. 引言 本文基于JavaScript语言,描述OpenGL(即,WebGL)的绘制流程,这里描述的是OpenGL的核心模式(Core-profile) 笔者这里不过多描述每个名词.函数和细节,更详 ...
- Vue ref属性
ref属性 1.被用来给元素或子组件注册引用信息(id的替代者) 2.应用在html标签上获取的是真实DOM元素: 应用在组件标签上是组件实例对象 vc 3.使用方法: (1)打标识:<h1 r ...
- 回顾——Dom节点类型
DOM 节点 在 HTML DOM 中,所有事物都是节点.DOM 是被视为节点树的 HTML. 根据 W3C 的 HTML DOM 标准,HTML 文档中的所有内容都是节点: 整个文档是一个文档节点 ...
- 【8】java之引用传递
一.引用传递 引用传递是整个 java 的精髓所在 引用传递核心意义:同一块堆内存空间可以被不同的栈内存所指向,不同栈内存可以对同一块堆内存内容进行修改. 范例:第一道引用传递范例 class Me ...