当前我对Visual Grounding的看法
3D Visual Grounding
在看到相关论文的时候,我有一种非常严重的直觉——我的博士课题大概就是做这个了,虽然还没找老师聊。
简要解释:在这个任务中,研究者的主要目标是探索如何利用图像和自然语言文本之间的语义关系,从而实现跨模态信息的理解和应用。比如,可以通过将自然语言中的描述和图像中的实例对应起来,从而实现基于图像的语义搜索、自动图像描述、图像问答等应用。
1、有趣,不解释。
2、问题有很大的挑战性。
2D的模型和任务迁移到3D领域是一个潮流,相对于传统的2D问题迁移到3D来说,Visual Grounding具有更大的挑战性。传统的2D->3D主要面临的问题是维度的变化,其中产生的绝大部分挑战主要来源于算力的不现实,但是他们都有一个共同点,即grounding truth一直不变。而Visual Grounding任务在2D也是不变的,但是迁移到3D之后,产生了一个视角变换的问题,顾grounding truth在场景中是会随着视角变化的,因此和传统的2D问题可以说是一个完全不同的工作。
此外,Visual Grounding涉及领域极其广泛,主要有计算机视觉、自然语言处理、多模态、多视图、目标检测、三维数据建模等等。
3、目前有很多内容可以挖掘。
3D Visual grounding正在呈现一个要火起来的趋势,在顶会中,比较早的文章出现在19年,20年、21年大概一年仅仅出现了10篇,可以说2023年是这个领域刚刚开始的阶段,要火起来,但是还没完全火。与此同时,随着ChatGPT对NLP领域带来的巨大冲击,NLP可能会形成一种新的科研局面,这必将对Visual Grounding带来非常深刻的影响,不仅是在3D还是在2D。
此外,3D Visual Grounding目前仍然在起步阶段,很多小问题并没有人来探索,当然这些小问题需要很大的数据集(目前可能连未开源的数据集都没有)与idea支撑,难度很高,例如:
(1) 目前仅考虑了单一物体,如果描述文本描述的多个物体如何解决? e.g. “我要桌子上左边第一个和第三个杯子。”
(2) 目前仅考虑了确切文本,现实生活中我们很难保证总是说没有任何含糊性的话,如果文本是略带含糊的,如何解决或者如何定义这个问题? e.g. “我要桌子下面的那块抹布。”,但是桌子中间夹层有一块布,桌子下面也有一块布。
(3) 目前对“多视图”的理解仍然十分naïve,毕竟领域刚刚起步,此问题的客观通解是针对任何一个视角都可以根据文本标定目标物体,那人类可以做到这个通解吗?如果可以,如何做到,何时做到?如果不可以,能离这个通解多近?边界又在哪里?(这个问题讨论的前提是支撑得住的,因为人类的智能或者说,动物的智能在任何视角下都可以做到区分,人类也可以十分轻易地想象任意其他视角下的场景情况。)
(4) 从3D数据出发,有三维图片、体素、点云等多种描述方式,针对不同数据的visual grounding会有什么不同?目前主要研究的还是点云,主要原因在于基本只有点云的数据集开源了。
(5) 从具体任务出发,有视角需求分类的问题。比如家用机器人如果只能旋转、抬头、低头,那它所需要的视角就离(3)中定义的通解远得很,因此也就不必要追求通解所要求的答案;但是类似具有隐私要求的工厂车间监控,可能需要一些比较***钻的视角,比如垂直地往下、往上看的视角等等。他们的答案都是通解的一部分,但是通解对于他们来说是没有必要的。
PS:纯属门外汉,刚接触这个领域两三天,请多多指正。
当前我对Visual Grounding的看法的更多相关文章
- Multimodal —— 看图说话(Image Caption)任务的论文笔记(三)引入视觉哨兵的自适应attention机制
在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成captio ...
- Awesome Torch
Awesome Torch This blog from: A curated list of awesome Torch tutorials, projects and communities. T ...
- 香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh
Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项之一,被誉为国际人工智能领域的「菲尔兹奖 ...
- Paper Reading - Learning to Evaluate Image Captioning ( CVPR 2018 ) ★
Link of the Paper: https://arxiv.org/abs/1806.06422 Innovations: The authors propose a novel learnin ...
- caffeModels--models-caffes-大全
caffe的伯克利主页:http://caffe.berkeleyvision.org/caffe的github主页:https://github.com/BVLC/caffe caffe的model ...
- CVPR 2017 Paper list
CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View ...
- 多模态数据联合Embedding的方法小结
当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合. 向量拼接.元素级相乘.做 ...
- 【单元测试】NUint使用详解及Visual Studio配置
阅读目录 什么是单元测试? 为什么使用单元测试? NUint使用详解: 示例 属性 断言 简单测试 VS配置: External Tools Visual Nunit 2010 NUnit Test ...
- Visual Studio for Mac 简介
2016-12-13 Hutchinson 微软中国MSDN 在 11 月举行的 Connect(); 上,Microsoft 将推出 Visual Studio for Mac 预览版.这是一个激动 ...
- Visual Studio 2013 Preview对C++11的支持
为期3天的微软Build 2013大会结束了,作为微软一年一度的开发者大会,微软也做足了功夫:很多产品(包括Windows 8.1和Visual Studio 2013 Preview)发布,chan ...
随机推荐
- dev C++ 调试卡住/遇到endl函数卡住
今天调试一个程序,发现编译运行的时候可以正常运行,但是调试的时候总是在endl那里卡住 分享一个链接杀千刀的dev c++的不能单步调试的问题_老宁宁的博客-CSDN博客 #include<io ...
- IDEA翻译插件translate
1.打开File->Setting 2.plugins->Browse repositories 3.输入"translate",选择排序"Downloads ...
- ctfshow_web入门 反序列化(254~266)
要是没接触过的师傅们,可以先看看这个 web 254 这个题没有考什么,get方式传入payload即可,这里xxxxxx,就是6gex而已 payload: ?username=xxxxxx& ...
- NOIP2022 总结
\(\text{summary}\) 怎么都没想到这次题目那么有新意:把这样的题 \(T2\) 放 \(T2\)...... 策略出现很大问题,赛后也意识到很多选手也会出现同样的问题:死磕 \(T2\ ...
- [IOI2014]friend 朋友
题目传送门 似乎是我的第一篇 IOI 题解? 思路 虽然说是 IOI 题,但是其实并没有那么难. 这个题目描述比较杂乱,简单的描述就是:给你一些关系,你需要选出一些点,使这些点的权值和最大,并且这些点 ...
- xampp修改mysql数据库密码(测试成功)
转载: http://www.360doc.com/content/17/0608/14/8797027_661063783.shtml ------------------------------- ...
- 跳板攻击之:SSH 隧道
跳板攻击之:SSH 隧道 郑重声明: 本笔记编写目的只用于安全知识提升,并与更多人共享安全知识,切勿使用笔记中的技术进行违法活动,利用笔记中的技术造成的后果与作者本人无关.倡导维护网络安全人人有责,共 ...
- 在真实世界中观察目标治疗策略实施1年对初诊RA患者的影响
在真实世界中观察目标治疗策略实施1年对初诊RA患者的影响 Tan AL, et al. Rheumatology 2016.Present ID: 083. 背景:制订目标治疗(T2T)建议是要将获得 ...
- Vue框架整理:computed计算属性设置与缓存
简单的一些小计算可以直接用模板内的表达式计算,比较复杂一点的就建议使用"计算属性来运算了",也方便后期的维护:vue所有的计算属性都以函数的形式写在Vue实例内的computed里 ...
- vue .sync的理解
假如父组件传给子组件的值,子组件接受之后,想要改变父组件传过来的值,就可以使用sync .sync是vue中用于实现简单的"双向绑定"的语法糖,在平时的开发中是非常使用的. vue ...