当前我对Visual Grounding的看法
3D Visual Grounding
在看到相关论文的时候,我有一种非常严重的直觉——我的博士课题大概就是做这个了,虽然还没找老师聊。
简要解释:在这个任务中,研究者的主要目标是探索如何利用图像和自然语言文本之间的语义关系,从而实现跨模态信息的理解和应用。比如,可以通过将自然语言中的描述和图像中的实例对应起来,从而实现基于图像的语义搜索、自动图像描述、图像问答等应用。
1、有趣,不解释。
2、问题有很大的挑战性。
2D的模型和任务迁移到3D领域是一个潮流,相对于传统的2D问题迁移到3D来说,Visual Grounding具有更大的挑战性。传统的2D->3D主要面临的问题是维度的变化,其中产生的绝大部分挑战主要来源于算力的不现实,但是他们都有一个共同点,即grounding truth一直不变。而Visual Grounding任务在2D也是不变的,但是迁移到3D之后,产生了一个视角变换的问题,顾grounding truth在场景中是会随着视角变化的,因此和传统的2D问题可以说是一个完全不同的工作。
此外,Visual Grounding涉及领域极其广泛,主要有计算机视觉、自然语言处理、多模态、多视图、目标检测、三维数据建模等等。
3、目前有很多内容可以挖掘。
3D Visual grounding正在呈现一个要火起来的趋势,在顶会中,比较早的文章出现在19年,20年、21年大概一年仅仅出现了10篇,可以说2023年是这个领域刚刚开始的阶段,要火起来,但是还没完全火。与此同时,随着ChatGPT对NLP领域带来的巨大冲击,NLP可能会形成一种新的科研局面,这必将对Visual Grounding带来非常深刻的影响,不仅是在3D还是在2D。
此外,3D Visual Grounding目前仍然在起步阶段,很多小问题并没有人来探索,当然这些小问题需要很大的数据集(目前可能连未开源的数据集都没有)与idea支撑,难度很高,例如:
(1) 目前仅考虑了单一物体,如果描述文本描述的多个物体如何解决? e.g. “我要桌子上左边第一个和第三个杯子。”
(2) 目前仅考虑了确切文本,现实生活中我们很难保证总是说没有任何含糊性的话,如果文本是略带含糊的,如何解决或者如何定义这个问题? e.g. “我要桌子下面的那块抹布。”,但是桌子中间夹层有一块布,桌子下面也有一块布。
(3) 目前对“多视图”的理解仍然十分naïve,毕竟领域刚刚起步,此问题的客观通解是针对任何一个视角都可以根据文本标定目标物体,那人类可以做到这个通解吗?如果可以,如何做到,何时做到?如果不可以,能离这个通解多近?边界又在哪里?(这个问题讨论的前提是支撑得住的,因为人类的智能或者说,动物的智能在任何视角下都可以做到区分,人类也可以十分轻易地想象任意其他视角下的场景情况。)
(4) 从3D数据出发,有三维图片、体素、点云等多种描述方式,针对不同数据的visual grounding会有什么不同?目前主要研究的还是点云,主要原因在于基本只有点云的数据集开源了。
(5) 从具体任务出发,有视角需求分类的问题。比如家用机器人如果只能旋转、抬头、低头,那它所需要的视角就离(3)中定义的通解远得很,因此也就不必要追求通解所要求的答案;但是类似具有隐私要求的工厂车间监控,可能需要一些比较***钻的视角,比如垂直地往下、往上看的视角等等。他们的答案都是通解的一部分,但是通解对于他们来说是没有必要的。
PS:纯属门外汉,刚接触这个领域两三天,请多多指正。
当前我对Visual Grounding的看法的更多相关文章
- Multimodal —— 看图说话(Image Caption)任务的论文笔记(三)引入视觉哨兵的自适应attention机制
在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成captio ...
- Awesome Torch
Awesome Torch This blog from: A curated list of awesome Torch tutorials, projects and communities. T ...
- 香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh
Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项之一,被誉为国际人工智能领域的「菲尔兹奖 ...
- Paper Reading - Learning to Evaluate Image Captioning ( CVPR 2018 ) ★
Link of the Paper: https://arxiv.org/abs/1806.06422 Innovations: The authors propose a novel learnin ...
- caffeModels--models-caffes-大全
caffe的伯克利主页:http://caffe.berkeleyvision.org/caffe的github主页:https://github.com/BVLC/caffe caffe的model ...
- CVPR 2017 Paper list
CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View ...
- 多模态数据联合Embedding的方法小结
当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合. 向量拼接.元素级相乘.做 ...
- 【单元测试】NUint使用详解及Visual Studio配置
阅读目录 什么是单元测试? 为什么使用单元测试? NUint使用详解: 示例 属性 断言 简单测试 VS配置: External Tools Visual Nunit 2010 NUnit Test ...
- Visual Studio for Mac 简介
2016-12-13 Hutchinson 微软中国MSDN 在 11 月举行的 Connect(); 上,Microsoft 将推出 Visual Studio for Mac 预览版.这是一个激动 ...
- Visual Studio 2013 Preview对C++11的支持
为期3天的微软Build 2013大会结束了,作为微软一年一度的开发者大会,微软也做足了功夫:很多产品(包括Windows 8.1和Visual Studio 2013 Preview)发布,chan ...
随机推荐
- ft5426触摸屏I2C
触摸的点数, 先写入地址0x38, 寄存器0x02, 再次读取0x38的数据,得到1个触摸点 读取全部坐标信息,需要读入30字节数据
- Vue中组件和插件的区别
一.组件是什么 1:组件的定义: 组件就是把图形.非图形的各种逻辑均抽象为一个统一的概念(组件)来实现开发的模式,在Vue中每一个.vue文件都可以视为一个组件 2:组件的优势 降低整个系统的耦合度, ...
- [Ynoi2016] 掉进兔子洞
\(\text{Solution}\) 莫队配合 \(\text{bitset}\) 发现答案困难的部分在于同一个数在三个区间出现次数的最小值 考虑强行拆开看,用莫队处理出每个区间每个数的出现次数,这 ...
- JZOJ 3736. 【NOI2014模拟7.11】数学题
\(\text{Problem}\) 给出向量 \(\boldsymbol a = (x1,y1), \boldsymbol b = (x2,y2)\) 求 \(|\lambda_1\boldsymb ...
- noip2020模拟赛 背包 (knapsack)
题目 区间 \(01\) 背包 \(1 \le l_i \le r_i \le n \le 20000,1 \le q \le 100000,1 \le m_i \le 500, 1 \le w_i ...
- Linux服务器数据备份恢复
转载csdn: https://blog.csdn.net/weixin_33794672/article/details/92894022
- 爆肝200+小时,总结出的 Creator 3.x 入门修炼指南!全免费
大家好,我是晓衡! 为了写这篇文章,给支持公众号的读者们一个交代,我准备了200+小时,公众号断更11天.我决定,不再选择逃避,不想再欺骗自己了. 2023新年开工,不到十天时间,接二连三有小伙伴找到 ...
- OpenAI Chat completion API 入门指南
Chat completion API 入门指南 ChatGPT 由 OpenAI 最先进的语言模型 gpt-3.5-turbo 提供支持. 使用 OpenAI API,您可以使用 GPT-3.5-t ...
- 苹果手机iframe高度设定不生效而且无法滑动
为iframe加个div.d1 .d1{ -webkit-overflow-scrolling: touch; overflow-y: scroll; height: 500px; 最好加上固定的高度 ...
- Classical Cipher
[NPUCTF2020]Classical Cipher 难得做到一道古典密码的题目,打开后有一个flag.zip和一个提示. 解密后的flag请用flag{}包裹 压缩包密码:gsv_pvb_rh_ ...