当前我对Visual Grounding的看法

3D Visual Grounding

在看到相关论文的时候，我有一种非常严重的直觉——我的博士课题大概就是做这个了，虽然还没找老师聊。

简要解释：在这个任务中，研究者的主要目标是探索如何利用图像和自然语言文本之间的语义关系，从而实现跨模态信息的理解和应用。比如，可以通过将自然语言中的描述和图像中的实例对应起来，从而实现基于图像的语义搜索、自动图像描述、图像问答等应用。

1、有趣，不解释。

2、问题有很大的挑战性。

2D的模型和任务迁移到3D领域是一个潮流，相对于传统的2D问题迁移到3D来说，Visual Grounding具有更大的挑战性。传统的2D->3D主要面临的问题是维度的变化，其中产生的绝大部分挑战主要来源于算力的不现实，但是他们都有一个共同点，即grounding truth一直不变。而Visual Grounding任务在2D也是不变的，但是迁移到3D之后，产生了一个视角变换的问题，顾grounding truth在场景中是会随着视角变化的，因此和传统的2D问题可以说是一个完全不同的工作。

此外，Visual Grounding涉及领域极其广泛，主要有计算机视觉、自然语言处理、多模态、多视图、目标检测、三维数据建模等等。

3、目前有很多内容可以挖掘。

3D Visual grounding正在呈现一个要火起来的趋势，在顶会中，比较早的文章出现在19年，20年、21年大概一年仅仅出现了10篇，可以说2023年是这个领域刚刚开始的阶段，要火起来，但是还没完全火。与此同时，随着ChatGPT对NLP领域带来的巨大冲击，NLP可能会形成一种新的科研局面，这必将对Visual Grounding带来非常深刻的影响，不仅是在3D还是在2D。

此外，3D Visual Grounding目前仍然在起步阶段，很多小问题并没有人来探索，当然这些小问题需要很大的数据集（目前可能连未开源的数据集都没有）与idea支撑，难度很高，例如：

（1）目前仅考虑了单一物体，如果描述文本描述的多个物体如何解决？ e.g. “我要桌子上左边第一个和第三个杯子。”

（2）目前仅考虑了确切文本，现实生活中我们很难保证总是说没有任何含糊性的话，如果文本是略带含糊的，如何解决或者如何定义这个问题？ e.g. “我要桌子下面的那块抹布。”，但是桌子中间夹层有一块布，桌子下面也有一块布。

（3）目前对“多视图”的理解仍然十分naïve，毕竟领域刚刚起步，此问题的客观通解是针对任何一个视角都可以根据文本标定目标物体，那人类可以做到这个通解吗？如果可以，如何做到，何时做到？如果不可以，能离这个通解多近？边界又在哪里？（这个问题讨论的前提是支撑得住的，因为人类的智能或者说，动物的智能在任何视角下都可以做到区分，人类也可以十分轻易地想象任意其他视角下的场景情况。）

（4）从3D数据出发，有三维图片、体素、点云等多种描述方式，针对不同数据的visual grounding会有什么不同？目前主要研究的还是点云，主要原因在于基本只有点云的数据集开源了。

（5）从具体任务出发，有视角需求分类的问题。比如家用机器人如果只能旋转、抬头、低头，那它所需要的视角就离（3）中定义的通解远得很，因此也就不必要追求通解所要求的答案；但是类似具有隐私要求的工厂车间监控，可能需要一些比较***钻的视角，比如垂直地往下、往上看的视角等等。他们的答案都是通解的一部分，但是通解对于他们来说是没有必要的。

PS：纯属门外汉，刚接触这个领域两三天，请多多指正。

当前我对Visual Grounding的看法的更多相关文章

Multimodal —— 看图说话（Image Caption）任务的论文笔记（三）引入视觉哨兵的自适应attention机制
在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成captio ...
Awesome Torch
Awesome Torch This blog from: A curated list of awesome Torch tutorials, projects and communities. T ...
香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh
Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项之一,被誉为国际人工智能领域的「菲尔兹奖 ...
Paper Reading - Learning to Evaluate Image Captioning ( CVPR 2018 ) ★
Link of the Paper: https://arxiv.org/abs/1806.06422 Innovations: The authors propose a novel learnin ...
caffeModels--models-caffes-大全
caffe的伯克利主页:http://caffe.berkeleyvision.org/caffe的github主页:https://github.com/BVLC/caffe caffe的model ...
CVPR 2017 Paper list
CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View ...
多模态数据联合Embedding的方法小结
当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合. 向量拼接.元素级相乘.做 ...
【单元测试】NUint使用详解及Visual Studio配置
阅读目录什么是单元测试? 为什么使用单元测试? NUint使用详解: 示例属性断言简单测试 VS配置: External Tools Visual Nunit 2010 NUnit Test ...
Visual Studio for Mac 简介
2016-12-13 Hutchinson 微软中国MSDN 在 11 月举行的 Connect(); 上,Microsoft 将推出 Visual Studio for Mac 预览版.这是一个激动 ...
Visual Studio 2013 Preview对C++11的支持
为期3天的微软Build 2013大会结束了,作为微软一年一度的开发者大会,微软也做足了功夫:很多产品(包括Windows 8.1和Visual Studio 2013 Preview)发布,chan ...

随机推荐

关于Mysql外键从新学习
关于Mysql外键从新学习参考:https://blog.csdn.net/u010373419/article/details/9321331 说实话,这是一个抄剩饭的文档. 为什么会从新学习外键 ...
线程基础知识 04 synchronized锁的四种状态和升级
转https://www.cnblogs.com/mingyueyy/p/13054296.html 1 轻量级锁和重量级锁简要说明线程调度本来是由操作系统来管理的.现在,操作系统上跑了一个虚拟机J ...
线程基础知识-CountDownLatch
转:https://blog.csdn.net/hbtj_1216/article/details/109655995 1 概念1.1 简介 CountDownLatch是一个同步工具类,它允许一个或 ...
使用nvm时报错：exit status 1: ļ Ѵ ʱ ޷ ļ 的解决办法
1.出现问题如图,安装完nvm后,使用[nvm use 版本号]命令切换版本,出现如题错误,具体截图如下 2.分析原因 1)安装路径是否包含中文 2)安装路径有空格 3)cmd使用是否是管理员方式打 ...
快速上手Java开发工具Eclipse之简易手册
Eclipse下载,可以下载最新版本,文档是以2020-12R版本为例 http://www.eclipse.org/downloads/ 下载Packages即可安装Eclipse 解压安装除了 ...
使用SpringBoot简单实现WebRTC群聊会议室（Mesh方案）
近期需要做一个类似会议室功能,但网络上大多数是一对一通信,故记录分享希望帮助到有用的人 WebRTC一对一聊天原理关于WebRTC建立一对一聊天的模板网上很多,可参考以下博客:springboot+ ...
TCP/IP协议(1): IP 地址和寻址方式 —— IP 协议的基础
TCP/IP协议(1): IP 地址和寻址方式 -- IP 协议的基础最近在重学计算机网络,给自己立一个 flag,有感而发的时候写关于 TCP/IP 协议栈的系列博客. IP 地址 IP 地址(I ...
xr32f429开发环境搭建
XR32是全志科技的一款MCU芯片,基本参数如下所示: 环境的搭建首先是下载芯片对应的资料和手册(QQ群723687715)软硬件资料官网工具下载:注册全志服务平台下载无线连接工具和无线MCU 工 ...
windows pwn（一）
前言前几天因为看CS shellcode装了一个win10虚拟机,然后正好因为逆向课老师要装一系列工具.于是就想起来之前一直想看的windows pwn,就顺便装了一下相关工具并且入门了一下. 工具 ...
CPU持续100%分析并解决
背景接到客户电话,说某系统数据库服务器CPU利用率从上午8点开始到现在基本上都是100%的情况,影响到了业务.让给看看是什么原因导致的,怎么紧急处理一下. 现象查看CPU利用率,确实一直是90%以 ...

当前我对Visual Grounding的看法

当前我对Visual Grounding的看法的更多相关文章

随机推荐

热门专题