3D Visual Grounding

在看到相关论文的时候,我有一种非常严重的直觉——我的博士课题大概就是做这个了,虽然还没找老师聊。

简要解释:在这个任务中,研究者的主要目标是探索如何利用图像和自然语言文本之间的语义关系,从而实现跨模态信息的理解和应用。比如,可以通过将自然语言中的描述和图像中的实例对应起来,从而实现基于图像的语义搜索、自动图像描述、图像问答等应用。

1、有趣,不解释。

2、问题有很大的挑战性。

2D的模型和任务迁移到3D领域是一个潮流,相对于传统的2D问题迁移到3D来说,Visual Grounding具有更大的挑战性。传统的2D->3D主要面临的问题是维度的变化,其中产生的绝大部分挑战主要来源于算力的不现实,但是他们都有一个共同点,即grounding truth一直不变。而Visual Grounding任务在2D也是不变的,但是迁移到3D之后,产生了一个视角变换的问题,顾grounding truth在场景中是会随着视角变化的,因此和传统的2D问题可以说是一个完全不同的工作。

此外,Visual Grounding涉及领域极其广泛,主要有计算机视觉、自然语言处理、多模态、多视图、目标检测、三维数据建模等等。

3、目前有很多内容可以挖掘。

3D Visual grounding正在呈现一个要火起来的趋势,在顶会中,比较早的文章出现在19年,20年、21年大概一年仅仅出现了10篇,可以说2023年是这个领域刚刚开始的阶段,要火起来,但是还没完全火。与此同时,随着ChatGPT对NLP领域带来的巨大冲击,NLP可能会形成一种新的科研局面,这必将对Visual Grounding带来非常深刻的影响,不仅是在3D还是在2D。

此外,3D Visual Grounding目前仍然在起步阶段,很多小问题并没有人来探索,当然这些小问题需要很大的数据集(目前可能连未开源的数据集都没有)与idea支撑,难度很高,例如:

(1)  目前仅考虑了单一物体,如果描述文本描述的多个物体如何解决? e.g. “我要桌子上左边第一个和第三个杯子。”

(2)  目前仅考虑了确切文本,现实生活中我们很难保证总是说没有任何含糊性的话,如果文本是略带含糊的,如何解决或者如何定义这个问题? e.g. “我要桌子下面的那块抹布。”,但是桌子中间夹层有一块布,桌子下面也有一块布。

(3)  目前对“多视图”的理解仍然十分naïve,毕竟领域刚刚起步,此问题的客观通解是针对任何一个视角都可以根据文本标定目标物体,那人类可以做到这个通解吗?如果可以,如何做到,何时做到?如果不可以,能离这个通解多近?边界又在哪里?(这个问题讨论的前提是支撑得住的,因为人类的智能或者说,动物的智能在任何视角下都可以做到区分,人类也可以十分轻易地想象任意其他视角下的场景情况。)

(4)  从3D数据出发,有三维图片、体素、点云等多种描述方式,针对不同数据的visual grounding会有什么不同?目前主要研究的还是点云,主要原因在于基本只有点云的数据集开源了。

(5)  从具体任务出发,有视角需求分类的问题。比如家用机器人如果只能旋转、抬头、低头,那它所需要的视角就离(3)中定义的通解远得很,因此也就不必要追求通解所要求的答案;但是类似具有隐私要求的工厂车间监控,可能需要一些比较***钻的视角,比如垂直地往下、往上看的视角等等。他们的答案都是通解的一部分,但是通解对于他们来说是没有必要的。

PS:纯属门外汉,刚接触这个领域两三天,请多多指正。

当前我对Visual Grounding的看法的更多相关文章

  1. Multimodal —— 看图说话(Image Caption)任务的论文笔记(三)引入视觉哨兵的自适应attention机制

    在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成captio ...

  2. Awesome Torch

    Awesome Torch This blog from: A curated list of awesome Torch tutorials, projects and communities. T ...

  3. 香侬科技独家对话Facebook人工智能研究院首席科学家Devi Parikh

    Facebook 人工智能研究院(FAIR)首席科学家 Devi Parikh 是 2017 年 IJCAI 计算机和思想奖获得者(IJCAI 两个最重要的奖项之一,被誉为国际人工智能领域的「菲尔兹奖 ...

  4. Paper Reading - Learning to Evaluate Image Captioning ( CVPR 2018 ) ★

    Link of the Paper: https://arxiv.org/abs/1806.06422 Innovations: The authors propose a novel learnin ...

  5. caffeModels--models-caffes-大全

    caffe的伯克利主页:http://caffe.berkeleyvision.org/caffe的github主页:https://github.com/BVLC/caffe caffe的model ...

  6. CVPR 2017 Paper list

    CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View ...

  7. 多模态数据联合Embedding的方法小结

    当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合. 向量拼接.元素级相乘.做 ...

  8. 【单元测试】NUint使用详解及Visual Studio配置

    阅读目录 什么是单元测试? 为什么使用单元测试? NUint使用详解: 示例 属性 断言 简单测试 VS配置: External Tools Visual Nunit 2010 NUnit Test ...

  9. Visual Studio for Mac 简介

    2016-12-13 Hutchinson 微软中国MSDN 在 11 月举行的 Connect(); 上,Microsoft 将推出 Visual Studio for Mac 预览版.这是一个激动 ...

  10. Visual Studio 2013 Preview对C++11的支持

    为期3天的微软Build 2013大会结束了,作为微软一年一度的开发者大会,微软也做足了功夫:很多产品(包括Windows 8.1和Visual Studio 2013 Preview)发布,chan ...

随机推荐

  1. 力扣---45. 跳跃游戏 II

    给定一个长度为 n 的 0 索引整数数组 nums.初始位置为 nums[0].每个元素 nums[i] 表示从索引 i 向前跳转的最大长度.换句话说,如果你在 nums[i] 处,你可以跳转到任意 ...

  2. 线程基础知识 03 synchronized锁(对象在内存的布局和加上锁后对象在内存中的变化)

    1 线程不安全演示 public class ThreadAndLockTest1 { private static int a = 0; public static void main(String ...

  3. 通过URL地址将图片保存到本地

    今天一朋友问我如何通过URL地址将图片保存下来. 特地找了些资源,实现了一下代码: using System; using System.Drawing; using System.Drawing.I ...

  4. 6、Collections工具类

    1.Collections工具类介绍 Collections 是一个操作 Set.List 和 Map 等集合的工具类 Collections 中提供了一系列静态的方法对集合元素进行排序.查询和修改等 ...

  5. Ubuntu/linux下最强大的下载工具-aria2

    aria2 是 Linux 下一个不错的高速下载工具 .由于它具有分段下载引擎,所以支持从多个地址或者从一个地址的多个连接来下载同一个文件.这样自然就大大加快了文件的下载速 度.aria2 也具有断点 ...

  6. 视觉十四讲:第六讲_ceres非线性优化

    使用Ceres求解非线性优化问题,一共分为三个部分: 1. 第一部分:构建cost fuction,即代价函数,也就是寻优的目标式.这个部分需要使用仿函数(functor)这一技巧来实现,做法是定义一 ...

  7. dvwa靶场

    brute force LOW 输入账号密码直接抓包就行 接着ctrl+i传输到intruder模块中 为需要爆破的加上 §,不爆破的不加 选择攻击类型为Cluster bomb,选择username ...

  8. Vue3 ref 模板引用获取不到节点

    ref模板引用必须要在组件实例挂载完成之后才可以访问.如果你是在组合式 API 里面写的组件,那么 setup 函数比任何周期函数都早,所以不可能在该函数中执行时获取得到ref--组件实例. 官网关于 ...

  9. .Net DI(Dependency Injection)依赖注入机制

    1.简介 DI:Dependency Injection,即依赖注入,他是IOC的具体实现. 在DI中,底层服务对象不再负责依赖关系的创建,而是交由顶端调用进行管理注入 好处:降低组件之间的耦合度,使 ...

  10. Reverse for 'blog_detail.html' not found.解决方法

    初学django遇到了以下问题: 查找解决方法的时候发现有以下几个原因: 1.字母打错 2.多加了空格 随后 我发现 报错的代码中多加了'.html'..删掉后就没问题了.