RoD-TAL:罗马尼亚驾照考试问答基准
RoD-TAL:罗马尼亚驾照考试问答基准
人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长,特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务,评估大语言模型(LLMs)和视觉语言模型(VLMs)对罗马尼亚驾驶法律的理解与推理能力。
为此,我们提出了RoD-TAL——一个新颖的多模态数据集,包含罗马尼亚驾驶考试中的文本和图像类试题,并附带法律条款标注和人工解释。我们实现并评估了以下技术方案:
- 检索增强生成(RAG)流水线
- 稠密检索器
- 针对推理任务优化的模型
实验覆盖四大任务场景:
- 信息检索(IR)
- 问答系统(QA)
- 视觉信息检索(Visual IR)
- 视觉问答(Visual QA)
关键发现:
- 领域特定微调显著提升检索性能
- 思维链提示(chain-of-thought)和专用推理模型可将QA准确率提升至超过驾照考试及格线
- 视觉推理仍存在明显挑战
本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码

RoD-TAL:罗马尼亚驾照考试问答基准的更多相关文章
- 深度学习综述(LeCun、Bengio和Hinton)
原文摘要:深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示.这些方法在很多方面都带来了显著的改善,包含最先进的语音识别.视觉对象识别.对象检測和很多其他领域,比如药物发现和基 ...
- Ext JS - 问答
Ext JS - 问答 在下面你将可以找到关于Ext JS 的最常见问题的答复.如果没有找到您所需的答复,请访问 Ext JS 论坛或者提交一个支持申请. 如果你确信你的问题可以对本页有补充,请让我们 ...
- https问答篇
https问答 SSL和TLS有什么区别? 可以说,TLS是SSL的升级版本,SSL是网景公司设计的,为了最早期的网络安全而生,它的全名叫做"安全套接层".后来,IETF在1999 ...
- 关于ArcGIS的Web 3D GIS问答
以下问答基于ArcGIS 10.4版本,涉及的软件有 ArcGIS for Server ArcGIS for Desktop ArcGIS Pro 1.3 Esri Drone2Map 1 支持B/ ...
- Linux常见疑难问答
Linux常见疑难问答 (1)按a~z顺序排列启动服务进程. #exportLC_ALL=C #英文环境变量设置,主要用于解决乱码问题 #chkconfig –list | gre ...
- 带隙基准(Bandgap,BG)
Bandgap voltage reference,常常有人简单地称它为Bandgap.最经典的带隙基准是利用一个与温度成正比的电压与一个与温度成反比的电压之和,二者温度系数相互抵消,实现与温度无关的 ...
- [python](爬虫)如何使用正确的姿势欣赏知乎的“长得好看是怎样一种体验呢?”问答中的相片
从在知乎关注了几个大神,我发现我知乎的主页画风突变.经常会出现 ***长得好看是怎样一种体验呢? 不用***,却长得好看是一种怎样的体验? 什么样***作为头像? ... 诸如此类的问答.点进去之后发 ...
- JAVA多线程和并发基础面试问答(转载)
JAVA多线程和并发基础面试问答 原文链接:http://ifeve.com/java-multi-threading-concurrency-interview-questions-with-ans ...
- 图灵机器人(问答机器人)API调用示例
问答机器人API文档:https://www.juhe.cn/docs/api/id/112 先上图: 说下大致实现的步骤: 1.首先使用了聚合数据的sdk,这样免费使用的数目可以多一些 2.使用gs ...
- BZOJ3636: 教义问答手册
Description “汉中沃野如关中,四五百里烟蒙蒙.黄云连天夏麦熟,水稻漠漠吹秋风.”——摘自 黄裳<汉中行>“泉岭精神不朽,汉中诸球永生.”——摘自<泉岭精神创立者语录> ...
随机推荐
- 操作系统:linux -- 虚拟文件系统如何管理文件
本节来瞧下Linux是如何管理文件,也验证下Linux那句口号:一切皆文件 为此,我们需要首先搞清楚什么是 VFS,接着理清为了实现 VFS 所用到的数据结构,然后看看一个文件的打开.读写.关闭的过程 ...
- 快速查看kafka消息内容(支持指定group)
下载开源的 kafka 界面客户端 KafkaKing:https://github.com/Bronya0/Kafka-King 在成功下载该客户端后,进行连接操作.连接完毕后,切换到 consum ...
- java LocalDateTime 加减当前时间
LocalDateTime 可以对当前时间进行加减,在LocalDateTime类中,以plus打头的方法是增加某项时间,如plusDays的请求参数表示将要增加的天数,但是可以为负值:以minu ...
- manim边做边学--隐函数图像
在数学可视化中,显函数$ y=f(x) \(相对容易处理,但**隐函数**\) F(x,y)=0 $的绘制则更具挑战性. Manim库中的ImplicitFunction类专门用于解决这个问题,它能够 ...
- Linux服务器(CentOS/Ubuntu)接口Bond模式详解、配置指南及交换机对应接口的配置示例
以下是关于Linux服务器(CentOS/Ubuntu)与交换机对接的接口Bond模式详解.配置指南及交换机配置示例(思科/华为/华三) 的全面说明: 一.Linux Bonding 模式对比 模式 ...
- pytorch入门 - AlexNet神经网络
AlexNet背景 AlexNet是2012年由Alex Krizhevsky.Ilya Sutskever和Geoffrey Hinton提出的深度卷积神经网络架构. 它在ImageNet大规模视觉 ...
- 在idea里面如何配置自己的tomcat
第一:到官网上去下载自己电脑对应的tomcat版本 第二:下载后解压 在bin目录里面找到: 双击打开是不是会出现: 然后再在bin里面找到:shutdown.bat 双击给他关闭了 第三:在我的电脑 ...
- Python 潮流周刊#106:PEP-734 正式接纳,多解释器时代来临(摘要)
本周刊由 Python猫 出品,精心筛选国内外的 400+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...
- 多多行动,Action And Think Not Thinking Thinking But Not Action
行动和思考 为什么道理大家都懂,还是过不好我们自己的生活呢? 其实从小到大,我们了解和接触的大道理以及理论知识已经很多了,很多高深的哲学思想,有可能在我们小学的时候已经接触到了.种瓜得瓜,种豆得豆.一 ...
- 商品中心—10.商品B端搜索系统的说明文档
大纲 1.商品B端搜索系统的运行流程 + 缓存和索引设计 2.商品B端搜索系统监听数据变更与写入ES索引 3.商品B端搜索系统的历史搜索词的实现 4.商品B端搜索系统的搜索词补全的实现 5.商品B端搜 ...