近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技企业的研发人员齐聚大会,共探计算机视觉、图像处理、模式识别与机器学习前沿技术的发展与应用。

大会现场

VALSE是一个面向计算机视觉与机器学习领域国内外华人青年学者的高规格学术研讨会。本届大会共呈现了3 个大会主旨报告、4个大会特邀报告、12个年度进展报告 (APR)报告、4场讲习班 (Tutorial)、20场研讨会 (Workshop),会议报告总数为历年之最。

今年,VALSE继承了往届大会的主要程序环节,相关报告和展示从内容上涵盖了计算机视觉、图像处理、模式识别与机器学习领域的大部分热点研究方向,研讨了上述研究领域的国内外前沿进展。大会邀请中国工程院院士高文教授,欧洲科学院外籍院士焦李成教授,中科院计算所所长陈熙霖研究员做主旨报告,由VALSE联合创始人山世光研究员主持主旨报告环节。

本届会议Workshop环节专注于视觉知识和多重知识表达、语言文字识别与理解等技术研发及应用热点。文档的智能化处理是计算机视觉在产业中的重要应用方向,现阶段还面临着诸多挑战。作为智能文档处理领域的代表,合合信息出席会议并进行智能文档处理技术研发与实践成果分享。

VALSE Workshop环节,合合信息技术代表就《智能文档图像处理技术应用与实践》主题进行分享

合合信息相关技术人员提到,随着OCR技术应用面的持续拓宽,复杂多变的版面、多样化的文本内容给文档的识别和还原带来了新的挑战。“版面分析与文档还原”技术对提升文档图像电子化的视觉效果、信息提取精准度非常关键,是公司重点发力的方向之一。

文档中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。

版面分析的任务目标被分为物理版面分析和逻辑版面分析两类,前者主要解决区域分割问题,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。

如果无法提升版面分析的精准度,文件材料在被拍照、扫描成电子文档的过程中便可能出现漏字、错位的现象,图片转Word、图片转Excel等“可编辑”性的需求将无法被满足。

“版面分析与文档还原技术能够帮助机器‘看懂’文档结构,让文档电子化获得‘所见即所得’的处理效果。”分享环节中,合合信息技术人员提到,文档图片的格式转化流程中,在检测、识别完出文字信息中的字符、坐标信息,以及版面中段落、印章、表格等元素信息后,机器才能“理解”文档的组成,更好地将图像“还原”成一个可编辑的Word或Excel文件。

合合信息“智能文档处理——文档还原系统架构”展示

据了解,合合信息版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息。

合合信息“版面分析与还原”技术处理效果展示

未来,合合信息将持续为全球企业和个人用户提供创新的数字化、智能化服务,助力个人文档处理效率提升,加速企业全生命周期文档电子化进程。

计算机视觉重磅会议VAlSE2023召开,合合信息分享智能文档处理技术前沿进展的更多相关文章

  1. Java 导出数据库表信息生成Word文档

    一.前言 最近看见朋友写了一个导出数据库生成word文档的业务,感觉很有意思,研究了一下,这里也拿出来与大家分享一波~ 先来看看生成的word文档效果吧 下面我们也来一起简单的实现吧 二.Java 导 ...

  2. IM聊实现客户端之间信息交互需求文档

    终于放假啦~之前学习太忙很多知识点都没有写博客,可能自己学会了但没有分享给大家,接下来几天我可能把一些学过的东西整理成博客发出来供大家相互学习交流. 需求分析说明书 HuaXinIM聊软件 潘浩 20 ...

  3. 微信小程序——demo合集及简单的文档解读【五】

    官方Demo https://github.com/wechat-miniprogram/miniprogram-demo 其他Demo https://www.cnblogs.com/ytkah/p ...

  4. 解决SharePoint 文档库itemadded eventhandler导致的上传完成后,编辑页面保持报错的问题,错误信息为“该文档已经被编辑过 the file has been modified by...”

    在文档库中添加itemadded 后,在上传文件后,会自动打开文档属性的编辑页面,在保存的时候就会报错,说这个文档已经被编辑过了.这是应为默认itemadded实践是异步执行的,会在edit页面打开之 ...

  5. (转)ceph 常用 运维命令--查看信息 - 不错的文档

    下面是测试验证环节 1. 创建一个 pool rbd create foo --size 4 --image-format 2 --image-feature layering 2. 挂载和格式化 r ...

  6. 使用pdfFactory隐藏文档中的隐私信息

    分享PDF文档时,文档中可能会存在一些隐私信息,比如用户名.用户的邮件地址.电话号码等信息.为了更好地保护原有文档内容的完整性,大家可以在生成PDF时,使用pdfFactory的隐藏信息功能,删除或遮 ...

  7. 【前端优化之拆分CSS】前端三剑客的分分合合

    几年前,我们这样写前端代码: <div id="el" style="......" onclick="......">测试&l ...

  8. Tidyverse|数据列的分分合合,爱恨情仇

    Tidyverse|数据列的分分合合,爱恨情仇 本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一 TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要. 比如基因 ...

  9. 【Python自动化Excel】pandas处理Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

  10. 【Python自动化Excel】pandas操作Excel的“分分合合”

    话说Excel数据表,分久必合.合久必分.Excel数据表的"分"与"合"是日常办公中常见的操作.手动操作并不困难,但数据量大了之后,重复性操作往往会令人崩溃. ...

随机推荐

  1. CPU内部的奥秘:代码是如何被执行的?

    我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 本文作者:景明 我们以一段 C 代码为例,来看一下代码被编译成二进制 ...

  2. 二进制安装Kubernetes(k8s) v1.25.0 IPv4/IPv6双栈

    二进制安装Kubernetes(k8s) v1.25.0 IPv4/IPv6双栈 Kubernetes 开源不易,帮忙点个star,谢谢了 介绍 kubernetes(k8s)二进制高可用安装部署,支 ...

  3. 创建SpringBoot项目,在yml中配置数据库, driver-class-name: com.mysql.cj.jdbc.Driver标红报错解决方式

    一.报错原因 com.mysql.cj.jdbc.Driver一直标红报错,原因在于pom.xml中mysql包没有下载下来,或者在创建项目的时候有问题 二.解决方案 在pom.xml添加 <d ...

  4. 开心档之MySQL WHERE 子句

    MySQL WHERE 子句 我们知道从 MySQL 表中使用 SQL SELECT 语句来读取数据. 如需有条件地从表中选取数据,可将 WHERE 子句添加到 SELECT 语句中. 语法 以下是 ...

  5. (一)pyahocorasick和marisa_trie,字符串快速查找的python包,自然语言处理,命名实体识别可用的高效包

    Pyahocorasick Pyahocorasick是一个基于AC自动机算法的字符串匹配工具.它可以用于快速查找多个短字符串在一个长字符串中的所有出现位置.Pyahocorasick可以在构建状态机 ...

  6. [C++基础入门] 8、结构体

    文章目录 8 结构体 8.1 结构体基本概念 8.2 结构体定义和使用 8.3 结构体数组 8.4 结构体指针 8.5 结构体嵌套结构体 8.6 结构体做函数参数 8.7 结构体中 const使用场景 ...

  7. [人脸活体检测] 论文:Aurora Guard- Real-Time Face Anti-Spoofing via Light Reflection

    Aurora Guard- Real-Time Face Anti-Spoofing via Light Reflection 论文简介 该论文提出的方法已经部署到百万台终端,整篇文章底气十足.作者设 ...

  8. Linux中重定向应注意的事情

    引言 你是否见过bash ... 2>&1 1>file.txt的写法? 还没发现这样的写法有什么问题? 那么恭喜你, 看完本文你又将学会一个新知识! 重定向的错误用法 以引言中命 ...

  9. python列表函数的基本使用

    一.列表简介 序列是Python最常见的操作,是最经常使用的一种数据操作.列表是当前序列中使用最多的. 序列中的每一个值对应的位置,称之为索引.通常情景下,第一个索引是位置为0,第二个索引位置为1.. ...

  10. 2023-03-25:若两个正整数的和为素数,则这两个正整数称之为“素数伴侣“。 给定N(偶数)个正整数中挑选出若干对,组成“素数伴侣“, 例如有4个正整数:2,5,6,13, 如果将5和6分为一组的

    2023-03-25:若两个正整数的和为素数,则这两个正整数称之为"素数伴侣". 给定N(偶数)个正整数中挑选出若干对,组成"素数伴侣", 例如有4个正整数:2 ...