摘要:在此解决方案中把表格识别分成了四个部分:表格结构序列识别.文字检测.文字识别.单元格和文字框对齐.其中表格结构序列识别用到的模型是基于Master修改的,文字检测模型用到的是PSENet,文字识别用到的是Master模型. 本文分享自华为云社区<论文解读二十八:表格识别模型TableMaster>,作者: cver. 1. 概述 在表格识别中,模型一般先回归出单元格的坐标,然后再根据单元格的坐标得到表格的行列信息.对于有表格线的场景,模型可以比较准确地获取单元格坐标,进而可以利用单元格坐…
摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留的图卷积神经网络架构(LPD-GCN)>,原文作者:PG13 . 近些年,很多研究者开发了许多基于图卷积网络的方法用于图级表示学习和分类应用.但是,当前的图卷积网络方法无法有效地保留图的局部信息,这对于图分类任务尤其严重,因为图分类目标是根据其学习的图级表示来区分不同的图结构.为了解决该问题,这篇文章提…
摘要:本文提出了一种针对文字识别的半监督方法.区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计. 本文分享自华为云社区<[CVPR 2022] 不使用人工标注提升文字识别器性能>,作者:Hint. 本文提出了一种针对文字识别的半监督方法.区别于常见的半监督方法,本文的针对文字识别这类序列识别问题做出了特定的设计.具体来说,本文首先采用了teacher-student的网络结构,然后采用字符级别的一致性约束对teacher和student网络的预测进行对齐.此外,考虑到…
CVPR2020论文解读:OCR场景文本识别 ABCNet:  Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文链接:https://arxiv.org/pdf/2002.10200.pdf 摘要 场景文本的检测与识别越来越受到人们的关注.现有的方法大致可以分为两类:基于字符的方法和基于分割的方法.这些方法要么代价高昂,要么需要维护复杂的管道,这通常不适合实时应用.在这里,我们提出了自适应贝塞尔曲线网络(AB…
自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等等.CVPR19和ICCV19上,Google Brain的几个研究员发表了两篇论文,从另外的视角分析和研究self-supervised learning问题.两篇paper名字分别是:Revisiting Self-Supervised Visual Representation Learnin…
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学校 | 哈尔滨工业大学(深圳) 研究方向 | 目标检测.GAN 推荐理由: 这是一篇发表于AAAI2019的paper,文章提出了一种R-DAD的方法来对RCNN系列的目标检测方法进行改进. 研究动机: 目前主流的目标检测算法分为1 stage和2 stage的,而2 stage的目标检测方法以Fa…
前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial Track. 本文将对入围Research Track的论文<iBTune: Individualized Buffer Tuning for Largescale Cloud Databases>进行详细解读,以飨读者. 注:本文由阿里云智能事业群艾奥.池院.洪林.谭剑.祺星.铁赢共同撰写. 1…
[论文解读] 阿里DIEN整体代码结构 目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 4.2 模块分析 4.2.1 构建变量 4.2.2 构建embedding 4.2.3 拼接embedding 0x05 Model_DIN_V2_Gru_Vec_attGru_Neg 5.1 第一层 'rnn_1' 5.1.1 GRU 5.1.2 辅助损失 5.1.3 mask的作用 Paddin…
CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape 论文链接地址:https://arxiv.org/pdf/1812.02781.pdf 摘要内容: 本文提供了基于端到端单目3D目标检测和度量形状检索的深度学习方法.为了在3D中提升2D检测,定位,以及缩放,提出了一种新的loss函数.不同于各自独立的优化这些数量,3D示例允许适当的度量box…
CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation  for 3D Semantic Segmentation 摘要 无监督域自适应(UDA)对于解决新域中缺少注释的问题至关重要.有许多多模态数据集,但大多数UDA方法都是单模态的.在这项工作中,我们探索如何从多模态学*,并提出跨模态UDA(xMUDA),其中我们假设存在二维图像和三维点云进行三维语义分割.这是一…