Deep web data extraction based on visual information processing
作者 J Liu 上海海事大学 2017 AIHC会议登载
引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11.

简介

一种基于卷积神经网络(CNN)的数据区域定位方法
结合视觉信息进行网页的分割(作者命名为VIBS)

1、CNN 基于卷积神经网路进行区域定位

CNN网络结构由3个阶段组成,如图所示 。第一阶段设置卷积层和汇集层以学习图像的特征。第二阶段是设置展平图层所必需的,展平图层会将卷积图层和合并图层生成的特征图转换为一维矢量,以计算完整的连接图层。除了为输出设置最后一个完全连接之外,第三阶段设置多个连接层以过滤先前层学习的特征。

网络架构设计使用13级CNN,包括5个采样层(S),6个卷积层(C)和2个完全连接层。

据区域检测的标准IOU,如果IOU  > 50%,则数据区域被视为正样本。

区域定位主要步骤流程图如下

2、基于视觉信息的网页分割方法 VIBS

3、实验结果和分析

数据集(Lianjia、Complanet、Fangjia)

58,500个样本数据集,其中有195种具有不同大小和不同位置的图像样本,包含数据区域,总共300个组。

实验结果

总结

总体看下来,文章的创新意义大于实际意义吧,这么高的精确度,感觉像是过拟合了,而且速度不可能这么快,应该是把网页先行保存成图片了的,文章写得很不错,对比什么的体系也比较完善,就是有些地方没有讲清楚,比如能否divide的判定等。

【论文简读】 Deep web data extraction based on visual的更多相关文章

  1. 【论文阅读】Deep Clustering for Unsupervised Learning of Visual Features

    文章:Deep Clustering for Unsupervised Learning of Visual Features 作者:Mathilde Caron, Piotr Bojanowski, ...

  2. Deep Learning 16:用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记

    前言 论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...

  3. 读论文系列:Deep transfer learning person re-identification

    读论文系列:Deep transfer learning person re-identification arxiv 2016 by Mengyue Geng, Yaowei Wang, Tao X ...

  4. Free web scraping | Data extraction | Web Crawler | Octoparse, Free web scraping

    Free web scraping | Data extraction | Web Crawler | Octoparse, Free web scraping 人才知了

  5. Deep Learning 28:读论文“Multi Column Deep Neural Network for Traffic Sign Classification”-------MCDNN 简单理解

    读这篇论文“ Multi Column Deep Neural Network for Traffic Sign Classification”是为了更加理解,论文“Multi-column Deep ...

  6. VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition

    Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...

  7. Home | eMine: Web Page Transcoding Based on Eye Tracking Project Page

    Home | eMine: Web Page Transcoding Based on Eye Tracking Project Page The World Wide Web (web) has m ...

  8. 【Python学习笔记】Coursera课程《Using Python to Access Web Data 》 密歇根大学 Charles Severance——Week2 Regular Expressions课堂笔记

    Coursera课程<Using Python to Access Web Data > 密歇根大学 Charles Severance Week2 Regular Expressions ...

  9. 论文笔记——A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding

    论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Prunin ...

随机推荐

  1. js识别手机型号做业务判断

    navigator为Window对象的一个属性,指向了一个包含浏览器相关信息的对象. navigatot中包含了一些常用到的属性,如: navigator.appVersion 浏览器的版本号 nav ...

  2. WPF-ListView单元格设置文字换行

    第2-6行 1 <ListView Name="HumidifyEventLog" Style="{StaticResource ListViewStyle}&qu ...

  3. CDN网络科普小文(小说版)

    引言 作为公司 cdn 小组的一名小码仔,我为写一篇 cdn 的科普文章准备了好一段时间(大概有一个多月没有更新我的社交账号了). 在我刚进入公司,培训完,进入小组,了解到我们做的是 cdn 相关的工 ...

  4. TP5框架中实现多条件登录(自写代码,密码未md5()加密)

    HTML代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="U ...

  5. CF1106F题解

    居然没人写常系数齐次线性递推/jy 题意明确. 首先我们注意到这个系数是在幂上面的,这道题的各种信息都是建立在乘法上的,十分不好处理,考虑求一个 \(\ln\) 将这些信息建立在加法上. \[\ln ...

  6. 6. 堪比JMeter的.Net压测工具 - Crank 实战篇 - 收集诊断跟踪信息与如何分析瓶颈

    目录 堪比JMeter的.Net压测工具 - Crank 入门篇 堪比JMeter的.Net压测工具 - Crank 进阶篇 - 认识yml 堪比JMeter的.Net压测工具 - Crank 进阶篇 ...

  7. AE功能扩展一

    1.添加栅格影像 基本思路:声明栅格工作空间→创建栅格数据集对象→创建金字塔→声明图层对象→刷新地图控件 private void AddBaseMap(string filepath) { IWor ...

  8. SpringBoot 中实现跨域的几种方式

    一.为什么会出现跨域问题 出于浏览器的同源策略限制.同源策略(Sameoriginpolicy)是一种约定,它是浏览器最核心也最基本的安全功能,如果缺少了同源策略,则浏览器的正常功能可能都会受到影响. ...

  9. [XMAN筛选赛](web)ctf用户登录

    0x00 题目概述 就只写了几道web题,有些考察点比较明显,所以个人感觉来说web总体不难. 一航的writeup写得差不多,我这写个他没写的wirteup. 看题: 链接点进去是一个登录页面,习惯 ...

  10. CF1486X Codeforces Round #703

    C2 Guessing the Greatest (二分+构造) 题目大意:交互题,每次可以询问一个子区间次大值的位置,最多询问20次,问全局最大值的位置.n=1e5 40次的情况大力二分,20次需要 ...