见github https://github.com/TouwaErioH/Machine-Learning/tree/master/video/video

题目描述:

source

https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg

https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg/videos

下载视频

Most Popular Websites 1996-2019

Most Popular Programming Languages 1965-2019

Most Popular Internet Browsers 1996-2019

Most Popular Mobile Phone Brands 1993-2019

Most Downloaded Android Messengers 2011-2019

Best-Selling Music Artists 1969-2019 来自于Data is Beautiful

要求: 通过OCR、图像分析方法,还原成按年的静态表格,并分析一下相关数据变化的原因。如果能写程序动态播放这些表格就更好了。

按照如下方式提交一个*.csv文件。关于csv文件说明,可以上网查查,就是纯文本文件,文件扩展名改成了csv。
报告直接贴出csv文件内容。
最后提交的压缩包包括代码,报告,csv。

每一个时间段为一行,第一个元素是时间,之后是第一个的名字,对应的值(百分比,绝对值),然后第二个,第三个,有几个写几个。

time,No1_name,Value,No2_name, Value, No2_name, Value

这里选择做most popular programming language

另外,这种视频叫做数据可视化视频:

框架

https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js

制作:准备好csv文件即可

https://www.zhihu.com/question/290568141/answer/829442104

OCR:

Tesseract

微软Azure 图像识别:https://azure.microsoft.com/z...

有道智云文字识别:http://aidemo.youdao.com/ocrdemo

阿里云图文识别:https://www.aliyun.com/produc...

腾讯OCR文字识别: https://cloud.tencent.com/pro...

一些参考:

python pytesseract psm 选项参数  https://blog.csdn.net/huitailangyz/article/details/80390090

PIL模块介绍 https://blog.csdn.net/zhangziju/article/details/79123275

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解  http://www.sohu.com/a/162152933_787107

验证码/OCR图像识别预处理(去噪) https://blog.csdn.net/wsp_1138886114/article/details/82956297

Selenium&Pytesseract模拟登录+验证码识别  https://cloud.tencent.com/developer/article/1510012

python实现视频关键帧提取(基于帧间差分) https://blog.csdn.net/u011583927/article/details/84842915

python+opencv 实现图片和文字的分割 https://www.jb51.net/article/164611.htm

利用pandas读取Excel表格,用matplotlib.pyplot绘制直方图、折线图、饼图  https://www.cnblogs.com/xcuyms/p/11550606.html

Matplotlib绘图时x轴标签重叠的解决办法   https://www.jianshu.com/p/01ed72b2aeee

python--通过ocr对数据可视化视频还原为csv,进行简单的分析的更多相关文章

  1. 5 种使用 Python 代码轻松实现数据可视化的方法

    数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...

  2. [转]5 种使用 Python 代码轻松实现数据可视化的方法

    数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...

  3. python 科学计算及数据可视化

    第一步:利用python,画散点图. 第二步:需要用到的库有numpy,matplotlib的子库matplotlib.pyplot numpy(Numerical Python extensions ...

  4. 《Python数据分析》笔记——数据可视化

    数据可视化 matplotlib绘图入门 为了使用matplotlib来绘制基本图像,需要调用matplotlib.pyplot子库中的plot()函数 import matplotlib.pyplo ...

  5. 【时序数据库InfluxDB】Windows环境下配置InfluxDB+数据可视化,以及使用 C#进行简单操作的代码实例

    前言:如题.直接上手撸,附带各种截图,就不做介绍了. 1.influxDB的官网下载地址  https://portal.influxdata.com/downloads/ 打开以后,如下图所示,可以 ...

  6. ​python高级数据可视化视频Dash1

    在谷歌浏览器输入http://127.0.0.1:8050/后,回车,看到下图可视化结果 # -*- coding: utf-8 -*- """ Created on S ...

  7. 使用Python写词云数据可视化

    词云的应用场景 会议记录 海报制作 PPT制作 生日表白 数据挖掘 情感分析 用户画像 微信聊天记录分析 微博情感分析 Bilibili弹幕情感分析 年终总结 安装本课程所需的Python第三方模块 ...

  8. python grib气象数据可视化

    基于Python的Grib数据可视化           利用Python语言实现Grib数据可视化主要依靠三个库——pygrib.numpy和matplotlib.pygrib是欧洲中期天气预报中心 ...

  9. 小白学 Python 数据分析(15):数据可视化概述

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

随机推荐

  1. sap的内核升级,修补了源代码保护的方式

    众所周知,在SAP的内核位701或者之前的版本中,我们可以通过向源代码的中加入"*@#@@[SAP]"这样的代码,来实现对源代码的保护.但是在内核升级到721和以后的版本中,你会发 ...

  2. Java-Servlet知识总结

    目录 Servlet概述 为什么要学习Servlet 什么是 Servlet 工作流程 生命周期 处理请求的方法 HttpServletRequest 和 HttpServletResponse Ht ...

  3. jQuery库 之 jquery slimscroll插件使用

    1.引入jQuery插件 <script type="text/javascript" src="jquery.min.js"></scrip ...

  4. 2V转3V的电源芯片电路图,2.4V转3V电路

    两节镍氢电池1.2V+1.2V是2.4V的标称电压,2.4V可以转3V输出电路应用. 在2.4V转3V和2V转3V的应用中,输出电流可最大600MA. 2V的低压输入,可以采用PW5100低压输入专用 ...

  5. 华为交换机telnet登录时老是提醒是否更改初始密码- Warning: The initial password poses security risks

    问题:华为交换机在Telnet登录的时候总是提示初始密码不安全需要修改密码的处理方法 Warning: The initial password poses security risks   如果你输 ...

  6. ChannelNets: 省力又讨好的channel-wise卷积,在channel维度进行卷积滑动 | NeurIPS 2018

    Channel-wise卷积在channel维度上进行滑动,巧妙地解决卷积操作中输入输出的复杂全连接特性,但又不会像分组卷积那样死板,是个很不错的想法   来源:晓飞的算法工程笔记 公众号 论文: C ...

  7. 公共错误码 - 支付宝开放平台 https://opendocs.alipay.com/open/common/105806

    公共错误码 - 支付宝开放平台 https://opendocs.alipay.com/open/common/105806

  8. websocket心跳重连 websocket-heartbeat-js

    初探和实现websocket心跳重连(npm: websocket-heartbeat-js) 心跳重连缘由 websocket是前后端交互的长连接,前后端也都可能因为一些情况导致连接失效并且相互之间 ...

  9. 如何使用Set去重

    let arr = [12,43,23,43,68,12]; let item = [...new Set(arr)]; console.log(item);//[12, 43, 23, 68]

  10. JPEG解码——(3)文件头解析

    与具体的编码数据空间相比,jpeg文件头占据非常小乃至可以忽略不计的大小. 仍然拿JPEG解码--(1)JPEG文件格式概览中的<animal park>这张图片来举例,从跳过SOS(FF ...