python--通过ocr对数据可视化视频还原为csv,进行简单的分析
见github https://github.com/TouwaErioH/Machine-Learning/tree/master/video/video
题目描述:
source
https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg

https://www.youtube.com/channel/UCkWbqlDAyJh2n8DN5X6NZyg/videos
下载视频
Most Popular Websites 1996-2019
Most Popular Programming Languages 1965-2019
Most Popular Internet Browsers 1996-2019
Most Popular Mobile Phone Brands 1993-2019
Most Downloaded Android Messengers 2011-2019
Best-Selling Music Artists 1969-2019 来自于Data is Beautiful
要求: 通过OCR、图像分析方法,还原成按年的静态表格,并分析一下相关数据变化的原因。如果能写程序动态播放这些表格就更好了。
按照如下方式提交一个*.csv文件。关于csv文件说明,可以上网查查,就是纯文本文件,文件扩展名改成了csv。
报告直接贴出csv文件内容。
最后提交的压缩包包括代码,报告,csv。
每一个时间段为一行,第一个元素是时间,之后是第一个的名字,对应的值(百分比,绝对值),然后第二个,第三个,有几个写几个。
time,No1_name,Value,No2_name, Value, No2_name, Value
这里选择做most popular programming language
另外,这种视频叫做数据可视化视频:
框架
https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js
制作:准备好csv文件即可
https://www.zhihu.com/question/290568141/answer/829442104
OCR:
Tesseract
微软Azure 图像识别:https://azure.microsoft.com/z...
有道智云文字识别:http://aidemo.youdao.com/ocrdemo
阿里云图文识别:https://www.aliyun.com/produc...
腾讯OCR文字识别: https://cloud.tencent.com/pro...
一些参考:
python pytesseract psm 选项参数 https://blog.csdn.net/huitailangyz/article/details/80390090
PIL模块介绍 https://blog.csdn.net/zhangziju/article/details/79123275
tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解 http://www.sohu.com/a/162152933_787107
验证码/OCR图像识别预处理(去噪) https://blog.csdn.net/wsp_1138886114/article/details/82956297
Selenium&Pytesseract模拟登录+验证码识别 https://cloud.tencent.com/developer/article/1510012
python实现视频关键帧提取(基于帧间差分) https://blog.csdn.net/u011583927/article/details/84842915
python+opencv 实现图片和文字的分割 https://www.jb51.net/article/164611.htm
利用pandas读取Excel表格,用matplotlib.pyplot绘制直方图、折线图、饼图 https://www.cnblogs.com/xcuyms/p/11550606.html
Matplotlib绘图时x轴标签重叠的解决办法 https://www.jianshu.com/p/01ed72b2aeee
python--通过ocr对数据可视化视频还原为csv,进行简单的分析的更多相关文章
- 5 种使用 Python 代码轻松实现数据可视化的方法
数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...
- [转]5 种使用 Python 代码轻松实现数据可视化的方法
数据可视化是数据科学家工作中的重要组成部分.在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解.创建可视化方法确实有助于使 ...
- python 科学计算及数据可视化
第一步:利用python,画散点图. 第二步:需要用到的库有numpy,matplotlib的子库matplotlib.pyplot numpy(Numerical Python extensions ...
- 《Python数据分析》笔记——数据可视化
数据可视化 matplotlib绘图入门 为了使用matplotlib来绘制基本图像,需要调用matplotlib.pyplot子库中的plot()函数 import matplotlib.pyplo ...
- 【时序数据库InfluxDB】Windows环境下配置InfluxDB+数据可视化,以及使用 C#进行简单操作的代码实例
前言:如题.直接上手撸,附带各种截图,就不做介绍了. 1.influxDB的官网下载地址 https://portal.influxdata.com/downloads/ 打开以后,如下图所示,可以 ...
- python高级数据可视化视频Dash1
在谷歌浏览器输入http://127.0.0.1:8050/后,回车,看到下图可视化结果 # -*- coding: utf-8 -*- """ Created on S ...
- 使用Python写词云数据可视化
词云的应用场景 会议记录 海报制作 PPT制作 生日表白 数据挖掘 情感分析 用户画像 微信聊天记录分析 微博情感分析 Bilibili弹幕情感分析 年终总结 安装本课程所需的Python第三方模块 ...
- python grib气象数据可视化
基于Python的Grib数据可视化 利用Python语言实现Grib数据可视化主要依靠三个库——pygrib.numpy和matplotlib.pygrib是欧洲中期天气预报中心 ...
- 小白学 Python 数据分析(15):数据可视化概述
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...
随机推荐
- 为什么会有 AtomicReference ?
我把自己以往的文章汇总成为了 Github ,欢迎各位大佬 star https://github.com/crisxuan/bestJavaer 我们之前了解过了 AtomicInteger.Ato ...
- winform 窗体中顶部标题居中显示
在网上看了很多例子,都不能居中,都有或多或少的问题 自己根据网友的代码改编入下: 先确随便写一个标题的内容: string titleMsg ="Winfrom Title" 获取 ...
- Turbo Boyer-Moore algorithm
MySQL :: MySQL 8.0 Reference Manual :: 8.3.9 Comparison of B-Tree and Hash Indexes https://dev.mysql ...
- proxy_http_version 1.0 | 1.1
Module ngx_http_proxy_module http://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_http_ver ...
- win api 窗口操作-窗口置顶与寻找与激活
https://docs.microsoft.com/en-us/windows/win32/api/winuser/nf-winuser-setwindowpos https://docs.micr ...
- spring boot 启动 开启注解 加载 bean
业务描述:创建一个cache类然后交给spring 管理. @Component @Scope("singleton") public class Cache { public C ...
- python3编码转换
str->bytes:encode编码 bytes->str:decode解码 字符串通过编码成为字节码,字节码通过解码成为字符串. >>> text = '我是文本' ...
- Linux常用命令:文件操作命令
Linux系统命令主要包括文件操作.网络命令和性能命令,本文介绍常用文件操作命令. 修改文件属性 文件类型: 普通文件:- 目录文件:d 块设备文件:b,硬盘 字符设备: c,串行端口的接口设备,例如 ...
- BZOJ2120 数颜色(带修改的莫队算法)
Description 墨墨购买了一套N支彩色画笔(其中有些颜色可能相同),摆成一排,你需要回答墨墨的提问.墨墨会像你发布如下指令: 1. Q L R代表询问你从第L支画笔到第R支画笔中共有几种不同颜 ...
- Excel 如何实现以万为单位 保留两位小数 且不四舍五入
数据科学交流群,群号:189158789,欢迎各位对数据科学感兴趣的小伙伴的加入! =TEXT(INT(I18/100)*1000,"0!.00,万") 将I18替换成你要转化的单 ...