孤荷凌寒自学python第八十四天搭建jTessBoxEditor来训练tesseract模块 (完整学习过程屏幕记录视频地址在文末) 由于本身tesseract模块针对普通的验证码图片的识别率并不高,据说需要进行专门针对具体某一型号的验证码图片的训练才可以,因此今天的学习重点是搭建jTessBoxEditor环境来进行tesseract训练数据的训练和生成. 是完全参照以下博客内容来进行的: https://www.cnblogs.com/zhongtang/p/5555950.html 具体…
孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解 (今天由于文中所阐述的原因没有进行屏幕录屏,见谅) 为了能够使用selenium模块进行真正的操作,今天主要大范围搜索资料进行对selenium模块的学习,并且借2019年的新年好运居然在今天就来了,还在学习Python的过程中就接到一个任务,完成了第一个真正有实用价值的作品,大大增强了信心,也对Python爬取内容,操纵网页的能力有了真切的体会. 一.首先真诚感谢以下文章作者的无私分享: 查找到html页面标签对象方法的…
孤荷凌寒自学python第八十五天配置selenium并进行模拟浏览器操作1 (完整学习过程屏幕记录视频地址在文末) 要模拟进行浏览器操作,只用requests是不行的,因此今天了解到有专门的解决方案:selenium模块及与火狐浏览器的配合使用. 一.环境配置 (一).安装selenium模块 pip install selenium C:\WINDOWS\system32>pip install selenium Collecting selenium Downloading https:/…
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进一步优化了自定义函数的写法. 一.优化并新增了几个操作word文档的函数 ``` #!/usr/bin/env python3 # -*- coding: utf-8 -*- import string import time import random from docx.enum.style i…
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import pymongo import _mty import _mf import _mbs4 import _mmongo import…
孤荷凌寒自学python第六十四天学习mongoDB的基本操作并进行简单封装3 (完整学习过程屏幕记录视频地址在文末) 今天是学习mongoDB数据库的第十天. 今天继续学习mongoDB的简单操作,并继续对一些可能反复经常使用的操作进行简单的封装. 今天成功了解并实测完成了向mongoDB数据库中修改记录的操作,详细学习过程见屏幕录屏学习过程. 测试代码如下: [ceshi.py] from pymongo import MongoClient import datetime import _…
孤荷凌寒自学python第五十四天使用python来删除Firebase数据库中的文档 (完整学习过程屏幕记录视频地址在文末) 今天继续研究Firebase数据库,利用google免费提供的这个数据库服务,今天主要尝试使用firebase_admin模块来对firebase数据库进行删除文档操作获得成功. 一.简单总结下今天对firebase_admin模块对象的学习(一)删除一个文档要删除Firebase数据库中的一个集合下的一个文档只需要执行文档对象的delete()方法.具体用法如下:文档…
 孤荷凌寒自学python第三十四天python的文件操作对file类的对象学习 (完整学习过程屏幕记录视频地址在文末,手写笔记在文末) 一.close() 当一个file对象执行此方法时,将关闭当前打开的文件. 关闭后的文件不能再进行任何操作. 二.seek() 当用python的内置函数open打开了一个磁盘文件后,当前指针是固定在打开的file对象的指定位置的,而当我们想要移动指针时,就可以使用file对象的seek()方法. 语法:file.seek(offset[,whence]) o…
孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境 (完整学习过程屏幕记录视频地址在文末) 学习Python我肯定不会错过图片文字的识别,当然更重要的是简单的验证码识别了,今天花的所有时间都用于寻找最偷懒的方式来解决这一经典问题. 结果发现,还是大名鼎鼎的[tesseract]是最受欢迎的,于是就着手配置tesseract的相关环境. 今天的主要操作都是在windows10的64位系统下进行的. 一.第一步,安装tesseract-ocr在windows64位下的版本 我…
孤荷凌寒自学python第八十二天学习爬取图片2 (完整学习过程屏幕记录视频地址在文末) 今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中. 一.我准备爬取一个有文字也有图片的博客页面 https://www.cnblogs.com/forever-snow/p/8506746.html 二.具体代码 ``` import requests from bs4 import BeautifulSoup import re import datetime impo…