孤荷凌寒自学python第八十二天学习爬取图片2

(完整学习过程屏幕记录视频地址在文末)

今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中。

一、我准备爬取一个有文字也有图片的博客页面

https://www.cnblogs.com/forever-snow/p/8506746.html

二、具体代码

```

import requests

from bs4 import BeautifulSoup

import re

import datetime

import pymongo

import os

from contextlib import closing

from docx.shared import RGBColor #将三个数值生成色彩对象

import _mty

import _mf

import _mbs4

import _mmongo

import _mre

import _mdb

import _mword

import _mrequests

intc=0

def msgbox(info,titletext='孤荷凌寒的DB模块对话框QQ578652607',style=0,isShowErrMsg=False):

return _mty.msgboxGhlh(info,titletext,style,isShowErrMsg)

#定义一个读取完成单个博客园页面的函数

def getapage(strurl,strsavepath,strsavefile):

os.makedirs(strsavepath, exist_ok=True)

doc=_mword.newDocX(strsavepath +
strsavefile)

doc.add_paragraph(strurl)

header={

'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'accept-encoding':'gzip,
deflate, br',

'accept-language':'zh-CN,zh;q=0.9',

'cache-control':'max-age=0',

'cookie':'__gads=ID=40b6d57596e7429a:T=1538208840:S=ALNI_MbWvfR21-XDCnnRMC6w1ipz5pL1hw;
_ga=GA1.2.1676220267.1545396991;
UM_distinctid=16813a77ccd322-03ef758a8d4e-3c604504-144000-16813a77cce8fa;
CNZZDATA1256907=cnzz_eid%3D1198885933-1546517969-%26ntime%3D1546518138;
CNZZDATA1257640778=1118534197-1547552369-https%253A%252F%252Fwww.baidu.com%252F%7C1547607403;
_gid=GA1.2.1292942896.1547814253',

'referer':'https://www.baidu.com/link?url=qbb-FNVuosS5gMXV4E6kyu5UdwHX8ywZFIRl0iHiHm-yiTe8Lr5quxi7vcCXAS1yonIvrk58Sagt0tNVIsZDeK&wd=&eqid=c2293eaa0002eede000000055c42f402',

'upgrade-insecure-requests':'1',

'user-agent':'Mozilla/5.0
(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132
Safari/537.36'

}

r=requests.get(strurl,headers=header)

r.raise_for_status() #raise异常自动抛出,如果读取的Url服务器端返回400或500及后的错误,那么,则会抛出异常后,不再向后执行

r.encoding='utf-8'

bs=BeautifulSoup(r.text,'lxml')

htmldiv=bs.select('#cnblogs_post_body')[0]

#htmldiv=htmldiv.parent

#msgbox(str(type(htmldiv)))

for m,i in enumerate(list(htmldiv.find_all(['p','div']))):

strcontent=i.get_text()

_mword.addPToDocx(doc,strcontent)

imgs=i.find_all('img')

for k,j in enumerate(list(imgs)):

strpicurl=j['src']

lsttemp=strpicurl.split('.')

strhouzui='.' +
lsttemp[-1]

strpicfilenm=strsavepath + '%d03' %m + '%d03' %k +
strhouzui

try:

_mrequests.downloadPicGhlhStream(strpicurl,header,strpicfilenm)

doc.add_picture(strpicfilenm)

except:

pass

doc.save(strsavepath + strsavefile)

#downloadpicfirst()

getapage('https://www.cnblogs.com/forever-snow/p/8506746.html','I:\\MAKEAPP\\python\\Python365\\边学习边测试文件夹\\自学PYTHON部分\\0082第八十二天同时将图片和文字爬取下来2\\docs\\','001.docx')

```

三、对昨天处理图片的方法进行了封装:

【_mrequest.py】

```

import
requests

from bs4 import
BeautifulSoup

import re

import
datetime

from
contextlib import closing

import _mty

import _mf

import _mbs4

import _mre

mrequestsErrString='' #供其它模块使用的全局变量了,实时保存了各函数执行时的错误信息

def msgbox(info,titletext='孤荷凌寒的requests模块对话框QQ578652607',style=0,isShowErrMsg=False):

return
_mty.msgboxGhlh(info,titletext,style,isShowErrMsg)

#使用content的写法,速度要慢得多

def downLoadPicGhlhContent(strpicurl,header,strsavefile,isShowMsg=False):

try:

r=requests.get(strpicurl,headers=header)

r.raise_for_status() #raise异常自动抛出,如果读取的Url服务器端返回400或500及后的错误,那么,则会抛出异常后,不再向后执行

#下一句指定了读取网页时要使用的编码格式

r.encoding=r.apparent_encoding #requests的返回结果对象里有个apparent_encoding函数, apparent_encoding通过调用chardet.detect()来识别文本编码. 但是需要注意的是,这有些消耗计算资源.

#r.encoding='utf-8'

with open(strsavefile,'wb') as f:

f.write(r.content) #content属性与text属性不同

#---------------------------------------------

except Exception as e:

mrequestsErrString='通过读取图片content方式写入本地下载图片时出错:' + str(e) + '\n此函数由【孤荷凌寒】创建,QQ578652607'

if
isShowMsg==True:

msgbox(mrequestsErrString)

return None

else:

pass

finally:

pass

#使用流模式的写法,速度快得多

def downloadPicGhlhStream(strpicurl,header,strsavefile,isShowMsg=False):

try:

r=requests.get(strpicurl,headers=header,stream=True)

r.raise_for_status() #raise异常自动抛出,如果读取的Url服务器端返回400或500及后的错误,那么,则会抛出异常后,不再向后执行

#流模式不需要指定编码格式

#下一行用意在于,在写完流之后,自动关闭流

with
closing(requests.get(strpicurl,headers=header,stream=True)) as r:

with open(strsavefile,'wb') as f:

#将流分成n个部分写入,每个部分分成128字节

for chunk in
r.iter_content(128):  #这一句vscode报错,但是假的报错

f.write(chunk)

except Exception as e:

mrequestsErrString='通过读取图片 数据流  方式写入本地下载图片时出错:' + str(e) + '\n此函数由【孤荷凌寒】创建,QQ578652607'

if
isShowMsg==True:

msgbox(mrequestsErrString)

return None

else:

pass

finally:

pass

```

四、一些发现

html标签对象的children属性并不能返回所有子级对象,还得使用find_all方法才行。

最开始我使用:

htmldiv.children

没有成功,后来改为:

htmldiv.find_all(['p','div'])

——————————

今天整理的学习笔记完成,最后例行说明下我的自学思路:

根据过去多年我自学各种编程语言的经历,认为只有真正体验式,解决实际问题式的学习才会有真正的效果,即让学习实际发生。在2004年的时候我开始在一个乡村小学自学电脑 并学习vb6编程语言,没有学习同伴,也没有高师在上,甚至电脑都是孤岛(乡村那时还没有网络),有的只是一本旧书,在痛苦的自学摸索中,我找到适应自己零基础的学习方法:首先是每读书的一小节就作相应的手写笔记,第二步就是上机测试每一个笔记内容是否实现,其中会发现书中讲的其实有出入或错误,第三步就是在上机测试之后,将笔记改为电子版,形成最终的修订好的正确无误的学习笔记

通过反复尝试错误,在那个没有分享与交流的黑暗时期我摸黑学会了VB6,尔后接触了其它语言,也曾听过付费视频课程,结果发现也许自己学历果然太低,就算是零基础的入门课程,其实也难以跟上进度,讲师的教学多数出现对初学者的实际情况并不了解的情况,况且学习者的个体也存在差异呢?当然更可怕的是收费课程的价格往往是自己难以承受的。

于是我的所有编程学习都改为了自学,继续自己的三步学习笔记法的学习之路。

当然自学的最大问题是会走那么多的弯路,没有导师直接输入式的教学来得直接,好在网络给我们带来无限搜索的机会,大家在网络上的学习日志带给我们共享交流的机会,而QQ群等交流平台、网络社区的成立,我们可以一起自学,互相批评交流,也可以获得更有效,更自主的自学成果。

于是我以人生已过半的年龄,决定继续我的编程自学之路,开始学习python,只希望与大家共同交流,一个人的独行是可怕的,只有一群人的共同前进才是有希望的。

诚挚期待您的交流分享批评指点!欢迎联系我加入从零开始的自学联盟。

这个时代互联网成为了一种基础设施的存在,于是本来在孤独学习之路上的我们变得不再孤独,因为网络就是一个新的客厅,我们时刻都可以进行沙龙活动。

非常乐意能与大家一起交流自己自学心得和发现,更希望大家能够对我学习过程中的错误给予指点——是的,这样我就能有许多免费的高师了——这也是分享时代,社区时代带来的好福利,我相信大家会的,是吧!

根据完全共享的精神,开源互助的理念,我的个人自学录制过程是全部按4K高清视频录制的,从手写笔记到验证手写笔记的上机操作过程全程录制,但因为4K高清文件太大均超过5G以上,所以无法上传至网络,如有需要可联系我QQ578652607对传,乐意分享。上传分享到百度网盘的只是压缩后的720P的视频。

我的学习过程录像百度盘地址分享如下:(清晰度:1280x720)

链接:https://pan.baidu.com/s/1yC6d_VJ8dbSD1mwsRmCvcQ

提取码:1s5m

Bilibili:

https://www.bilibili.com/video/av41236139/

喜马拉雅语音笔记:

https://www.ximalaya.com/keji/19103006/156310726

孤荷凌寒自学python第八十二天学习爬取图片2的更多相关文章

  1. 孤荷凌寒自学python第六十二天学习mongoDB的基本操作并进行简单封装1

    孤荷凌寒自学python第六十二天学习mongoDB的基本操作并进行简单封装1 (完整学习过程屏幕记录视频地址在文末) 今天是学习mongoDB数据库的第八天. 今天开始学习mongoDB的简单操作, ...

  2. 孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解

    孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解 (今天由于文中所阐述的原因没有进行屏幕录屏,见谅) 为了能够使用selenium模块进行真正的操作,今天主要大范围搜索资料进行 ...

  3. 孤荷凌寒自学python第八十五天配置selenium并进行模拟浏览器操作1

    孤荷凌寒自学python第八十五天配置selenium并进行模拟浏览器操作1 (完整学习过程屏幕记录视频地址在文末) 要模拟进行浏览器操作,只用requests是不行的,因此今天了解到有专门的解决方案 ...

  4. 孤荷凌寒自学python第八十四天搭建jTessBoxEditor来训练tesseract模块

    孤荷凌寒自学python第八十四天搭建jTessBoxEditor来训练tesseract模块 (完整学习过程屏幕记录视频地址在文末) 由于本身tesseract模块针对普通的验证码图片的识别率并不高 ...

  5. 孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境

    孤荷凌寒自学python第八十三天初次接触ocr配置tesseract环境 (完整学习过程屏幕记录视频地址在文末) 学习Python我肯定不会错过图片文字的识别,当然更重要的是简单的验证码识别了,今天 ...

  6. 孤荷凌寒自学python第八十一天学习爬取图片1

    孤荷凌寒自学python第八十一天学习爬取图片1 (完整学习过程屏幕记录视频地址在文末) 通过前面十天的学习,我已经基本了解了通过requests模块来与网站服务器进行交互的方法,也知道了Beauti ...

  7. 孤荷凌寒自学python第八十天开始写Python的第一个爬虫10

    孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进 ...

  8. 孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2

    孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...

  9. 孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1

    孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1 (完整学习过程屏幕记录视频地址在文末) 感觉用requests获取到网页的html源代码后,更重要的工作其实是分析得到的内 ...

随机推荐

  1. Java添加事件的几种方式(转载了codebrother的文章)

    /** * Java事件监听处理——自身类实现ActionListener接口,作为事件监听器 * * @author codebrother */ class EventListener1 exte ...

  2. 调用WebService报错404问题 (转载)

    我想在MVC4的项目添加一个webservice文件,访问没问题,但是最后调用方法就报404错误. 但是如果我全新ASP.NET 空Web应用程序 然后再添加一个webservice文件,就一切OK. ...

  3. unittest单元测试框架之unittest工作原理(一)

    1.Unittest 核心组件 test case.test suite.test runner.test fixture 2.unittest 静态图 Testcase:一个 testcase 就是 ...

  4. 使用OpenVPN连通管理多个阿里云VPC网络

    这篇文章比较长,将从需求.思路.原理.架构.实施步骤.细节分析.高可用等几个方面来讲述OpenVPN的使用,如果看到很熟悉的内容或者不感兴趣的部分,请您跳过. 需求 公司网络环境更换,导致原来连接阿里 ...

  5. PX4地面站QGroundControl在ubuntu下的安装

    1.引言 相信很多玩开源无人机的朋友手上都有一架无人机,而不是仅仅停留在理论的学习和程序的学习.放飞自己组装的无人机才是乐趣所在,那么这本文就介绍玩无人机必不可少的地面站软件qgroundcontro ...

  6. Oracle在线重定义(online redefinition)--将普通表改为分区表

    使用Oracle的在线重定义技术,可以将Oracle的普通表改为分区表.操作如下: STEP1:测试表是否可以在线重定义,这里以unixdev数据库的LIJIAMAN.BSTEST为例 EXEC DB ...

  7. Oracle作业4-函数

    一.在数据库中的emp和dept表中做如下查询: 1.列出所有分析师(ANALYST)的姓名.编号和部门 SELECT ENAME,EMPNO,E.DEPTNO,DNAME FROM EMP E,DE ...

  8. C++常用的系统函数

    数学<math.h>: 1 三角函数 double sin (double); double cos (double); double tan (double); 2 反三角函数 doub ...

  9. 开发自己的网上支付案例代码(易宝支付php)

    1.简单的图解(如上所示) 易宝支付与支付宝是不一样的,但也有类似之处,支付宝是专门为淘宝软件开发的一套机制,资金会在中间支付公司(支付宝)停留,等待顾客确认,当顾客确认后,才会真正扣钱.而易宝支付时 ...

  10. Cab 安装不成功问题

    使用 iexpress.exe 成功打包了cab文件. 可下面问题来了,用静态的html调用,提示安装. 确认安装之后,却提示找不到相应的*.ocx,导致无法安装文件到系统 分析具体原因:*.ocx ...