python3+beautifulSoup4.6抓取某网站小说（一）爬虫初探

本次学习重点：

1、使用urllib的request进行网页请求，获取当前url整版网页内容

2、对于多级抓取，先想好抓取思路，再动手

3、BeautifulSoup获取html网页中的指定内容

4、使用多线程，加快抓取速度

本次抓取不涉及反爬虫知识。

本章学习内容：

1、最简单的request请求网页，有注释，不细说了

# -*- coding: UTF-8 -*-

from urllib import request

#获取request python2可以直接使用urllib2

# 直接请求

response = request.urlopen('http://www.baidu.com')

# 获取状态码，如果是200表示获取成功

print(response.getcode())

# 读取内容

cont = response.read()

print(cont)

2、User-Agent模拟浏览器请求，这个是网站最简单的防爬虫程序，服务器通过Headers中的User Agent来判断是谁在访问。

当然，道高一尺魔高一丈，python的urllib库中的request可以设置Headers来模拟浏览器访问。

# -*- coding: UTF-8 -*-

from urllib import request

if __name__ == "__main__":

    #以CSDN为例，CSDN不更改User Agent是无法访问的

    url = 'http://www.csdn.net/'

    head = {}

    #写入User Agent信息

    head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'

    #创建Request对象

    req = request.Request(url, headers=head)

    #传入创建好的Request对象

    response = request.urlopen(req)

    #读取响应信息并解码

    html = response.read()

    print(html)

具体的User-Agent参考链接：https://blog.csdn.net/c406495762/article/details/60137956

3、https网站的访问，最简单的ssl配置

记得4月前第2步的代码还是可以访问的，但是前几天又运行这个代码不能访问了，报

urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:777)>

，搜索了下，发现是https导致的这个问题，又看了下csdn，发现变成https网站了。

又最以上代码中加了一行

   context = ssl._create_unverified_context()

    #传入创建好的Request对象

    response = request.urlopen(req, context=context)

当然，则是最简单的绕过办法，一劳永逸，还是应该安装个证书。

本次解决办法参考文章：https://blog.csdn.net/bernieyangmh/article/details/74578759

完整代码如下：

# -*- coding: UTF-8 -*-

from urllib import request

import ssl

if __name__ == "__main__":

    #以CSDN为例，CSDN不更改User Agent是无法访问的

    url = 'http://www.csdn.net/'

    head = {}

    #写入User Agent信息

    head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'

    #ssl._create_default_https_context = ssl._create_unverified_context('')

    #创建Request对象

    req = request.Request(url, headers=head)

    context = ssl._create_unverified_context()

    #传入创建好的Request对象

    response = request.urlopen(req, context=context)

    #读取响应信息并解码

    html = response.read()

    print(html)

    html = html.decode('utf-8')

    # 打印信息

    print(html)

python3+beautifulSoup4.6抓取某网站小说（一）爬虫初探的更多相关文章

python3+beautifulSoup4.6抓取某网站小说（四）多线程抓取
上一篇多文章,是二级目录,根目录"小说",二级目录"作品名称",之后就是小说文件. 本篇改造了部分代码,将目录设置为根目录->作者目录->作品目录- ...
python3+beautifulSoup4.6抓取某网站小说（三）网页分析，BeautifulSoup解析
本章学习内容:将网站上的小说都爬下来,存储到本地. 目标网站:www.cuiweijuxs.com 分析页面,发现一共4步:从主页进入分版打开分页列表.打开分页下所有链接.打开作品页面.打开单章内容. ...
python3+beautifulSoup4.6抓取某网站小说（二）基础功能设计
本章学习内容:1.网页编码还原读取2.功能设计 stuep1:网页编码还原读取本次抓取对象: http://www.cuiweijuxs.com/jingpinxiaoshuo/ 按照第一篇的代码来 ...
Python3.x+Fiddler抓取APP数据
随着移动互联网的市场份额逐步扩大,手机APP已经占据我们的生活,以往的数据分析都借助于爬虫爬取网页数据进行分析,但是新兴的产品有的只有APP,并没有网页端这对于想要提取数据的我们就遇到了些问题,本章以 ...
Python3.x：抓取百事糗科段子
Python3.x:抓取百事糗科段子实现代码: #Python3.6 获取糗事百科的段子 import urllib.request #导入各类要用到的包 import urllib import ...
Python多进程方式抓取基金网站内容的方法分析
因为进程也不是越多越好,我们计划分3个进程执行.意思就是 :把总共要抓取的28页分成三部分. 怎么分呢? # 初始range r = range(1,29) # 步长 step = 10 myList ...
使用BurpSuite抓取HTTPS网站的数据包
昨天面试,技术官问到了我如何使用BurpSuite抓取https网站的数据包,一时间没能回答上来(尴尬!).因为以前https网站的数据包我都是用Fiddler抓取的,Fiddlert自动帮我们配置好 ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
从urllib和urllib2基础到一个简单抓取网页图片的小爬虫
urllib最常用的两大功能(个人理解urllib用于辅助urllib2) 1.urllib.urlopen() 2. urllib.urlencode() #适当的编码,可用于后面的post提交 ...

随机推荐

Application 效能分析有妙招 — 使用 perf 走天下（转载）
转载:http://tech.mozilla.com.tw/posts/1803/application-%E6%95%88%E8%83%BD%E5%88%86%E6%9E%90-%E4%BD%BF% ...
centos6中office及中文输入法安装 (转载)
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://xuxuezhe.blog.51cto.com/1636138/73 ...
在selenium中一些相对常用的JavaScript事件
输入框输入: 1.找到输入框的id,然后进行输入操作 ordinal :输入框的id parameter :需要输入的内容 browser.execute_script("document. ...
Ruby Time类和Date类
Time类更新: 2017/06/23 更新了Data/Time在model模式下的便利方法更新: 2018/10/12 修改了%Y相关描述防止误解年月日时分秒,时区生成获取当前时 ...
thunderbird 登录网易邮箱
登录密码不是自己的密码,而是在网易邮箱中设置的客户端授权ma,自己先进入邮箱进行设置即可
原生JavaScript实战之搜索框筛选功能
成品图如下所示: 先搭建HTML结构: <div class="wrapper"> <div class="sWrapper"> < ...
手机APP测试点总结（参考）
参考链接:http://www.zengyuetian.com/?p=2305 手机APP测试点: 功能测试:多注意核心业务风险(如:注册.登录.付费.订单等) 兼容性测试:系统兼容性.硬件兼容性.软 ...
jquery中document.ready在两类浏览器中的区别[转]
DOMready的构建方法不再重复,现代浏览器通过DOMContentLoaded来实现,IE通过readystatechange+doScroll来模拟该方法. 类似jquery中的document ...
poj 3253 Fence Repair (水哈夫曼树)
题目链接: http://poj.org/problem?id=3253 题目大意: 有一根木棍,需要截成n节,每节都有固定的长度,一根长度为x的木棒结成两段,需要花费为x,问截成需要的状态需要最小的 ...
最短路(Dijkstra) HDOJ 4318 Power transmission
题目传送门题意:起点s到终点t送电,中途会有损耗,问最小损耗是多少分析:可以转换为单源最短路问题,用优先队列的Dijkstra版本,d[]表示从s出发到当前点的最小损耗,用res保存剩下的电量.当 ...

python3+beautifulSoup4.6抓取某网站小说（一）爬虫初探

python3+beautifulSoup4.6抓取某网站小说（一）爬虫初探的更多相关文章

随机推荐

热门专题