【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】

【写在前面】

在用requests库对自己的CSDN个人博客（https://blog.csdn.net/yuzipeng）进行爬取时，发现乱码报错（\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9），如下图所示：

网上查找了一些方法，以为是遇到了网站加密处理。后来发现通过F12还是能获取网页的元素，那么有什么办法能规避乱码问题呢？答案是：用selenium.

【效果如下】

【示例代码】

# coding=utf-8

# @Auther : "鹏哥贼优秀"

# @Date : 2019/10/16

# @Software : PyCharm

from selenium import webdriver

url = 'https://blog.csdn.net/yuzipeng'

driver = webdriver.Chrome("F:\\Python成长之路\\chromedriver.exe")

driver.get(url)

urls = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]')

blogurl = ['https://blog.csdn.net/yuzipeng/article/details/' + url.get_attribute('data-articleid') for url in urls]

titles = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]/h4/a')

blogtitle = [title.text for title in titles]

myblog = {k:v for k,v in zip(blogtitle,blogurl)}

for k,v in myblog.items():

    print(k,v)

driver.close()

【知识点】

1、selenium使用

基本的selenium安装方法、使用方法（如查找元素的各类函数）可以详见之前的博客《【Python成长之路】从零学爬虫--给微信公众号阅读量作个弊：刷阅读量》

（https://blog.csdn.net/yuzipeng/article/details/100179696）

2、推导式使用

（1）列表推导式：[表达式 for 变量 in 列表] 或者 [表达式 for 变量 in 列表 if 条件]

类似这样就可以实现将for循环的多行程序浓缩到一句代码中，如

blogtitle = [title.text for title in titles]

而如果用for循环写，则需要这样：

blogtitle = []

for title in titles:

    blogtitle.append(title)

（2）字典推导式：{ key表达式: value表达式 for value in collection if condition }

这样的写法，一般用于key和value能相互转换；但是如果key和value是完全不同的列表，那就需要用zip对key/value进行整合。

myblog = {k:v for k,v in zip(blogtitle,blogurl)}

如果对zip函数不熟悉，可以用下面的例子来介绍下。

a = ['a', 'b', 'c']

b = [1, 2, 3]

c = {k: v for k, v in zip(a, b)}

print(c)

结果是：{'a': 1, 'b': 2, 'c': 3}

作者：鹏哥贼优秀

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】的更多相关文章

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...
python requests库爬取网页小实例：ip地址查询
ip地址查询的全代码: 智力使用ip183网站进行ip地址归属地的查询,我们在查询的过程是通过构造url进行查询的,将要查询的ip地址以参数的形式添加在ip183url后面即可. #ip地址查询的全代 ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...
爬虫入门实例：利用requests库爬取笔趣小说网
w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...
requests库爬取猫眼电影“最受期待榜”榜单 --网络爬虫
目标站点:https://maoyan.com/board/6 # coding:utf8 import requests, re, json from requests.exceptions imp ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
requests库/爬取zhihu表情包
先学了requests库的一些基本操作,简单的爬了一下. 用到了requests.get()方法,就是以GET方式请求网页,得到一个Response对象.不加headers的话可能会400error所 ...

随机推荐

[考试反思]1109csp-s模拟测试107：低能
诶一看这不是水题AK场吗?然后80分钟就拿到了285分. 然后,对拍?还是卡T2常数?还是想T2正解? 于是上述三项我依次进行了. 前两项让我的分数丝毫不变但是吃掉了我一个多小时的时间. 卡常卡的也不 ...
P2115 [USACO14MAR]破坏（二分答案）
给定一串数,问删除中间一段,剩下的平均数最小是多少: 不容易想到这是个二分. $solution:$ 来手玩一点式子: 首先很容易想到一个前缀和$sum_i $表示i到1的前缀和,这样就能很容易地O( ...
Docker从入门到掉坑(二)：基于Docker构建SpringBoot微服务
本篇为Docker从入门到掉坑第二篇:基于Docker构建SpringBoot微服务,没有看过上一篇的最好读过 Docker 从入门到掉坑之后,阅读本篇. 在之前的文章里面介绍了如何基于docker ...
PowerMock学习（一）之PoweMock的入门--模拟新增学生操作
关于powermock 在TDD领域Mock框架有很多,比如EasyMock,JMock,Mockito.可能有些同学会好奇了,为什么要重点把powermock拿出来呢,因为powermock可以解决 ...
BST的实现（二叉搜索树）
void Inorder(struct Tree *T); //中序 void Preorder(struct Tree *T); //前序 void Postorder(struct Tree *T ...
Intellij IDEA搭建JSP+Tomcat开发环境
1.新建项目然后填入项目名称和选择项目路径,填完点击完成. 2.添加WEB框架别问我为什么不一开始就直接新建WEB框架,因为我也是看的别人的教程0.0 不过还遇到了一些新问题,后面会讲到 3.配置 ...
hdu 1325 Is It A Tree? (树、node = edge + 1、入度 <= 1、空树)
Is It A Tree?Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Tota ...
linux与Windows进程控制
进程管理控制这里实现的是一个自定义timer用于统计子进程运行的时间.使用方式主要是 timer [-t seconds] command arguments 例如要统计ls的运行时间可以直接输入t ...
this绑定方式总结
最近在回顾js的一些基础知识,把<你不知道的js>系列又看了一遍,this始终是重中之重,还是决定把this相关知识做一个系统的总结,也方便自己日后回顾. this的四条绑定规则 1.默认 ...
50.Qt-QJsonDocument读写json
QJsonDocument: 提供一种读取和写入JSON文档的方法,可以通过它的的成员函数array()或object()检索文档中包含的数组或对象,然后读取JSON数据,或者修改数据. QJsonO ...

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】的更多相关文章

随机推荐

热门专题