【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】

【写在前面】

在用requests库对自己的CSDN个人博客（https://blog.csdn.net/yuzipeng）进行爬取时，发现乱码报错（\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9），如下图所示：

网上查找了一些方法，以为是遇到了网站加密处理。后来发现通过F12还是能获取网页的元素，那么有什么办法能规避乱码问题呢？答案是：用selenium.

【效果如下】

【示例代码】

# coding=utf-8

# @Auther : "鹏哥贼优秀"

# @Date : 2019/10/16

# @Software : PyCharm

from selenium import webdriver

url = 'https://blog.csdn.net/yuzipeng'

driver = webdriver.Chrome("F:\\Python成长之路\\chromedriver.exe")

driver.get(url)

urls = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]')

blogurl = ['https://blog.csdn.net/yuzipeng/article/details/' + url.get_attribute('data-articleid') for url in urls]

titles = driver.find_elements_by_xpath('//div[@class="article-item-box csdn-tracking-statistics"]/h4/a')

blogtitle = [title.text for title in titles]

myblog = {k:v for k,v in zip(blogtitle,blogurl)}

for k,v in myblog.items():

    print(k,v)

driver.close()

【知识点】

1、selenium使用

基本的selenium安装方法、使用方法（如查找元素的各类函数）可以详见之前的博客《【Python成长之路】从零学爬虫--给微信公众号阅读量作个弊：刷阅读量》

（https://blog.csdn.net/yuzipeng/article/details/100179696）

2、推导式使用

（1）列表推导式：[表达式 for 变量 in 列表] 或者 [表达式 for 变量 in 列表 if 条件]

类似这样就可以实现将for循环的多行程序浓缩到一句代码中，如

blogtitle = [title.text for title in titles]

而如果用for循环写，则需要这样：

blogtitle = []

for title in titles:

    blogtitle.append(title)

（2）字典推导式：{ key表达式: value表达式 for value in collection if condition }

这样的写法，一般用于key和value能相互转换；但是如果key和value是完全不同的列表，那就需要用zip对key/value进行整合。

myblog = {k:v for k,v in zip(blogtitle,blogurl)}

如果对zip函数不熟悉，可以用下面的例子来介绍下。

a = ['a', 'b', 'c']

b = [1, 2, 3]

c = {k: v for k, v in zip(a, b)}

print(c)

结果是：{'a': 1, 'b': 2, 'c': 3}

作者：鹏哥贼优秀

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】的更多相关文章

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...
python requests库爬取网页小实例：ip地址查询
ip地址查询的全代码: 智力使用ip183网站进行ip地址归属地的查询,我们在查询的过程是通过构造url进行查询的,将要查询的ip地址以参数的形式添加在ip183url后面即可. #ip地址查询的全代 ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...
爬虫入门实例：利用requests库爬取笔趣小说网
w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...
requests库爬取猫眼电影“最受期待榜”榜单 --网络爬虫
目标站点:https://maoyan.com/board/6 # coding:utf8 import requests, re, json from requests.exceptions imp ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
requests库/爬取zhihu表情包
先学了requests库的一些基本操作,简单的爬了一下. 用到了requests.get()方法,就是以GET方式请求网页,得到一个Response对象.不加headers的话可能会400error所 ...

随机推荐

Jquery+CSS在不使用Checked的情况下实现当前选中行样式变化
之前在做一个当前选中行样式变化时发现网上很多方法都是利用在行内添加checked,然后通过checked是否选中来判断当前选中行的位置,今天就整理了一个不需要在行内添加其他按钮直接通过变化当前选中行的 ...
文件输入输出函数fgetc/fputc及fgets/fputs等文件指针位置的变化
文件打开后才可以对文件进行操作.也就是说,文件必须经历打开-操作-关闭的过程.如前所述,C语言对文件的操作都是通过调用标准I/O库函数来实现的.文件操作实际是指对文件的读写.文件的读操作就是从文件中读 ...
vue cli3.0^版本处理文件下载的问题
downloadFile(url, fileName) { axios.get(url, { responseType: 'blob' }) .then(({ data }) => { // 为 ...
docker搭建本地registry
第一步:拉取registry镜像 [root@localhost iso]# docker image pull registry Using default tag: latest latest: ...
【Swift】UNNotificationServiceExtension
一.简介 An object that modifies the content of a remote notification before it's delivered to the user. ...
正则表达式解决python2升python3的语法问题
2019.9.12 更新今天偶然看到 python 官网中,还介绍了一个专门的工具,用于 python2 升级 python3,以后有机会使用下看看 https://docs.python. ...
Docker学习-VMware Workstation 本地多台虚拟机互通,主机网络互通,解决name or service not known
NAT网络通用配置测试连接主机到虚拟机虚拟机到虚拟机 ,虚拟机到外网 CentOS,提示name or service not known 设置DNS服务器 vi /etc/resolv.co ...
不止面试—jvm类加载面试题详解
面试题带着问题学习是最高效的,本次我们将尝试回答以下问题: 什么是类的加载? 哪些情况会触发类的加载? 讲一下JVM加载一个类的过程什么时候会为变量分配内存? JVM的类加载机制是什么? 双亲委派 ...
PHP 修改数组中的值
PHP 修改数组中的值 ①.二维数组可以通过 for($i = 0; $i < count(Array()); ++ $i) 这种形式修改实例代码: // 修改二维数组中的 name为 Ge ...
C语言|博客作业02
这个作业属于哪个课程 C程序语言设计这个作业要求在哪里 https://edu.cnblogs.com/campus/zswxy/CST2019-1/homework/8654 我在这个课程的目标是 ...

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】

【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】的更多相关文章

随机推荐

热门专题