Python爬虫编程常见问题解决方法

肖朋伟 2024-11-02 09:37:54 原文

Python爬虫编程常见问题解决方法：

1.通用的解决方案：

【按住Ctrl键不送松】，同时用鼠标点击【方法名】，查看文档

2.TypeError: POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.

问题描述：【类型错误】就是数据的类型应该是bytes类型，而不是str类型

解决方案：

data = data.encode('utf-8')

3.爬取得到的HTML在一行显示

调试步骤：通过print(type(html))查看html的类型, 可以查出是bytes类型，就需要解码

解决方案：

html = html.decode()

4.有时候使用爬虫会被网站封了IP，所以需要去模拟浏览器

解决方案：

header = {"User-Agent": "mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"}

req = request.Request(url=base_url,data=bytes(data,encoding='utf-8'),headers=header)

5.当服务器返回json格式的数据乱码

调试步骤：

1.通过print(type(json_data))查看数据的类型,

2.可以查出是str类型，就是说返回的字符串中有bytes类型的数据

解决方案：把json字符串转换为字典

json_data = json.loads(json_data)

6.怎么只输出json数据的value或者某个key对应的value，不要[{}]

问题描述： 想要jsonkey/value的一部分

典型案例：

例如：

 json_data=

      {'errno': 0,

       'data': [{'k': 'good',

                 'v': 'adj. 好的;'

                 },

                {'k': 'good morning',

                 'v': 'int. 早安;'

                 }

               ]

       }

要求： 只想要输出good: adj. 好的，而不要其他的格式

1.可以通过json_data['data']，只输出json数据json_data中‘data’对应的值，也就是

 [{'k': 'good',

   'v': 'adj. 好的;'

  },

  {'k': 'good morning',

   'v': 'int. 早安;'

  }

 ]

2.遍历输出每个'k'和'v'的值

# 遍历输出每个'k'和'v'的值

for item in json_data['data']:

      print(item['k'], ": ", item['v'])

7.返回的页面是一个链接，而不是链接的页面

问题描述： 百度搜索，我们输入搜索内容，返回的是一个包括原地址链接的html，而不是访问该链接的html，且返回的html中：location.replace(location.href.replace("https://","http://"));

问题实例截图：

解决方案： 如果使用的是http改成https，

如果使用的是https改成http，就可以了

我的爬虫笔记

- 本笔记不允许任何个人和组织转载

Python爬虫编程常见问题解决方法的更多相关文章

[python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)
转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍一. 定位元素方法官网地址:http://selenium-python.readthedocs.org/locat ...
老出BUG怎么办？游戏服务器常见问题解决方法分享
在游戏开发中,我们经常会遇到一些技术难题,而其引发的bug则会影响整个游戏的品质.女性向手游<食物语>就曾遇到过一些开发上的难题,腾讯游戏学院专家团Wade.Zc.Jovi等专家为其提供了 ...
OpenStack安装部署管理中常见问题解决方法
一.网络问题-network 更多网络原理机制可以参考<OpenStack云平台的网络模式及其工作机制>. 1.1.控制节点与网络控制器区别 OpenStack平台中有两种类型的物理节点, ...
Web Deploy发布网站及常见问题解决方法(图文)
Web Deploy发布网站及常见问题解决方法(图文) Windows2008R2+IIs7.5 +Web Deploy 3.5 Web Deploy 3.5下载安装 http://www.iis.n ...
python字符串的常见处理方法
python字符串的常见处理方法方法使用说明方法使用说明 string[start:end:step] 字符串的切片 string.replace 字符串的替换 string.split 字符 ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...
Python 爬虫入门3种方法
Python 2.0 url = "http://www.baidu.com" print '第一种方法' response1 = urllib2.urlopen(url) pri ...
python爬虫中文乱码解决方法
python爬虫中文乱码前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
(转)Python中的常见特殊方法—— repr方法
原文链接:https://www.cnblogs.com/tizer/p/11178473.html 在Python中有些方法名.属性名的前后都添加了双下划线,这种方法.属性通常都属于Python的特 ...

随机推荐

基础篇：6.5）形位公差-基本规则 Basic Rules
本章目的:述说形位公差的基本规则 1.代表规则的修正符号与使用情况: 使用情况举例: 2 有关术语为了明确线性尺寸公差与形位公差之间关系,对尺寸术语将作进一步论述与定义. //无需强记,但希望现有 ...
PyCharm 通过Github和Git上管理代码
1.最近希望通过github来管理代码,记录下pycharm上的设置,以下是针对windows版本.mac版本略有却别如图所示 file-settings-Version Control-GitHu ...
Java - 尚学堂第八章常用类（将输入的string类型的值转为整数、浮点型、日期类型）
import java.text.DateFormat; import java.text.ParseException; import java.text.SimpleDateFormat; imp ...
解决重装 Oracle 出现的 INS-32025 问题，完全卸载 Oracle11g
如果您要重装 Oracle,并且安装程序正在运行,请先关闭它. 完全卸载: 1.停止所有 Oracle 服务 2.通过开始菜单 Oracle Installation Products -> U ...
java NIO学前准备
之前一直对NIO感兴趣,无奈对IO的很多概念很模糊,所以对于NIO的学习也是一直半解,最近在网上查阅了很多资料,发现有很多概念是需要反复理解的,有的时候甚至当时理解了,但一段时间后又忘记了,所以决定自 ...
python中函数参数传递的几种方法
转自 http://www.douban.com/note/13413855/ Python中函数参数的传递是通过“赋值”来传递的.但这条规则只回答了函数参数传递的“战略问题”,并没有回答“战术问题 ...
使用spring遇到问题事物不提交和更新失败
1 使用学习使用spring mvc进行前端代码编写,发现提交修改没发sql语句测试dao层又没问题解决: 原来是spring配置文件,事物管理绑定到了dao层.测试界面前端应该绑定到servi ...
转 linux 内存释放
原文 http://blog.zol.com.cn/2322/article_2321774.html #cat /proc/meminfo | grep "MemFree" | ...
在windows服务器上设置301、伪静态（wordpress）
新建一个httpd.ini文件,插入代码: [ISAPI_Rewrite] RewriteCond Host: ^wuchao\.cc$ RewriteRule (.*) http\://www\.w ...
Windows加密API的功能分类
本地数据加密保护本地数据加密保护机制提供了简单的DAPI调用接口,密钥管理等等一概由系统来处理.DAPI的数据加密保护机制在用户登录会话范围或者本地计算范围,使用操作系统设计的方式加密保护数据和解密还 ...