Python 爬虫解决escape问题

爬取某个国外的网址，遇到的编码问题，在前段页面返回的数据是

亞洲私人珍&#34255

;賣，令仝好分享他為此

所傾注的心血與熱愛。

爬虫源码是：

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:

    result = requests.get(url=url).text

except:

    result = requests.get(url=url).text

if 'javascript">setTimeout' in result:

    result = requests.get(url=url).text

如何处理？

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:

    result = requests.get(url=url).text

except:

    result = requests.get(url=url).text

if 'javascript">setTimeout' in result:

    result = requests.get(url=url).text

from HTMLParser import HTMLParser

result_HTMLParser =  HTMLParser().unescape(result)

 print result_HTMLParser

打印原始网页代码

发现编码格式正常

html = '&lt;abc&gt;'

用Python可以这样处理：

import HTMLParser

html_parser = HTMLParser.HTMLParser()

txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'

如果还想转回去，可以这样：

import cgi

html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'

Python 爬虫解决escape问题的更多相关文章

python爬虫解决gbk乱码问题
今天尝试了下爬虫,爬取一本小说,忘语的凡人修仙仙界篇,当然这样不好,大家要支持正版. 爬取过程中是老套路,先获取网页源代码 # -*- coding:UTF-8 -*- from bs4 import ...
python爬虫解决百度贴吧登陆验证码问题
作为贴吧重度用户,写了个贴吧爬虫脚本抄了一些别人的代码.记得有个验证码解决的.可是忘了链接了,今天最终自己攻克了. 首先要让登陆须要验证码,不停地登陆就好了...度娘非常快会加上验证码大法的... ...
python爬虫解决编码问题
参考 https://blog.csdn.net/qq_38008452/article/details/80423436 问题解决方法加上encoding='utf-8'
22-python爬虫解决gbk乱码问题
转载自: python爬虫解决gbk乱码问题今天尝试了下爬虫,爬取一本小说,忘语的凡人修仙仙界篇,当然这样不好,大家要支持正版. 爬取过程中是老套路,先获取网页源代码 # -*- coding: ...
python爬虫中文乱码解决方法
python爬虫中文乱码前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
Python爬虫老是被封的解决方法【面试必问】
在爬取的过程中难免发生 ip 被封和 403 错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下 Python 爬虫动态 ip 代理防止被封的方法. PS:另外很多人在学习Pyth ...
Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
商品现货数据不好拿？商品季节性难跟踪？一键解决没烦恼的Python爬虫分享
更多精彩内容,欢迎关注公众号:数量技术宅.探讨数据分析.量化投资问题,请加技术宅微信:sljsz01 季节性在大宗商品的交易中至关重要大宗商品交易中,特别是在期货市场,由于商品价格周期的存在,季节性 ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...

随机推荐

高级NUMA参数
Advanced NUMA Attributes You can use the advanced NUMA attributes to customize NUMA usage. Attribute ...
eclipse 远程调试程序
最近遇到一个非常恶心的问题,本地调试没有问题,到了线上就复发,逼于无奈只能使用eclipse远程调试,下面把步骤记录一下: 1.修改服务器的启动脚本,添加如下内容: export JPDA_ADDRE ...
JERSEY中文翻译（第一章、Getting Started、1.1.7）
最近发现jersey特别流行,但是中文资料非常少,深感没有资料的痛苦,所以分享一下看到的内容供他人快速入门. 今天翻译第一章.Getting Started.https://jersey.java.n ...
Iterator接口用法
1.所有实现Collection接口的容器类都有一个iteractor方法,用于返回一个实现了Iteractor接口的对象, 2.Iteractor对象成为迭代器,用以实现对容器内元素的遍历操作 3. ...
mysqld.exe
mysqld.exe是mysql的服务端程序,开启之后才能使用mysql.exe 将mysql安装成服务很简单: mysqld.exe install mysql 删除服务也很简单: sc delet ...
算法笔记_233:二阶魔方旋转(Java)
目录 1 问题描述 2 解决方案 1 问题描述魔方可以对它的6个面自由旋转. 我们来操作一个2阶魔方(如图1所示): 为了描述方便,我们为它建立了坐标系. 各个面的初始状态如下:x轴正向:绿x轴 ...
python反编译chm文件并生成pdf文件
# -*- coding: utf-8 -*- import os import os.path import logging import pdfkit original_chm = r'C:\Us ...
Node,Sockets,Cores,Threads
http://fishcried.com/2015-01-09/cpu_topology/ http://kodango.com/cpu-topology http://www.udpwork.com ...
emplace_back() 和 push_back 的区别（转）
在引入右值引用,转移构造函数,转移复制运算符之前,通常使用push_back()向容器中加入一个右值元素(临时对象)的时候,首先会调用构造函数构造这个临时对象,然后需要调用拷贝构造函数将这个临时对象放 ...
Linux上实现Windows的SQLPlus保存SQL历史记录功能
在Windows操作系统上,当在DOS命令窗口中运行SQL*Plus的时候,可以使用向上,向下键来跳回之前已经执行过的SQL语句.你可以根据需要修改他们,然后按Enter键重新提交执行. 然而,当在L ...

Python 爬虫 解决escape问题

Python 爬虫 解决escape问题的更多相关文章

随机推荐

热门专题

Python 爬虫解决escape问题

Python 爬虫解决escape问题的更多相关文章