Python 爬虫解决escape问题

爬取某个国外的网址，遇到的编码问题，在前段页面返回的数据是

亞洲私人珍&#34255

;賣，令仝好分享他為此

所傾注的心血與熱愛。

爬虫源码是：

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:

    result = requests.get(url=url).text

except:

    result = requests.get(url=url).text

if 'javascript">setTimeout' in result:

    result = requests.get(url=url).text

如何处理？

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:

    result = requests.get(url=url).text

except:

    result = requests.get(url=url).text

if 'javascript">setTimeout' in result:

    result = requests.get(url=url).text

from HTMLParser import HTMLParser

result_HTMLParser =  HTMLParser().unescape(result)

 print result_HTMLParser

打印原始网页代码

发现编码格式正常

html = '&lt;abc&gt;'

用Python可以这样处理：

import HTMLParser

html_parser = HTMLParser.HTMLParser()

txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'

如果还想转回去，可以这样：

import cgi

html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'

Python 爬虫解决escape问题的更多相关文章

python爬虫解决gbk乱码问题
今天尝试了下爬虫,爬取一本小说,忘语的凡人修仙仙界篇,当然这样不好,大家要支持正版. 爬取过程中是老套路,先获取网页源代码 # -*- coding:UTF-8 -*- from bs4 import ...
python爬虫解决百度贴吧登陆验证码问题
作为贴吧重度用户,写了个贴吧爬虫脚本抄了一些别人的代码.记得有个验证码解决的.可是忘了链接了,今天最终自己攻克了. 首先要让登陆须要验证码,不停地登陆就好了...度娘非常快会加上验证码大法的... ...
python爬虫解决编码问题
参考 https://blog.csdn.net/qq_38008452/article/details/80423436 问题解决方法加上encoding='utf-8'
22-python爬虫解决gbk乱码问题
转载自: python爬虫解决gbk乱码问题今天尝试了下爬虫,爬取一本小说,忘语的凡人修仙仙界篇,当然这样不好,大家要支持正版. 爬取过程中是老套路,先获取网页源代码 # -*- coding: ...
python爬虫中文乱码解决方法
python爬虫中文乱码前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
Python爬虫老是被封的解决方法【面试必问】
在爬取的过程中难免发生 ip 被封和 403 错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下 Python 爬虫动态 ip 代理防止被封的方法. PS:另外很多人在学习Pyth ...
Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
商品现货数据不好拿？商品季节性难跟踪？一键解决没烦恼的Python爬虫分享
更多精彩内容,欢迎关注公众号:数量技术宅.探讨数据分析.量化投资问题,请加技术宅微信:sljsz01 季节性在大宗商品的交易中至关重要大宗商品交易中,特别是在期货市场,由于商品价格周期的存在,季节性 ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...

随机推荐

Linux中在线安装Mysql和修改密码设置服务启动
一.说明:本文教大家在linux下在线安装mysql.网上的很多文章写的太乱,我们只取操作最方便的在线安装方式.本文以Centos为例. 二.安装过程. 1.安装客户端和服务端: (1)检查是否已经安 ...
JAVA开发人员画图表总结（ECHARTS）
随着大数据的到来,越来越多的数据需求需要开发,而这些需求不可避免需要使用JS画出图表,而大多后端JAVA开发人员对JS不太熟悉,导致身心倍受折磨,今天记录以下最近我使用echarts的步骤,供参考: ...
如何进入docker容器
http://blog.csdn.net/u010397369/article/details/41045251
Python实现微信扫码支付模式二（NativePay）
转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7649207.html 核心代码github地址:https://github.com/ygj0930/Pyth ...
linux下神奇的script
script 是一个神奇命令,script 能够将终端的会话过程录制下来,然后使用 scriptreplay 就可以将其录制的结果播放给他人观看.script 的好处就在于你在终端中的所有操作.敲过的 ...
Can't connect to MySQL server on 'ip' (13)
解决方法1.:setsebool -P httpd_can_network_connect_db=1 解决方法2.:修改/etc/selinux/config SELINUX=enforcing 为 ...
【AIX】在命令前显示完整路径
登录到AIX系统,发现在#前没有目录展示,这样我们在查看当前目前时很不方便,需要借助命令PWD才可以实现解决方案: 在.profile文件中添加命令:export PS1="[LONGNA ...
搭建ssm框架项目基本原理和主要的配置文件小结
原文地址:https://blog.csdn.net/baidu_32739019/article/details/73928040 1.springmvc是spring框架的一个模块,springm ...
【CAS单点登录视频教程】第06集【完】 -- Cas认证学习票据认证FormsAuthentication
目录 ----------------------------------------- [CAS单点登录视频教程] 第06集[完] -- Cas认证学习票据认证FormsAuthenticati ...
StatefulSet和Deployment的区别
“Deployment用于部署无状态服务,StatefulSet用来部署有状态服务”. 具体的,什么场景需要使用StatefulSet呢?官方给出的建议是,如果你部署的应用满足以下一个或多个部署需求, ...

Python 爬虫 解决escape问题

Python 爬虫 解决escape问题的更多相关文章

随机推荐

热门专题

Python 爬虫解决escape问题

Python 爬虫解决escape问题的更多相关文章