Python-网站页面代码获取

Python3.6

库：urllib3, bs4

主程序是抓取亚马逊图书销售排名数据，但是亚马逊应该是加了反爬虫，拒绝疑似机器人的请求，这部分暂时以百度代替。

其实简单的页面抓取，常用的urllib.request就能实现，但是urllib3功能更多，应用前景更广，需要学习。

首先导入模块：

import urllib3, bs4

定义要访问的页面：

urltest = 'https://www.baidu.com'

定义函数，这里对比两种解码方法：

def httpget():

    http = urllib3.PoolManager()   #首先产生一个PoolManager实例

    urllib3.disable_warnings()     #忽略https的无效证书警报

    page = http.request('GET','%s'%urltest)   #发起GET请求

    print(page.status)        #服务器返回的代码

    print(page.data)          #服务器返回的数据，返回的是xml字符串

    print(page.data.decode())  #利用默认'utf-8'编码格式去解码

    res = bs4.BeautifulSoup(page.data,'lxml')  #利用lxml模块解码

    print(res)

    return None

执行函数httpget()输出结果：

200

b'<!DOCTYPE html><!--STATUS OK--><body link="#0000cc"><div ...（#省略）

<!DOCTYPE html><!--STATUS OK-->

<html>

<head>

    <meta http-equiv="content-type" content="text/html;charset=utf-8">

    <meta http-equiv="X-UA-Compatible" content="IE=Edge">

    <link rel="dns-prefetch" href="//s1.bdstatic.com"/>

    <link rel="dns-prefetch" href="//t1.baidu.com"/>

    <link rel="dns-prefetch" href="//t2.baidu.com"/>

    <link rel="dns-prefetch" href="//t3.baidu.com"/>

    <link rel="dns-prefetch" href="//t10.baidu.com"/>

    <link rel="dns-prefetch" href="//t11.baidu.com"/>

    <link rel="dns-prefetch" href="//t12.baidu.com"/>

    <link rel="dns-prefetch" href="//b1.bdstatic.com"/>

    <title>百度一下，你就知道</title>

　　...（#省略）
　　...（#省略）

</body></html>

<!DOCTYPE html>

<!--STATUS OK--><html>

<head>

<meta content="text/html;charset=utf-8" http-equiv="content-type"/>

<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>

<link href="//s1.bdstatic.com" rel="dns-prefetch"/>

<link href="//t1.baidu.com" rel="dns-prefetch"/>

<link href="//t2.baidu.com" rel="dns-prefetch"/>

<link href="//t3.baidu.com" rel="dns-prefetch"/>

<link href="//t10.baidu.com" rel="dns-prefetch"/>

<link href="//t11.baidu.com" rel="dns-prefetch"/>

<link href="//t12.baidu.com" rel="dns-prefetch"/>

<link href="//b1.bdstatic.com" rel="dns-prefetch"/>

<title>百度一下，你就知道</title>

...（#省略）
...（#省略）

</body></html>

Process finished with exit code 0

在这里两种解码方式都没出错，但是如果换成比较复杂的页面，普通的decode()方式就容易报错。

比如京东这个页面：

url = 'https://item.jd.com/6072622.html'

将urltest替换成url之后执行代码，执行结果如下：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 146: invalid start byte

Python-网站页面代码获取的更多相关文章

使用Python开发轻量级的Web框架以及基于WSGI的服务器来实现一个网站页面
说明:该篇博客是博主一字一码编写的,实属不易,请尊重原创,谢谢大家! 目录一丶项目说明二丶数据准备三丶使用网络TCP开发一个基于WSGI协议的Web服务器四丶使用python3开发一个轻量级的 ...
Python：如何用一行代码获取上个月是几月
现在转一篇志军100发于公众号 Python之禅的文章: Python:如何用一行代码获取上个月是几月抱歉我用了个有点标题党的标题,因为担心你错过了本文,但内容绝对干货,本文介绍的关于Python时 ...
通过浏览器F12开发工具快速获取别的网站前端代码的方法
通过浏览器F12开发工具快速获取别的网站前端代码的方法说明:直接另存为网页是比较老的做法,会有很多没用的东西下载下来.通过F12开发工具,sources获取到的是比较好的,有目录结构的源文件.
测试网站页面网速的一个简单Python脚本
无聊之余,下面分享一个Python小脚本:测试网站页面访问速度 [root@huanqiu ~]# vim pywww.py #!/usr/bin/python # coding: UTF-8 imp ...
测试网站页面网速的Python脚本
一.测试网站页面网速脚本 [root@salt ~]# cat check_url.py #!/usr/bin/python # coding: UTF-8 import StringIO,pycur ...
在某网站的登录页面登录时如果选择“记住用户名”,登录成功后会跳转到一个中间层（页面代码将登录的用户名和密码存在cookie）,中间页面中存在一个超链接，单击超链接可以链接到第三个页面查看信息。若选择“
Response实现登录并记录用户名和密码信息在某网站的登录页面登录时如果选择"记住用户名",登录成功后会跳转到一个中间层(页面代码将登录的用户名和密码存在cookie),中间页 ...
使用python登录CNZZ访问量统计网站，然后获取相应的数据
思路: 第一步:使用pypeteer.launcher打开浏览器, 第二步:向CNZZ的登录(通过使用iframe嵌入的阿里巴巴单点登录页面),向iframe页面中自动输入用户名和密码,然后点击登录按 ...
[JS,NodeJs]个人网站效果代码集合
上次发的个人网站效果代码集合: 代码集合: 1.彩色文字墙[鼠标涟漪痕迹] 2.彩色旋转圆环 [模仿http://www.moma.org/interactives/exhibitions/2012/ ...
python 常忘代码查询和autohotkey补括号脚本和一些笔记和面试常见问题
笔试一些注意点: --,23点43 今天做的京东笔试题目: 编程题目一定要先写变量取None的情况.今天就是因为没有写这个边界条件所以程序一直不对.以后要注意!!!!!!!!!!!!!!!!!!!!! ...

随机推荐

Web Service进阶(二)如何用Apache TCPMon来截获SOAP消息
注:以下是关于TCPMon的一些使用常识,如果不需要或是已经熟悉就不用往下看了. 在WebService服务器和客户机之间会传递SOAP消息,有时我们需要得到这些消息以便调试,而Apache的TCPM ...
Uva - 12504 - Updating a Dictionary
全是字符串相关处理,截取长度等相关操作的练习 AC代码: #include <iostream> #include <cstdio> #include <cstdlib& ...
（七十一）关于UITableView退出崩溃的问题和滚动到底部的方法
[TableView退出崩溃的问题] 最近在使用TableView时偶然发现在TableView中数据较多时,如果在滚动过程中退出TableView到上一界面,会引起程序的崩溃,经过网上查阅和思考我发 ...
网站开发进阶(三十四)编码中的setCharacterEncoding 理解
编码中的setCharacterEncoding 理解 1.pageEncoding="UTF-8"的作用是设置JSP编译成Servlet时使用的编码. 2.contentType ...
UICollectionView请求网络数据显示(Text)
TEXT: AppDelegate.m self.window.rootViewController = [[[UINavigationController alloc]initWithRootVie ...
简谈高通Trustzone的实现
从trust zone之我见知道,支持trustzone的芯片会跑在两个世界. 普通世界.安全世界,对应高通这边是HLOS,QSEE. 如下图: 如下是HLOS与QSEE的软件架构图 HLOS这两分为 ...
Android官方技术文档翻译——Gradle 插件用户指南（6）
没想到翻译这篇<Gradle 插件用户指南>拖了差不多一个月,还跨年了.不过还好,在2号时终于一口气把剩下的给翻译完了(其实那天剩下的也就不到一章). 今天先发一下第六章,明天再发第七章. ...
Java图形界面编程生成exe文件
1. 先将代码打成jar,然后使用exe4j转成exe ext4j下载链接:http://pan.baidu.com/s/1kTCIZtX 密码:pvj1 打开EXE4J Advanced Opti ...
字符转码开源库libiconv目前还不支持64位
最新版的libiconv 1.14目前还不支持64位系统,只能编译出32位库. libiconv 1.14下载地址: http://ftp.gnu.org/pub/gnu/libiconv/libic ...
Mahout 系列之----共轭梯度
无预处理共轭梯度要求解线性方程组 ,稳定双共轭梯度法从初始解开始按以下步骤迭代: 任意选择向量使得 ,例如, 对若足够精确则退出预处理共轭梯度预处理通常被用来加速迭代方法的收敛.要使用预 ...

Python-网站页面代码获取

Python-网站页面代码获取的更多相关文章

随机推荐

热门专题