Python爬虫（一）抓取指定的页面

DockerChen 2024-10-02 04:13:28 原文

(以下是在windows环境下的操作，python版本为3)

1.urllib库介绍

官方文档上的解释是：

urllib is a package that collects several modules for working with URLs

简单的说就是用来处理url的，它包含以下几个模块：

urllib.request
urllib.request，打开并且读取url
urllib.error，包含了一些urllib.request引起的异常
urllib.parse，解析url
urllib.robotparser，解析robots.txt文件

2.request模块

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

这里，只需用到urllib.request模块，request模块包含了一些函数，用来处理打开的url。

urlopen()

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

该函数主要的参数就是url，可以是一个字符串也可以是一个request对象。

函数返回一个可以作为文本管理器的对象，有如下方法：

geturl()，返回检索到的url资源，通常用于确定是否允许重定向
info()，返回页面的元信息，例如headers
getcode()，返回响应的http状态码

为了清楚这些函数的作用是什么，我们运行如下python代码：

import urllib.request

url = "http://www.baidu.com"

a = urllib.request.urlopen(url)

print('----------type of a----------')

print(type(a))

print('----------geturl()----------')

print(a.geturl())

print('----------info()----------')

print(a.info())

print('----------getcode()----------')

print(a.getcode())

运行结果：

3.抓取百度上关键词的搜索结果

首先我们需要知道百度搜索的url，打开百度随便搜索一个词，就能在地址栏看到url

得到url之后，剩下的就是对url进行爬取了，代码如下：

# coding=utf-8

# Created by dockerchen

import urllib.request

data = {}

data['word'] = '网络安全'

url_values = urllib.parse.urlencode(data)

url = 'http://www.baidu.com/s?wd='

full_url = url + url_values

data = urllib.request.urlopen(full_url).read()

data = data.decode('utf-8')

print(data)

urllib.parse.urlencode()可以将字符串转换为url格式的字符串，这里data进行转换后，我们可以得到wd=%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8的字符串。

要是只想对一个字符串进行urlencode转换，可以使用urllib.parse.quote()，例如：

>>> import urllib.parse

>>> urllib.parse.quote('网络安全')

'%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8'

上面代码的输出结果其实就是爬取的百度页面搜索结果的源代码，之后要做的事，就是对爬取到的东西进行处理，来获取我们想要的数据

参考：

http://jecvay.com/2014/09/python3-web-bug-series1.html

Python爬虫（一）抓取指定的页面的更多相关文章

Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python爬虫，抓取淘宝商品评论内容!
作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡&qu ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
python爬虫批量抓取ip代理
使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁.ip代理可以从这个网站获取:http://www.xicidaili.com/nn/.因此写一个python程序来获取ip代 ...
Python爬虫：抓取手机APP的数据
摘要大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包表单: 表单中包括了用户名和密码,当然都是加密 ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...

随机推荐

【基础算法-模拟-例题-*校长的问题】-C++
为什么在题目前面打上星号呢? 这道题的正解不是模拟! 正解树状数组! 正解树状数组! 正解树状数组! 重要的事情说够三遍了! 但是,歪解模拟因为数据水都能AC! 因为这道题放在模拟专题中,所以我们就讨 ...
Redis原子性写入HASH结构数据并设置过期时间
Redis中提供了原子性命令SETEX或SET来写入STRING类型数据并设置Key的过期时间: > SET key value EX NX ok > SETEX key value ok ...
抓包自定义过滤器需加%XXXX%，如%third_play%
抓包自定义过滤器需加%XXXX%,如%third_play%
个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇
Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去 ...
C语言入门4-运算符和表达式
一. 分类 C语言一共有34种运算符,10种运算类型,本节我们要掌握的有( 7 种) 算术运算符(+.-.*./.%). 关系运算符(>.>=.==.!=.<.<=). ...
微信小程序全局状态管理 wxscv
微信小程序中,数据状态不同页面中不能跨页面同步更新,也就是缺失类似vuex,mobx,redux全局的数据状态管理功能. 有些人移植了这些库,但是毕竟不是微信小程序生态的东西. Tencent也发布了 ...
FTP文件传输服务器原理
FTP服务器,全称File Transfer Protocol Server,是在互联网上提供文件存储和访问服务的计算机,它们依照FTP协议提供服务.FTP,文件传输协议(File Transfer ...
解读equals()和hashCode()
前面部分摘自:https://blog.csdn.net/javazejian/article/details/51348320 一:Object中equals方法的实现原理 public boole ...
java - java集合类
1.接口实现类 ①List List list1 = new ArrayList(); List list2 = new LinkedList(); ②Set Set<String> se ...
vue+ elementUI 打包发布到服务器后，element-icons.woff文件404
vue项目打包部署到服务器,静态资源文件404 js文件404问题原因:打包的项目静态资源的路径需要设置为绝对路径.如果是相对路径会出错解决办法:修改config/index.js文 ...