Python爬虫（一）抓取指定的页面

DockerChen 2024-10-02 04:13:28 原文

(以下是在windows环境下的操作，python版本为3)

1.urllib库介绍

官方文档上的解释是：

urllib is a package that collects several modules for working with URLs

简单的说就是用来处理url的，它包含以下几个模块：

urllib.request
urllib.request，打开并且读取url
urllib.error，包含了一些urllib.request引起的异常
urllib.parse，解析url
urllib.robotparser，解析robots.txt文件

2.request模块

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

这里，只需用到urllib.request模块，request模块包含了一些函数，用来处理打开的url。

urlopen()

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

该函数主要的参数就是url，可以是一个字符串也可以是一个request对象。

函数返回一个可以作为文本管理器的对象，有如下方法：

geturl()，返回检索到的url资源，通常用于确定是否允许重定向
info()，返回页面的元信息，例如headers
getcode()，返回响应的http状态码

为了清楚这些函数的作用是什么，我们运行如下python代码：

import urllib.request

url = "http://www.baidu.com"

a = urllib.request.urlopen(url)

print('----------type of a----------')

print(type(a))

print('----------geturl()----------')

print(a.geturl())

print('----------info()----------')

print(a.info())

print('----------getcode()----------')

print(a.getcode())

运行结果：

3.抓取百度上关键词的搜索结果

首先我们需要知道百度搜索的url，打开百度随便搜索一个词，就能在地址栏看到url

得到url之后，剩下的就是对url进行爬取了，代码如下：

# coding=utf-8

# Created by dockerchen

import urllib.request

data = {}

data['word'] = '网络安全'

url_values = urllib.parse.urlencode(data)

url = 'http://www.baidu.com/s?wd='

full_url = url + url_values

data = urllib.request.urlopen(full_url).read()

data = data.decode('utf-8')

print(data)

urllib.parse.urlencode()可以将字符串转换为url格式的字符串，这里data进行转换后，我们可以得到wd=%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8的字符串。

要是只想对一个字符串进行urlencode转换，可以使用urllib.parse.quote()，例如：

>>> import urllib.parse

>>> urllib.parse.quote('网络安全')

'%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8'

上面代码的输出结果其实就是爬取的百度页面搜索结果的源代码，之后要做的事，就是对爬取到的东西进行处理，来获取我们想要的数据

参考：

http://jecvay.com/2014/09/python3-web-bug-series1.html

Python爬虫（一）抓取指定的页面的更多相关文章

Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python爬虫，抓取淘宝商品评论内容!
作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡&qu ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
python爬虫批量抓取ip代理
使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁.ip代理可以从这个网站获取:http://www.xicidaili.com/nn/.因此写一个python程序来获取ip代 ...
Python爬虫：抓取手机APP的数据
摘要大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包表单: 表单中包括了用户名和密码,当然都是加密 ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...

随机推荐

Spark第一周
Why Scala 在数据集不是很大的时候,开发人员可以使用python.R.MATLAB等语言在单机上处理数据集.但是在大数据时代,数据集少说都是TB.PB级别,此时便需要分布式地处理.相较于上述语 ...
c++小游戏——职业战争
#include<iostream> #include<cstdlib> #include<ctime> #include<cstring> #incl ...
基于TCP协议的套接字编程
06.26自我总结 1.关于Socket Socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口.在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在 ...
关于Redis的几件小事 | 高并发和高可用
如果你用redis缓存技术的话,肯定要考虑如何用redis来加多台机器,保证redis是高并发的,还有就是如何让Redis保证自己不是挂掉以后就直接死掉了. redis高并发:主从架构,一主多从,一般 ...
Netty中的策略者模式
策略者模式的特点在设计类的继承体系时,我们会刻意的把公共的部分都提取到基类中比如先设计Person类,把人类都具有的行为放到这个Person,特有的行为设计成抽象方法,让子类具体去实现, 这样后续 ...
Uncaught ReferenceError: xxx is not defined 解决办法
VM11371:1 Uncaught ReferenceError: inputSize is not defined at <anonymous>:1:1 解决办法(根据需求调整) ...
7月新的开始 - LayUI的基本使用 - 分页
LayUI 分页处理数据展示是以表格的形式展示的.使用模块如下: 首先使用内置模块-数据表格然后使用内置模块-分页官方文档地址:https://www.layui.com/doc/ 官方示例地址 ...
python课堂整理16---内置函数
1. abs :求绝对值 print(abs(-1)) 2. all()传入一个可迭代对象,对该对象进行bool值运算,若都为True 就返回True,有一个为假,就返回False print(all ...
研究分布式唯一ID生成，看完这篇就够
很多大的互联网公司数据量很大,都采用分库分表,那么分库后就需要统一的唯一ID进行存储.这个ID可以是数字递增的,也可以是UUID类型的. 如果是递增的话,那么拆分了数据库后,可以按照id的hash,均 ...
spring使用thymeleaf
一.spring使用thymeleaf做解析器其实很简单,这是基于xml配置的方式 <?xml version="1.0" encoding="UTF-8" ...