Python-爬虫-HTTP协议请求之GET请求

我们在百度搜索时，输入关键词，比如“hello”，URL发生变化，如下：

https://www.baidu.com/s?wd=hello&rsv_spt=1&rsv_iqid=0xfc1746f10002f457&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=6&rsv_sug1=6&rsv_sug7=100&rsv_t=bfb1srfxPDC%2B3vVQ8VIkfcg4Yus9EaBJZmHlVn5upgnCTMv99iZYH9iJSX3nVzXYdpeC

如果只截取前一部分“https://www.baidu.com/s?wd=hello”，搜索效果是相同的，wd=后面跟的就是我们要搜索的关键词。

因此，我们可以通过这个构造GET请求。

import urllib.request

keywd = 'hello'

url = 'http://www.baidu.com/s?wd=' + keywd

req = urllib.request.Request(url)

data = urllib.request.urlopen(req).read()

print(data)

with open('1.html', 'wb') as f:

    f.write(data)

也可以用另一种简化一点的方法，原理是相同的：

from urllib.request import urlopen

keywd = 'hello'

url = 'http://www.baidu.com/s?wd=' + keywd

html = urlopen(url).read()

with open('1.html', 'wb') as f:

    f.write(html)

这样保存到1.html的，就是我们想要的搜索结果网页。

但是对于汉字搜索，上面的程序就是报错，这是由于编码问题造成的。对于这个问题，可以利用urllib.parse中的quote解决，具体如下：

from urllib.request import urlopen

from urllib.parse import quote

keywd = quote('你好')

url = 'http://www.baidu.com/s?wd=' + keywd

html = urlopen(url).read()

with open('1.html', 'wb') as f:

    f.write(html)

Python-爬虫-HTTP协议请求之GET请求的更多相关文章

Python爬虫的开始——requests库建立请求
接下来我将会用一段时间来更新python爬虫网络爬虫大体可以分为三个步骤. 首先建立请求,爬取所需元素: 其次解析爬取信息,剔除无效数据: 最后将爬取信息进行保存: 今天就先来讲讲第一步,请求库re ...
小白学 Python 爬虫（32）：异步请求库 AIOHTTP 基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫---实现项目(二) 分析Ajax请求抓取数据
这次我们来继续深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,我们所需的数据是通过ajax渲染到页面上去的,这次我们来看看如何分析ajax 我们这次所使用的网络库还是上一节的Reques ...
【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片
1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果. from urllib.parse import urlencode from requests.excep ...
python 爬虫基于requests模块的get请求
需求:爬取搜狗首页的页面数据 import requests # 1.指定url url = 'https://www.sogou.com/' # 2.发起get请求:get方法会返回请求成功的响应对 ...
Python 爬虫-Robots协议
2017-07-25 21:08:16 一.网络爬虫的规模二.网络爬虫的限制 • 来源审查:判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的 ...
小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

Office应用程序对照表
任何Office应用程序(包括excel)的类型库都作为Office安装的一部分安装.类型库是特定于版本的(即,安装了哪个版本的Office). 例如,Office 2007版本为12.0,Offic ...
Android中自己定义一个shade.xml
自己定义一个shade: <shape>  <solid android:color="#ff9d77"/> <!- ...
管理员技术(二)：访问练习用虚拟机、命令行基础技巧、挂载并访问光盘设备、ls列表及文档创建、复制删除移动
一.访问练习用虚拟机目标: 学会在教学环境中访问练习用虚拟机,主要完成以下事项: 1> 快速重置教学虚拟机环境 2> 通过“虚拟系统管理器”访问虚拟机 3> ...
<iframe>框架标签的使用
同源下 1.iframe属性设置参考:https://blog.csdn.net/xiyiyindie/article/details/53415158 2.父子页面之间元素相互操作:https:// ...
ionic学习使用笔记（一）版本更新及创建项目时遇到的问题解决
最近开始用ionic开发项目,虽然去年的时候用ionic 2.0 开发过公司的项目,不过现在的ionic已经升级到了ionic framework 3.0 了.而且还有个 ionic-cli . 使用 ...
unittest框架学习笔记二之discover
coding=utf-8'''Created on 2018/3/29 author:star Project:discover测试用例''' import unittest,time,oslist= ...
java-Eclipse中使用JDBC连接数据库及相关操作
准备工作:mysql-connector-java-5.1.6-bin.jar配置 package com.job; import java.sql.Connection; import java.s ...
springboot入门级笔记
springboot亮点:不用配置tomcat springboot不支持jsp 准备:配置jdk 配置maven 访问https://start.spring.io/ 并生成自己的springboo ...
1、获取APP 冷/热启动时间
最近在研究Android APP性能测试.所以发现一些有趣的东西,在这里进行分享.我们先讲第一个内容,如何获取APP冷/热启动时间?为什么要做这个测试,道理其实很简单,如果启动APP特别耗时的话,用户 ...
高级UI晋升之常用View（三）下篇
更多Android高级架构进阶视频学习请点击:https://space.bilibili.com/474380680本篇文章将从WebView来介绍常用View: 一.WebView介绍 Andro ...

Python-爬虫-HTTP协议请求之GET请求

Python-爬虫-HTTP协议请求之GET请求的更多相关文章

随机推荐

热门专题