爬虫初探(2)之requests

关于请求网络，requests这个库是爬虫经常用到的一个第三方库。

import requests

url = 'http://www.baidu.com'

#这里用get方法用来请求网页，其他还有post等方法来请求网页

data = requests.get(url)

print(data)

#<Response [200]>

print(data.text)#这里的 .text 就等同于上一篇中的 read()

#此时同样打印出网页源码

其余方法后期学习，方法列表如下：

#HTTP请求类型

#get类型

r = requests.get('https://github.com/timeline.json')

#post类型

r = requests.post("http://m.ctrip.com/post")

#put类型

r = requests.put("http://m.ctrip.com/put")

#delete类型

r = requests.delete("http://m.ctrip.com/delete")

#head类型

r = requests.head("http://m.ctrip.com/head")

#options类型

r = requests.options("http://m.ctrip.com/get")

#获取响应内容

print r.content #以字节的方式去显示，中文显示为字符

print r.text #以文本的方式去显示

#URL传递参数

payload = {'keyword': '日本', 'salecityid': ''}

r = requests.get("http://m.ctrip.com/webapp/tourvisa/visa_list", params=payload)

print r.url #示例为http://m.ctrip.com/webapp/tourvisa/visa_list?salecityid=2&keyword=日本

#获取/修改网页编码

r = requests.get('https://github.com/timeline.json')

print r.encoding

r.encoding = 'utf-8'

#json处理

r = requests.get('https://github.com/timeline.json')

print r.json() #需要先import json    

#定制请求头

url = 'http://m.ctrip.com'

headers = {'User-Agent' : 'Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 4 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Mobile Safari/535.19'}

r = requests.post(url, headers=headers)

print r.request.headers

#复杂post请求

url = 'http://m.ctrip.com'

payload = {'some': 'data'}

r = requests.post(url, data=json.dumps(payload)) #如果传递的payload是string而不是dict，需要先调用dumps方法格式化一下

#post多部分编码文件

url = 'http://m.ctrip.com'

files = {'file': open('report.xls', 'rb')}

r = requests.post(url, files=files)

#响应状态码

r = requests.get('http://m.ctrip.com')

print r.status_code

#响应头

r = requests.get('http://m.ctrip.com')

print r.headers

print r.headers['Content-Type']

print r.headers.get('content-type') #访问响应头部分内容的两种方式

#Cookies

url = 'http://example.com/some/cookie/setting/url'

r = requests.get(url)

r.cookies['example_cookie_name']    #读取cookies

url = 'http://m.ctrip.com/cookies'

cookies = dict(cookies_are='working')

r = requests.get(url, cookies=cookies) #发送cookies

#设置超时时间

r = requests.get('http://m.ctrip.com', timeout=0.001)

#设置访问代理

proxies = {

           "http": "http://10.10.10.10:8888",

           "https": "http://10.10.10.100:4444",

          }

r = requests.get('http://m.ctrip.com', proxies=proxies)

爬虫初探(2)之requests的更多相关文章

python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
Node.js 爬虫初探
前言在学习慕课网视频和Cnode新手入门接触到爬虫,说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http.网页分析工具cherrio. 使用http直接获取url路 ...
(转)Python爬虫利器一之Requests库的用法
官方文档以下内容大多来自于官方文档,本文进行了一些修改和总结.要了解更多可以参考官方文档安装利用 pip 安装 $ pip install requests 或者利用 easy_install ...
[python爬虫]Requests-BeautifulSoup-Re库方案--Requests库介绍
[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写文章中部分图片来自老师PPT 慕课链接:https://www.icourse163.org/learn/BIT-10018 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
Python爬虫利器一之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
网络爬虫必备知识之requests库
就库的范围,个人认为网络爬虫必备库知识包括urllib.requests.re.BeautifulSoup.concurrent.futures,接下来将结对requests库的使用方法进行总结 1. ...
爬虫系列(八) 用requests实现天气查询
这篇文章我们将使用 requests 调用天气查询接口,实现一个天气查询的小模块,下面先贴上最终的效果图 1.接口分析虽然现在网络上有很多免费的天气查询接口,但是有很多网站都是需要注册登陆的,过程比 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...

随机推荐

401 - 未授权：由于凭据无效，访问被拒绝”在iis的解决办法
1.打开"IIS信息服务管理器"-->选择你发布的网站-->选择功能视图中的"身份验证"-->右键匿名身份验证,选择"编辑" ...
前端自学vs跟大神系统学？你看着办
前端自学vs跟大神系统学?你看着办一名广告专业学生,在大三的时候对于广告行业的前景不是很看好,转而自学web前端,刚开始接触的前端语言是html(html应该不算编程语言),上手很容易,在w3csh ...
R3.2.2安装
Android开发之MVP模式的使用
前几天发现,在Android项目代码里有一个Activity类行数居然有1000多行,而600行左右都是逻辑控制,真正和页面控件处理相关的代码不多,虽然可以用#region <>...#e ...
【Java EE 学习 53】【Spring学习第五天】【Spring整合Hibernate】【Spring整合Hibernate、Struts2】【问题：整合hibernate之后事务不能回滚】
一.Spring整合Hibernate 1.如果一个DAO 类继承了HibernateDaoSupport,只需要在spring配置文件中注入SessionFactory就可以了:如果一个DAO类没有 ...
Notepad++正则表达式语法
\ 转义字符如:要使用 “\” 本身, 则应该使用“\\” \t Tab制表符注:扩展和正则表达式都支持 \r 回车符CR 注:扩展支持,正则表达式不支持 \n 换行符LF ...
js简单的设置快捷键，hotkeys捕获键盘键和组合键的输入
设置快捷键这是一个强健的 Javascript 库用于捕获键盘输入和输入的组合键,它没有依赖,压缩只有只有(~3kb). hotkeys on Githubhotkeys预览创建您将需要在您的系 ...
Office文档在线预览
工具说明:通过传入文档的Web地址,即可进行Office文档的在线预览. 使用方式: 在http://office.qingshanboke.com地址后,通过url参数传入您想预览的文件路径. 如: ...
自用VS Code 上的Markdown 编辑器css
目标效果如下: 主题使用:Markdown Yellow 主题[https://marketplace.visualstudio.com/items?itemName=ms-vscode.Theme- ...
【原创】内核ShellCode注入的一种方法
标题: [原创]内核ShellCode注入的一种方法作者: organic 时间: 2013-05-04,04:34:08 链接: http://bbs.pediy.com/showthre ...

爬虫初探(2)之requests

爬虫初探(2)之requests的更多相关文章

随机推荐

热门专题