2.Python爬虫入门

 #2019-11-23

 #requests的api使用非常简单

 import requests

 import time

 if __name__=='__main__':

     # get请求

     url_get='http://www.httpbin.org/get'  #测试网站

     response_get=requests.get(url=url_get)

     #1.response.text 返回的是Unicode型的数据,适合得到文本

     #2.response.content 返回的是bytes型的数据,适合得到图片,视频(网络编程中，服务器和浏览器只认bytes类型数据)

     #2.response.headers 报文头

     print('get_text\n',response_get.text)

     print('get_content\n',response_get.content)

     print('get_header\n',response_get.headers)

     print('\n\n\n')

     # post请求(可以传递参数)

     url_post='http://www.httpbin.org/post'  #测试网站

     response_post=requests.get(url=url_post,data={'name':'softpo','id':'pie'}) #以字典方式传递参数

     #对于真实网站,如果参数不对,可能根本无法获取返回

     #1.response_post.text

     #2.response_post.content

     #3.response_post.headers

     print('post_text\n',response_post.text)

     print('post_content\n',response_post.content)

     print('post_headers\n',response_post.headers)

     #图片练习

     url_picture='http://c.hiphotos.baidu.com/image/pic/item/6c224f4a20a44623c3f7f2649722720e0cf3d7f3.jpg'

     response_picture=requests.get(url=url_picture)

     #创建一个.jpg文件,以二进制的方式进行写入

     with open('picture.jpg','wb') as fp:

         content=response_picture.content

         fp.write(content)

         print('picture保存成功!')

     #百度贴吧   贴吧url尾号第一页0,第二页50,第三页100....

     url_tieba='http://tieba.baidu.com/f?kw=%E6%9D%AD%E5%B7%9E%E7%94%B5%E5%AD%90%E7%A7%91%E6%8A%80%E5%A4%A7%E5%AD%A6&ie=utf-8&pn='

     for i in range(10):

         print(url_tieba+str(i*50))

         response_tieba=requests.get(url_tieba)

         html=response_tieba.text

         with open('./TieBa/%d.html'%(i+1),mode='w',encoding='utf-8') as fp: #自己设定文件目录

             fp.write(html)

             print('贴吧第%d页保存成功!'%(i+1))

         time.sleep(2) #如果对方有防护措施,可以使用time.sleep(n)进行休眠一段时间(n秒)

详解链接:https://blog.csdn.net/shanzhizi/article/details/50903748

2.Python爬虫入门_requests的更多相关文章

Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
python爬虫入门-开发环境与小例子
python爬虫入门开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python爬虫入门之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的 ...
Python爬虫入门之Cookie的使用
本节我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要 ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...

随机推荐

MyBatis之接口绑定方案及多参数传递
1.说明所谓的MyBatis接口绑定,指的是实现创建一个接口后,把mapper.xml 由mybatis 生成接口的实现类,通过调用接口对象就可以获取mapper.xml 中编写的sql.在SS ...
June 09th, 2019. Week 24th, Sunday
The beauty you see in me is a reflection of you. 你在我身上看到的美,正是你的倒影. From Jalaluddin Rumi. What we see ...
公司员工表示 nginx 之父被警方带走
ZDNet 12 日报导,俄罗斯警方当天突击搜查了 NGINX 公司(nginx 服务器项目商业化公司)在莫斯科的办事处,并带走了 NGINX 公司联合创始人 Igor Sysoev 与 Maxim ...
201871010123-吴丽丽《面向对象程序设计（Java）》第十三周学习总结
201871010123-吴丽丽<面向对象程序设计(Java)>第十三周学习总结项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ ...
关于python内open函数encoding编码问题
自己学python的open函数时,发现在pycharm里新建一个file_name.txt文本文件,输入中文保存.再用open(file_name,'r+')打开,再去读写时出现了一些问题.再三控制 ...
LeetCode 1245 树的直径
地址 https://leetcode-cn.com/contest/biweekly-contest-12/problems/tree-diameter/ 给你这棵「无向树」,请你测算并返回它的「直 ...
03. Go 语言容器
Go语言容器(container) 变量在一定程度上能满足函数及代码要求.如果编写一些复杂算法.结构和逻辑,就需要更复杂的类型来实现.这类复杂类型一般情况下具有各种形式的存储和处理数据的功能,将它们称 ...
利用 ROW_NUMBER() OVER ( ORDER BY 进行选择性排序，按不同字段进行排序处理，分页
--就在OVER order by 中用case语句进行判断. IF ( OBJECT_ID('tempdb..#TempTable') IS NOT NULL ) DROP TABLE #TempT ...
【2019.8.15 慈溪模拟赛 T1】插头（plugin）（二分+贪心）
二分首先,可以发现,最后的答案显然满足可二分性,因此我们可以二分答案. 然后,我们只要贪心,就可以验证了. 贪心不难发现,肯定会优先选择能提供更多插座的排插,且在确定充电器个数的情况下,肯定选择能 ...
Kettle在windows上安装
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,数据抽取高效稳定. 因为有个日常提数,工作日每天都要从数据库中提取数据,转换为excel,再以 ...

2.Python爬虫入门_requests

2.Python爬虫入门_requests的更多相关文章

随机推荐

热门专题