python3爬虫初探（四）之文件保存

【python3爬虫初探（四）之文件保存】的更多相关文章

python3爬虫初探（四）之文件保存

接着上面的写,抓取到网址之后,我们要把图片保存到本地,这里有几种方法都是可以的. #-----urllib.request.urlretrieve----- import urllib.request imgurl = 'http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupian-007.jpg'#前面获取网址中的一个. urllib.request.urlretrieve(imgurl, 'F:\\Techonolgoy\\P…

python3爬虫初探（五）之从爬取到保存

想一想,还是写个完整的代码,总结一下前面学的吧. import requests import re # 获取网页源码 url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/' data = requests.get(url).text #正则表达式三部曲 #<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width=&q…

python3爬虫初探（一）之urllib.request

---恢复内容开始--- #小白一个,在此写下自己的python爬虫初步的知识.如有错误,希望谅解并指出. #欢迎和大家交流python爬虫相关的问题 #2016/6/18 #----第一把武器-----urllib.request--------- urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码.话不多说,上代码. import urllib.request #调入要使用的库 url = 'http://www.baidu…

python3爬虫初探（二）之requests

关于请求网页,不得不提requests这个库,这是爬虫经常用到的一个第三方库,用pip安装即可. requests用法很多,这里只写一些基础的,其他高级功能可参考官方文档. import requests url = 'http://www.baidu.com' #这里用get方法用来请求网页,其他还有post等方法来请求网页 data = requests.get(url) print(data) #<Response [200]> print(data.text)#这里的 .text 就等…

Python3爬虫（四）请求库的使用requests

Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.基本用法: 1. 安装: pip install requests 2. 例子: import requests url = 'http://www.baidu.com' r = requests.get(url) print(type(r)) # 类型是str(JSON格式) print(r.status_code) print(r.text) print(r.cookies) [注]其余请求方法也是一样…

python3爬虫初探（三）之正则表达式

前面已经写了如何获取网页源码,那么接下来就是该解析网页并提取需要的数据了.这里简单写一下正则表达的用法. 首先,找个要抓取图片的网站,获取源码. import requests import re # 获取网页源码 url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/' data = requests.get(url).text 小黄人的图...接下来浏览器检查元素,发现图片源码格式,前面均为<img ,结尾均为 .jpg 而我们要提取的…