python爬虫第一天

python爬虫第一天

太久没折腾爬虫又要重头开始了....感谢虫师大牛的文章.

接下来的是我的随笔

0x01 获取整个页面

我要爬的是百度贴吧的图，当然也是跟着虫师大牛的思路.

代码如下：

 #coding=utf-8
 import urllib
 #urllib 模块读取web页面相当于接口

 def gethtml(url):    #定义一个gethtml函数得到页面
     page = urllib.urlopen(url)
     html = page.read()
     return html
 html = gethtml("http://tieba.baidu.com/p/4674704187")

 print html

按照我的标注大概思路是这样，接着是虫师大牛的讲解：Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数:

　　urllib.urlopen()方法用于打开一个URL地址。

　　read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。

0x02 抓取数据

这里是我们想要的主题，代码如下：

 #coding=utf-8
 import urllib
 import re
 #urllib 模块读取web页面相当于接口,第二次正则表达试提图片

 def gethtml(url):    #定义一个gethtml函数得到页面
     page = urllib.urlopen(url)
     html = page.read()
     return html
 #在原来的基础上修改添加正则表达式的语句 src="http://imgsrc.baidu.com/forum/w%3D580/sign=ab2da672e124b899de3c79305e061d59/82777fec54e736d1ac3b007a93504fc2d5626915.jpg"
 def getimg(html):
     reg = r'scr="(.+?\.jpg)"pic_ext'
     imgre = re.compile (reg)
     imglist = re.findall (imgre,html) #牵扯到异步知识但还不算是，这里按顺序取得图片，我的理解.233
     return imglist

 html = gethtml("http://tieba.baidu.com/p/4674704187")
 print getimg(html)

　　我们又创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：

　　re.compile() 可以把正则表达式编译成一个正则表达式对象.

　　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。

　　运行脚本将得到整个页面中包含图片的URL地址。

0x03 通过筛选图片有序保存

 #coding=utf-8
 import urllib
 import re
 #urllib 模块读取web页面相当于接口,第二次正则表达试提图片

 def gethtml(url):    #定义一个gethtml函数得到页面
     page = urllib.urlopen(url)
     html = page.read()
     return html
 #在原来的基础上修改添加正则表达式的语句 src="http://imgsrc.baidu.com/forum/w%3D580/sign=ab2da672e124b899de3c79305e061d59/82777fec54e736d1ac3b007a93504fc2d5626915.jpg"
 def getimg(html):
     reg = r'scr="(.+?\.jpg)"pic_ext'
     imgre = re.compile (reg)
     imglist = re.findall (imgre,html)  #牵扯到异步知识但还不算是，这里按顺序取得图片
     x = 0                              #return imglist 在原来的基础上添加for循环并保存到本地
     for imgurl in imglist:
         urllib.urlretrieve(imgurl,'%s.jpg' % x)
         x+=1

 html = gethtml("http://tieba.baidu.com/p/4674704187")
 print getimg(html)

urllib.urlretrieve()保存到本地，通过一个for循环对获取的图片连接进行遍历，为了使图片的文件名看上去更规范，对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放目录。

python爬虫第一天的更多相关文章

Python爬虫第一步
这只是记录一下自己学习爬虫的过程,可能少了些章法.我使用过的是Python3.x版本,IDE为Pycharm. 这里贴出代码集合,这一份代码也是以防自己以后忘记了什么,方便查阅. import req ...
Python爬虫第一个成功版
爬取http://www.mzitu.com/all里面的图片 import urllib.request import re import os url = 'http://www.mzitu.co ...
猿人学python爬虫第一题
打开网站.F12,开启devtools.发现有段代码阻止了我们调试好的.接下来有几种解决方法 1- 绕过阻止调试方法方法1(推荐) 鼠标放在debugger该行,左边数字行号那一列.右键选择不在永 ...
Python爬虫第一集
import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 简单 ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程：半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进 ...
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对 ...
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针 ...

随机推荐

JavaScript高级程序设计---学习笔记（一）
今天,2017.3.17开始利用课余时间仔细学习<JavaScript高级程序设计>,将需要掌握的知识点记录下来,争取把书里的所有代码敲一遍并掌握. 1.标识符命名最好是第一个字母小写,剩 ...
javascript 类型的判断
在平常写js代码,类型判断必不可少,那么我们常见有哪几种?看到了标题,先不看你会想到那些方法 ,常用呢些呢?那么今天我自己总结一些判断类型的判断,如有错,万望告知! 1:typeof 常用这种方法不错 ...
datatables,表格
官方文档:https://datatables.net/ var dttblTaskOrderOptions={ order: [5, 'desc'], ajax:{ url:"order/ ...
jenkins+docker+maven+svn
环境介绍 1. 软件需求 Jenkins 本次实验所用版本1.5.1 下载链接:https://jenkins.io/index.html Docker 本次实验所用版本 17.03. ...
SPOJ - BITDIFF: Bit Difference [神妙の预处理]
tags:[数学][预处理]题解:我们用一种巧妙的预处理姿势:记录下每一个数位上分别出现了多少个1.如果第i个数位上出现了cnt[i]个1,那么,在这个数位上产生的"差异值"为:2 ...
Verilog读写文件
在通过编写Verilog代码实现ram功能时,需要自己先计算寄存器的位数和深度再编写代码. 而如果需要在编写的ram中预置值的话,就需要使用Verilog语言编写程序读写文件,来将相应的数据赋给寄存器 ...
jquery练习之瀑布流
最近有空简单学习了下瀑布流,写完后想和大家一起分享下,但我知道我的代码有很多缺陷不足,希望多多包涵.(纯属兴趣非专业学习人士) 众所周知,瀑布流大概分为2种,一种是浮动式的瀑布流,一种是定位式的瀑布流 ...
性能测试培训: 监控CPU之python
性能测试培训: 监控CPU之python 作为一名测试开发工程师,开发脚本是为了测试服务的,我们在手里没有性能监控工具的情况下,我们会自己来进行开发脚本完成监控任务.下面是python监控cpu '' ...
Struts2基础学习(七)—值栈和OGNL
目录: 一.值栈二.OGNL表达式一.值栈(ValueStack) 1.定义 ValueStack贯穿整个Acton的生命周期,每个Action类的对象实例都拥有一个ValueStack ...
Web性能优化工具WebPageTest（一）——总览与配置
网站性能优化工具大致分为两类:综合类和RUM类(实时监控用户类),WebPageTest属于综合类. WebPageTest通过布置一些特定的场景进行测试,例如不同的网速.浏览器.位置等. 测试完成后 ...

python爬虫第一天

python爬虫第一天的更多相关文章

随机推荐

热门专题