【Python】Python简易爬虫爬取百度贴吧图片

　　　通过python 来实现这样一个简单的爬虫功能，把我们想要的图片爬取到本地。(Python版本为3.6.0)

一.获取整个页面数据

def getHtml(url):

    page=urllib.request.urlopen(url)

    html=page.read()

    return html

　说明:　

　　向getHtml()函数传递一个网址，就可以把整个页面下载下来.
　　urllib.request 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据.

二.筛选页面中想要的数据

　　在百度贴吧找到了几张漂亮的图片,想要下载下来.使用火狐浏览器,在图片位置鼠标右键单单击有查看元素选项,点进去之后就会进入开发者模式,并且定位到图片所在的前段代码

现在主要观察图片的正则特征,编写正则表达式.

reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
#参考正则

编写代码

def getImg(html):

    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'

    imgre = re.compile(reg)

    imglist = re.findall(imgre,html.decode('utf-8'))

    return imglist

说明:

　　　re.compile() 可以把正则表达式编译成一个正则表达式对象.

　　　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。

　　　　运行脚本将得到整个页面中包含图片的URL地址。

三.将页面筛选的数据保存到本地

　　编写一个保存的函数

def saveFile(x):

    if not os.path.isdir(path):

        os.makedirs(path)

    t = os.path.join(path,'%s.img'%x)

    return  t

完整代码:

'''

Created on 2017年7月15日

@author: Administrator

'''

import urllib.request,os

import re

def getHtml(url):

    page=urllib.request.urlopen(url)

    html=page.read()

    return html

path='D:/workspace/Python1/reptile/__pycache__/img'

def saveFile(x):

    if not os.path.isdir(path):

        os.makedirs(path)

    t = os.path.join(path,'%s.img'%x)

    return  t

html=getHtml('https://tieba.baidu.com/p/5248432620')

print(html)

print('\n')

def getImg(htnl):

    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'

    imgre=re.compile(reg)

    imglist=re.findall(imgre,html.decode('utf-8'))

    x=0

    for imgurl in imglist:

        urllib.request.urlretrieve(imgurl,saveFile(x))

        print(imgurl)

        x+=1

        if x==23:

            break

    print(x)

    return imglist

getImg(html)

print('end')

核心是用到了urllib.request.urlretrieve()方法，直接将远程数据下载到本地

【Python】Python简易爬虫爬取百度贴吧图片的更多相关文章

Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urlli ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...

随机推荐

git改密码出现授权问题
git修改密码后显示Authentication failed for …… ,意思就是电脑修改密码后导致和git账户密码不匹配解决方法:
Prism for WPF 搭建一个简单的模块化开发框架（三）给TreeView加样式做成菜单
原文:Prism for WPF 搭建一个简单的模块化开发框架(三) 给TreeView加样式做成菜单昨天晚上把TreeView的样式做了一下,今天给TreeView绑了数据,实现了切换页面功能上 ...
Spring Cloud 熔断机制 -- 断路器
Spring Cloud 入门教程(七): 熔断机制 -- 断路器对断路器模式不太清楚的话,可以参看另一篇博文:断路器(Curcuit Breaker)模式,下面直接介绍Spring Cloud的断 ...
Linux 下获取本机IP
http://blog.csdn.net/K346K346/article/details/48231933 int main () { /* struct ifaddrs *ifap, *ifa; ...
Android官方开发文档Training系列课程中文版：目录
Android官方开发文档Training系列课程中文版:目录引言在翻译了一篇安卓的官方文档之后,我觉得应该做一件事情,就是把安卓的整篇训练课程全部翻译成英文,供国内的开发者使用,尤其是入门开 ...
SQLite FTS3/FTS4与一些使用心得
此文已由作者王攀授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 简介对于今天的移动.桌面客户端应用而言,离线全文检索的需求已经十分强烈,我们日常使用的邮件客户端.云音乐.云 ...
uvaoj 213 - Message Decoding（二进制，输入技巧）
https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem& ...
180706-BigDecimal除法的精度问题
BigDecimal除法的精度问题在使用BigDecimal的除法时,遇到一个鬼畜的问题,本以为的精度计算,结果使用返回0,当然最终发现还是自己的使用姿势不对导致的,因此记录一下,避免后面重蹈覆辙 ...
jmeter基础之录制篇
一.前言 jmeter如今被越来越多人喜爱的一款测试工具,相比于loadrunner它体积特轻便.jmeter不仅用来做单接口测试,压测还能做性能,主要是一款开源的,可以写一个你需要的插件功能再添加里 ...
jdk从1.8换成1.7后,查看版本还是1.8解决方法
因学习需要,需将jdk从1.8更改到1.7,其中遇到了些小麻烦,如果你也遇到这种麻烦,可以借鉴一下我的解决方法. 1.jdk的安装及环境变量的配置,详见https://jingyan.baidu.co ...

【Python】Python简易爬虫爬取百度贴吧图片

【Python】Python简易爬虫爬取百度贴吧图片的更多相关文章

随机推荐

热门专题