Python简易爬虫爬取百度贴吧图片

　　　通过python 来实现这样一个简单的爬虫功能，把我们想要的图片爬取到本地。(Python版本为3.6.0)

一.获取整个页面数据

def getHtml(url):

    page=urllib.request.urlopen(url)

    html=page.read()

    return html

　说明:　

　　向getHtml()函数传递一个网址，就可以把整个页面下载下来.
　　urllib.request 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据.

二.筛选页面中想要的数据

　　在百度贴吧找到了几张漂亮的图片,想要下载下来.使用火狐浏览器,在图片位置鼠标右键单单击有查看元素选项,点进去之后就会进入开发者模式,并且定位到图片所在的前段代码

现在主要观察图片的正则特征,编写正则表达式.

reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
#参考正则

编写代码

def getImg(html):

    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'

    imgre = re.compile(reg)

    imglist = re.findall(imgre,html.decode('utf-8'))

    return imglist

说明:

　　　re.compile() 可以把正则表达式编译成一个正则表达式对象.

　　　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。

　　　　运行脚本将得到整个页面中包含图片的URL地址。

三.将页面筛选的数据保存到本地

　　编写一个保存的函数

def saveFile(x):

    if not os.path.isdir(path):

        os.makedirs(path)

    t = os.path.join(path,'%s.img'%x)

    return  t

完整代码:

'''

Created on 2017年7月15日

@author: Administrator

'''

import urllib.request,os

import re

def getHtml(url):

    page=urllib.request.urlopen(url)

    html=page.read()

    return html

path='D:/workspace/Python1/reptile/__pycache__/img'

def saveFile(x):

    if not os.path.isdir(path):

        os.makedirs(path)

    t = os.path.join(path,'%s.img'%x)

    return  t

html=getHtml('https://tieba.baidu.com/p/5248432620')

print(html)

print('\n')

def getImg(htnl):

    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'

    imgre=re.compile(reg)

    imglist=re.findall(imgre,html.decode('utf-8'))

    x=

    for imgurl in imglist:

        urllib.request.urlretrieve(imgurl,saveFile(x))

        print(imgurl)

        x+=

        if x==:

            break

    print(x)

    return imglist

getImg(html)

print('end')

核心是用到了urllib.request.urlretrieve()方法，直接将远程数据下载到本地

最后,有点问题还没有完全解决,这里也向大家请教一下.

　　当下载图片超过23张时会报错:

　　　　urllib.error.HTTPError: HTTP Error 500: Internal Server Error
　　不知道是什么问题,求助.

Python简易爬虫爬取百度贴吧图片的更多相关文章

【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块
一. urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib ...

随机推荐

记一次调试串口设备Bug的经历
最近花了差不多1天的时间在折腾一个Bug,该Bug的表象如下: 这个Bug还特别独特,在开发电脑中无提示,在终端用户那里每次使用软件的时候都报这个.仔细思考了一下最近在源码中新添加的功能,没发现有啥特 ...
Python 基于TK 文本编辑器
#coding=utf-8 import sys,os import tkFileDialog from Tkinter import * from tkFont import Font print ...
[BZOJ3675]序列分割
3675: [Apio2014]序列分割 Time Limit: 40 Sec Memory Limit: 128 MB Description 小H最近迷上了一个分隔序列的游戏.在这个游戏里,小H ...
jsp 文件使用 include指令导入 jspf 分析，及导入jspf 文件后出现乱码问题
1.为什么要导入jspf文件在做网站开发中,因为有很多的页面的导航栏是相同的,所以我们要把导航栏提取出来,生成一个jspf文件. 然后在jsp页面中使用 include 指令导入jspf文件,这样 ...
WPF MVVM 架构 Step By Step(6)（把actions从view model解耦）
到现在为止,我们创建了一个简单的MVVM的例子,包含了实现了的属性和命令.我们现在有这样一个包含了例如textbox类似的输入元素的视图,textbox用绑定来和view model联系,像点击but ...
数据结构与算法(c++)——查找二叉树与中序遍历
查找树ADT--查找二叉树定义:对于树中的每个节点X,它的左子树中的所有项的值小于X中的项,而它的右子树中所有项的值大于X中的项. 现在给出字段和方法定义(BinarySearchTree.h) # ...
远程连接mysql 授权方法详解
今在服务器上有mysql 数据库,远程访问,不想公布root账户,所以,创建了demo账户,允许demo账户在任何地方都能访问mysql数据库中shandong库. 方案一: 在安装mysql的机器 ...
响应式、手机端、自适应百分比实现div等宽等高的方法
在百分比布局中, 有时候会遇见一个头疼的问题,就是如果某个布局是正方形的话,我们在这种情况下考虑到适应各种媒体尺寸,又不能给它定固定的宽高. 之前遇见过纯色布局的结果我就用纯色图片代替实现的,现在有了 ...
【LeetCode】190. Reverse Bits
题目: Reverse bits of a given 32 bits unsigned integer. For example, given input 43261596 (represented ...
遇到attemp to invoke virtual method
这个很大原因是没有预先初始化sdk,检查application的配置是否配置了application:name

Python简易爬虫爬取百度贴吧图片

Python简易爬虫爬取百度贴吧图片的更多相关文章

随机推荐

热门专题