python爬虫案例：使用XPath爬网页图片

用XPath来做一个简单的爬虫，尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。

# -*- coding:utf-8 -*-

import urllib

import urllib2

from lxml import etree

def loadPage(url):

    """

        作用：根据url发送请求，获取服务器响应文件

        url: 需要爬取的url地址

    """

    #print url

    #headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}

    request = urllib2.Request(url)

    html = urllib2.urlopen(request).read()

    # 解析HTML文档为HTML DOM模型

    content = etree.HTML(html)

    #print content

    # 返回所有匹配成功的列表集合

    link_list = content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')

    #link_list = content.xpath('//a[@class="j_th_tit"]/@href')

    for link in link_list:

        fulllink = "http://tieba.baidu.com" + link

        # 组合为每个帖子的链接

        #print link

        loadImage(fulllink)

# 取出每个帖子里的每个图片连接

def loadImage(link):

    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    request = urllib2.Request(link, headers = headers)

    html = urllib2.urlopen(request).read()

    # 解析

    content = etree.HTML(html)

    # 取出帖子里每层层主发送的图片连接集合

    #link_list = content.xpath('//img[@class="BDE_Image"]/@src')

    # link_list = content.xpath('//div[@class="post_bubble_middle"]')

    link_list = content.xpath('//img[@class="BDE_Image"]/@src')

    # 取出每个图片的连接

    for link in link_list:

        # print link

        writeImage(link)

def writeImage(link):

    """

        作用：将html内容写入到本地

        link：图片连接

    """

    #print "正在保存 " + filename

    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    # 文件写入

    request = urllib2.Request(link, headers = headers)

    # 图片原始数据

    image = urllib2.urlopen(request).read()

    # 取出连接后10位做为文件名

    filename = link[-10:]

    # 写入到本地磁盘文件内

    with open(filename, "wb") as f:

        f.write(image)

    print "已经成功下载 "+ filename

def tiebaSpider(url, beginPage, endPage):

    """

        作用：贴吧爬虫调度器，负责组合处理每个页面的url

        url : 贴吧url的前部分

        beginPage : 起始页

        endPage : 结束页

    """

    for page in range(beginPage, endPage + 1):

        pn = (page - 1) * 50

        #filename = "第" + str(page) + "页.html"

        fullurl = url + "&pn=" + str(pn)

        #print fullurl

        loadPage(fullurl)

        #print html

        print "谢谢使用"

if __name__ == "__main__":

    kw = raw_input("请输入需要爬取的贴吧名:")

    beginPage = int(raw_input("请输入起始页："))

    endPage = int(raw_input("请输入结束页："))

    url = "http://tieba.baidu.com/f?"

    key = urllib.urlencode({"kw": kw})

    fullurl = url + key

    tiebaSpider(fullurl, beginPage, endPage)

效果：

python爬虫案例：使用XPath爬网页图片的更多相关文章

Python 爬虫之 Beautifulsoup4，爬网站图片
安装: pip3 install beautifulsoup4 pip install beautifulsoup4 Beautifulsoup4 解析器使用 lxml,原因为,解析速度快,容错能力强 ...
【Python爬虫案例学习】下载某图片网站的所有图集
前言其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. 其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. 基本环境配置 python 版本:2.7 ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...

随机推荐

Walle实现自动发布
walle是啥?能干啥?有啥用?这些我都不会去一一道来,如果你还没有明白前面提出的三个问题就不用往下看了,这里这回将walle安装了怎么去使用.如果都要面面俱到不是一两篇博客可以解决的问题,如果希望将 ...
19.centos7基础学习与积累-005-命令总结01
从头开始积累centos7系统运用大牛博客:https://blog.51cto.com/yangrong/p5 1.查看命令帮助的方法: --help 适用于一般命令,非内置命令 man 适用于 ...
js 预解析以及变量的提升
js在执行之前会进行预解析. 什么叫预解析? 预:提前解析:编译预解析通俗的说:js在执行代码之前会读取js代码,会将变量声明提前. 变量声明包含什么?1.var 声明 2.函数的显示声明. 提前 ...
python笔记41-虚拟环境virtualenv
前言如果你是一个python初学者,我是不建议你搞python虚拟环境的,我看到很多python的初学者同学,使用最新版的pycharm,新建一个工程时候默认就是venu虚拟环境. 然后在使用cmd ...
微信小程序~扫码
为了让用户减少输入,我们可以把复杂的信息编码成一个二维码,利用宿主环境wx.scanCode这个API调起微信扫一扫,用户扫码之后,wx.scanCode的success回调会收到这个二维码所对应的字 ...
Python idle中lxml 解析HTML时中文乱码解决
例: <html><p>中文</p></html> 读取代码: 代码HTML需要进行decode('utf-8') 编译: p=etree.HTML(u ...
Python开发应用之-SQL 建索引的几大原则
SQL 建索引的几大原则: 最左前缀匹配原则,非常重要的原则,mysql会一直向右匹配直到遇到范围查询(>.<.between.like)就停止匹配,比如a = 1 and b = ...
CentOS7.6使用Virt-manager创建虚拟机报错
Virt-manager创建虚拟机遇到的一个问题解决环境:centos7.6 系统内核:3.10.0-957.el7.x86_64 virsh version 根据库编译:libvirt 4.5.0 ...
C++对象内存模型1（堆栈模型）（转）
对象内存模型一. 栈(Stack) VS. 堆(heap) 栈由系统自动管理,以执行函数为单位空间大小编译时确定(参数+局部变量) 函数执行时,系统自动分配一个stack 函数执行结束时,系统立 ...
c#中的new和override的实例
using System; using System.Collections.Generic; using System.Linq; using System.Text; /* 简单说,抽象方法是需要 ...

python爬虫案例：使用XPath爬网页图片

python爬虫案例：使用XPath爬网页图片的更多相关文章

随机推荐

热门专题