13-爬取百度贴吧中的图片（python+xpath）

通过xpath分析页面，爬取页面中的图片:

#_*_ coding: utf-8 _*_

'''

Created on 2018年7月15日

@author: sss

function: 使用xpath还处理爬取的数据

'''

from lxml import etree

import urllib

from pip._vendor.distlib.compat import raw_input

from asyncio.tasks import sleep

class Spider:

    def __init__(self):

        self.tiebaName = raw_input('请输入需要爬去的贴吧的名字')

        self.beginPage = int(raw_input('其输入起始页'))

        self.endPage = int(raw_input('请输入终止页'))

        self.url = 'http://tieba.baidu.com/f'

        self.ua_header = {'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;'}

        #图片编号

        self.userName = 1

    #计算爬取页

    def tiebaSpider(self):

        for page in range(self.beginPage, self.endPage + 1):

            pn = (page - 1) * 50 #url中的page number

            word = {'pn': pn, 'kw': self.tiebaName}

            word = urllib.parse.urlencode(word ) #转化为url编码格式

            myUrl = self.url + '?' + word 

            #调用页面处理函数load_Page

            #并获取页面的所有帖子链接

            links = self.loadPage(myUrl)

    #开始抓取每个首页所有楼主发帖的标贴连接

    def loadPage(self, url ):

        req = urllib.request.Request(url, headers=self.ua_header)

        html = urllib.request.urlopen(req).read()    

        #解析html为html文档

        selector = etree.HTML(html)    

        #抓取当前页面的所有帖子的url的后部分，也就是帖子的编号

        # http://tieba.baidu.com/p/4884069807里的 “p/4884069807”

        links = selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

        #links类型为etreeElementString列表

        #遍历列表，并且合并成一个帖子地址，调用图片处理函数LoadImage

        for link in links:

            link = 'http://tieba.baidu.com' + link

            self.loadImages(link )

    #抓取每个首页中对应的每个楼主的发布详细页面

    def loadImages(self, link ):

        req = urllib.request.Request(link, headers= self.ua_header)

        html = urllib.request.urlopen(req).read()

        selector = etree.HTML(html)

        #获取这个帖子里的所有图片的src路径

        imagesLinks = selector.xpath('//img[@class="BDE_Image"]/@src')

        #获取图片路径，下载保存

        for imagesLink in imagesLinks:

            self.writeImages(imagesLink)

        print('完成所有下载！')

    #保存页面中的图片

    def writeImages(self, imagesLink):

        """

                    将Images里的二进制内容存入到userNname文件中

        """

        print(imagesLink)

        #通过图片连接获取图片内容：

        images = urllib.request.urlopen(imagesLink).read()

        print('正在存储文件%d...' % self.userName)

        #写入文件：

        with open('./images/' + str(self.userName) + '.png', 'wb') as f:  #存入也该项目同级的images文件夹中

            f.write(images)

        #计数器加一

        self.userName += 1  

if __name__ == '__main__':

    mySpider = Spider()

    mySpider.tiebaSpider()

13-爬取百度贴吧中的图片（python+xpath）的更多相关文章

Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...
python 爬取百度翻译进行中英互译
感谢RoyFans 他的博客地址http://www.cnblogs.com/royfans/p/7417914.html import requests def py(): url = 'http: ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

LeetCode Degree of an Array
原题链接在这里:https://leetcode.com/problems/degree-of-an-array/description/ 题目: Given a non-empty array of ...
在vue项目中正确的引入jquery和bootstrap
<script>标签引入jquery在vue脚手架里并不适用,需要利用webpack引入jquery 一.第一种方法 1:因为已经安装了vue脚手架,所以需要在webpack中全局引入jq ...
yield关键字用法与解析（C# 参考）
yield 关键字向编译器指示它所在的方法是迭代器块. 编译器生成一个类来实现迭代器块中表示的行为. 在迭代器块中,yield 关键字与 return 关键字结合使用,向枚举器对象提供值. 这是一个返 ...
Linux修改数据库的访问权限
以下方法可以帮助你解决这个问题了,下面的语句功能是,建立一个用户为monitor密码admin权限为和root一样.允许任意主机连接.这样你可以方便进行在本地远程操作数据库了. CREATE USER ...
JAX-RS之queryparam、PathParam、DefaultValue、FormParam、Context、RestController等
这几天做东西接触了JAX-RS的东西,没有系统的从开始就学,只是单纯去复制粘贴的用,主要用到了几个Annotations变量,具体如下: queryparam.PathParam.FormParam. ...
Linux 多路复用 select / poll
多路复用都是在阻塞模式下有效! linux中的系统调用函数默认都是阻塞模式,例如应用层读不到驱动层的数据时,就会阻塞等待,直到有数据可读为止. 问题:在一个进程中,同时打开了两个或者两个以上的文件,读 ...
git超速掌握之一(基本使用)
前言: 无论你是运维.开发还是IT爱好者,都会听说github了吧?动不动哪位大神就说在github上有什么什么项目,我的github地址是xxxxx,甚至有自己个github在找新工作时都能给自己加 ...
dxjk中支付宝二维码支付 git 存疑
线上的vendor/latrell/alipay 文件拉取不了至本地,失去了git监控要想本地使用 1.注释掉config/app.php 'providers' 下的Latrell模块 2.下载线 ...
Linux安装JRE tomcat配置java环境
安装JRE 到http://www.oracle.com/technetwork/java/javase/downloads/index.html下载JRE软件. 1.wget http://down ...
java.sql.SQLException: No suitable driver
java.sql.SQLException: No suitable driver at java.sql.DriverManager.getDriver(Unknown Source) at com ...

13-爬取百度贴吧中的图片（python+xpath）

13-爬取百度贴吧中的图片（python+xpath）的更多相关文章

随机推荐

热门专题