13-爬取百度贴吧中的图片(python+xpath)
通过xpath分析页面,爬取页面中的图片:

#_*_ coding: utf-8 _*_ '''
Created on 2018年7月15日
@author: sss
function: 使用xpath还处理爬取的数据 '''
from lxml import etree
import urllib
from pip._vendor.distlib.compat import raw_input
from asyncio.tasks import sleep class Spider:
def __init__(self):
self.tiebaName = raw_input('请输入需要爬去的贴吧的名字')
self.beginPage = int(raw_input('其输入起始页'))
self.endPage = int(raw_input('请输入终止页')) self.url = 'http://tieba.baidu.com/f'
self.ua_header = {'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;'} #图片编号
self.userName = 1 #计算爬取页
def tiebaSpider(self):
for page in range(self.beginPage, self.endPage + 1):
pn = (page - 1) * 50 #url中的page number
word = {'pn': pn, 'kw': self.tiebaName} word = urllib.parse.urlencode(word ) #转化为url编码格式
myUrl = self.url + '?' + word #调用页面处理函数load_Page
#并获取页面的所有帖子链接
links = self.loadPage(myUrl) #开始抓取每个首页所有楼主发帖的标贴连接
def loadPage(self, url ):
req = urllib.request.Request(url, headers=self.ua_header)
html = urllib.request.urlopen(req).read() #解析html为html文档
selector = etree.HTML(html) #抓取当前页面的所有帖子的url的后部分,也就是帖子的编号
# http://tieba.baidu.com/p/4884069807里的 “p/4884069807”
links = selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href') #links类型为etreeElementString列表
#遍历列表,并且合并成一个帖子地址,调用图片处理函数LoadImage
for link in links:
link = 'http://tieba.baidu.com' + link
self.loadImages(link ) #抓取每个首页中对应的每个楼主的发布详细页面
def loadImages(self, link ):
req = urllib.request.Request(link, headers= self.ua_header)
html = urllib.request.urlopen(req).read() selector = etree.HTML(html) #获取这个帖子里的所有图片的src路径
imagesLinks = selector.xpath('//img[@class="BDE_Image"]/@src') #获取图片路径,下载保存
for imagesLink in imagesLinks:
self.writeImages(imagesLink) print('完成所有下载!') #保存页面中的图片
def writeImages(self, imagesLink):
"""
将Images里的二进制内容存入到userNname文件中
"""
print(imagesLink) #通过图片连接获取图片内容:
images = urllib.request.urlopen(imagesLink).read() print('正在存储文件%d...' % self.userName) #写入文件:
with open('./images/' + str(self.userName) + '.png', 'wb') as f: #存入也该项目同级的images文件夹中
f.write(images) #计数器加一
self.userName += 1 if __name__ == '__main__':
mySpider = Spider()
mySpider.tiebaSpider()
13-爬取百度贴吧中的图片(python+xpath)的更多相关文章
- Python 爬虫练习: 爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本 实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
- 使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
- Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...
- python 爬取百度翻译进行中英互译
感谢RoyFans 他的博客地址http://www.cnblogs.com/royfans/p/7417914.html import requests def py(): url = 'http: ...
- 写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...
- Python爬虫实例(一)爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取 例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
- Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
- Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖 ...
- 百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
随机推荐
- 使用stm32F4Discovery 的stlink v2给其他板子调试
不适用stm8. 1. 拔掉 CN3 的 跳线帽 2.CN2 的 原理图 3.按照2中的原理图和板子(核心板stm32c8t6),实际上我这边连接使用的结果是: 4. 5. 6.相关资料: 链接:ht ...
- POJ 2029 Palindromes _easy version
#include<cstdio> #include<cstring> using namespace std; int main() { int n; ]; scanf(&qu ...
- [Luogu4475]巧克力王国
luogu 题意 平面上有\(n\)个点,每个点\((x_i,y_i)\),价值为\(w_i\).\(m\)次询问,每次给出\(a_i,b_i,c_i\)求满足\(a_ix+b_iy<c_i\) ...
- 记录一下 C51 里的位运算
记录一下 C51 里的位运算 一篇上个世纪的文章<单片机的C语言中位操作用法>1 今天看到一个这样的运算,这相当于清了 XICFG. #define INT1IS1 0x80 #defin ...
- 【转】学习使用Jmeter做压力测试(三)--数据库测试
JMeter可以做为Web服务器与浏览器之间的代理网关,以捕获浏览器的请求和Web服务器的响应,这样就可很容易的生成性能测试脚本.根据脚本,JMeter可通过线程组来模拟真实用户对Web服务器做压力测 ...
- 文化之旅(dijstra)
2012_p4 文化之旅 (culture.cpp/c/pas) 时间限制: 1 Sec 内存限制: 128 MB提交: 43 解决: 16[提交][状态][讨论版][命题人:外部导入] 题目描述 ...
- 1136 A Delayed Palindrome
题意:略. 思路:大整数相加,回文数判断.对首次输入的数也要判断其是否是回文数,故这里用do...while,而不用while. 代码: #include <iostream> #incl ...
- win10系统怎么关闭自动更新
现在win10已经很普遍了,对于win10 现在还不是很完美,比如自动更新功能,现在的选项中没有关闭自动更新的选项了,这是一个bug,微软要强制更新.我就忍受不了自动更新,会拉取网络,影响我们的上网体 ...
- oracle查看表空间和物理文件大小
查看各表空间的使用情况 select a.tablespace_name,a.bytes/1024/1024 "Sum MB",(a.bytes-b.bytes)/1024/102 ...
- Windows可信任路径代码执行漏洞
乌云里有很多这样的案例,当然在开发过程中也会存在这样的问题 搜索:可信任路径漏洞 调用案例中的描述: Microsoft Windows API使用CreateProcess()函数创建新的进程及其主 ...