使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）

Kilichko 2024-10-31 10:21:29 原文

初学Scrapy，实现爬取网络图片并保存本地功能

一、先看最终效果

保存在F:\pics文件夹下

二、安装scrapy

1、python的安装就不说了，我用的python2.7，执行命令`pip install scrapy`，或者使用`easy_install` 命令都可以

2、可能会报如下错误

***********************************************************  Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?  ***********************************************************

1
2
3

1
2
3

解决方法：安装libxml2
下载对应的Python的版本，安装即可，网址：
https://pypi.python.org/pypi/lxml/3.4.4

三、创建项目

1、执行命令

scrapy startproject xiaohuar

1

1

会自动创建xiaohuar的scrapy项目

2、项目结构（我用的是WingIDE）

文件说明：
• scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）
• items.py 设置数据存储模板，用于结构化数据，如：Django的Model
• pipelines 数据处理行为，如：一般结构化的数据持久化
• settings.py 配置文件，如：递归的层数、并发数，延迟下载等
• spiders 爬虫目录，如：创建文件，编写爬虫规则

四、编写爬虫程序

1、在spiders文件夹下创建.py文件

代码中注释已经很详细了，就不解释了，关于解析html内容，使用的是xpath，之前使用Java的webmagic 爬虫框架也是使用的此种方式，所示还是比较熟悉，一些插叙语法参考步骤2

2、xpath查询语法

查询标签中带有某个class属性的标签：//div[@class=’c1’]即子子孙孙中标签是div且class=‘c1’的标签
• 查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签：//div[@class=’c1’][@name=’alex’]
• 查询某个标签的文本内容：//div/span/text() 即查询子子孙孙中div下面的span标签中的文本内容
• 查询某个属性的值（例如查询a标签的href属性）：//a/@href

3、运行

进入到xiaohuar目录，执行
scrapy crawl xiaohuar
可能会报以下错误，原因是少win32api的模块

解决方法：
选择对应的版本下载安装即可地址：
http://sourceforge.net/projects/pywin32/files/

4、关于scrapy shell终端

可以使用scrapy shell进行调试，例如执行
scrapy shell http://www.xiaohuar.com/list-1-1.html
就可以查看得到的数据

5、最后的说明

程序执行过程中可以设置爬取的深度，我这里没有设置，可能关掉cmd程序还在执行，可以结束python的进程，或者设置爬取深度

五、总结

最近学习在python，实现非常简单的一个爬虫当做练习，中间一些模块的缺少错误，在网上查询还是费了很多的时间，有的回答是没有解决的，总之自己实践之后才会更加深刻。

使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）的更多相关文章

Python使用Scrapy爬虫框架全站爬取图片并保存本地(妹子图)
大家可以在Github上clone全部源码. Github:https://github.com/williamzxl/Scrapy_CrawlMeiziTu Scrapy官方文档:http://sc ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
python scrapy爬虫框架概念介绍(个人理解总结为一张图)
python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 python和scrapy的安装就不介绍了,资料很多这里我个人总结一下,能更加快理解scrapy和快速上手一个简 ...
Python多线程Threading爬取图片，保存本地，openpyxl批量插入图片到Excel表中
之前用过openpyxl库保存数据到Excel文件写入不了,换用xlsxwriter 批量插入图片到Excel表中 1 import os 2 import requests 3 import re ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影
前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境语言:python 2 ...

随机推荐

SM2国密证书合法性验证
通常我们遇到过的X509证书都是基于RSA-SHA1算法的,目前国家在大力推行国密算法,未来银行发行的IC卡也都是基于PBOC3.0支持国密算法的,因此我们来学习一下如何验证SM2国密证书的合法性.至 ...
Webwork 学习之路【07】文件上传下载
Web上传和下载应该是很普遍的一个需求,无论是小型网站还是大并发访问的交易网站.WebWork 当然也提供了很友好的拦截器来实现对文件的上传,让我们可以专注与业务逻辑的设计和实现,在实现上传和下载时顺 ...
CUDA1.1-函数类型限定符与变量类型限定符
这部分来自于<CUDA_C_Programming_Guide.pdf>,看完<GPU高性能变成CUDA实战>的第四章,觉得这本书还是很好的,是一种循序渐进式的书,值得看,而不 ...
SignalR与ActiveMQ结合构建实时通信
一.概述本教程主要阐释了如何利用SignalR与消息队列的结合,实现不同客户端的交互 SignalR如何和消息队列交互(暂使用ActiveMQ消息队列) SignalR寄宿在web中和其他Signa ...
Nodejs基础：路径处理模块path总结
模块概览在nodejs中,path是个使用频率很高,但却让人又爱又恨的模块.部分因为文档说的不够清晰,部分因为接口的平台差异性. 将path的接口按照用途归类,仔细琢磨琢磨,也就没那么费解了. 获取 ...
Linux epoll 笔记(高并发事件处理机制）
wiki: Epoll优点: Epoll工作流程: Epoll实现机制: epollevent; Epoll源码分析: Epoll接口: epoll_create; epoll_ctl; epoll_ ...
MVC认知路【点点滴滴支离破碎】【二】----Razor服务器标记语言
Razor 代码块包含在 @{....}中内嵌表达式(变量和函数)已 @ 开头代码语句用分号结束变量使用 var 关键字声明字符创用引号括起来 C#代码区分大小写 C#文件的扩展是 .csht ...
windows server2008 r2 下启用 sqlserver 2008的远程连接
首先说明,本文转自互联网. TMD 花了二天,终于找到怎么开启这个远程连接了.....娘的,累死了,写下来,希望能帮助同胞们... 用win server 2008 r2 和sql server 20 ...
if..elif语句
根据用户输入内容打印其权限 # alex --> 超级管理员 # eric --> 普通管理员 # tony,rain --> 业务主管 # 其他 --> 普通用户 name ...
模块加载(require)及定义(define)时的路径
最近新公司在用requireJS进行JS的整合,刚开始接触有点蒙,于是深入了解了一下.requireJS主要是为了解决一下两个问题: (1)实现js文件的异步加载,避免网页失去响应: (2)管理模块之 ...