scrapy简单使用方法

1.创建项目：
scrapy startproject 项目名
例如：
scrapy startproject baike

windows下，cmd进入项目路径例如
d:\pythonCode\spiderProject>scrapy startproject baidubaike
将创建项目名为 baidubaike

2.使用命令创建一个爬虫：
scrapy genspider 爬虫名称需要爬取的网址
scrapy genspider baike baike.baidu.com

注意：爬虫名称不能和项目名相同

d:\pythonCode\spiderProject\baidubaike>scrapy genspider baike baike.baidu.com

命令执行后将在d:\pythonCode\spiderProject\baidubaike\baidubaike\spiders\下，生成baike.py

3.修改baike.py文件

import scrapy
from baidubaike.items import BaidubaikeItem
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList

class BaikeSpider(scrapy.Spider):
#爬虫名称
name = 'baike'
#需要爬取的网址
allowed_domains = ['baike.baidu.com']
#起始网址
start_urls = ['https://baike.baidu.com/art/%E6%8B%8D%E5%8D%96%E8%B5%84%E8%AE%AF']

def parse(self, response):
uls = response.xpath("//div[@class='list-content']/ul")
for ul in uls:
lis = ul.xpath(".//li")
#print(lis)
for li in lis:
title = li.xpath(".//a/text()").get()
time = li.xpath(".//span/text()").get()
item = BaidubaikeItem(title=title, time=time)
yield item

4.items.py

import scrapy

class BaidubaikeItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# pass
title = scrapy.Field()
time = scrapy.Field()

5.修改settings.py文件
1)开启 DEFAULT_REQUEST_HEADERS
修改如下
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}

2)将 ROBOTSTXT_OBEY = True 改为 ROBOTSTXT_OBEY = False
说明：
默认为True，就是要遵守robots.txt 的规则
将此配置项设置为 False ，拒绝遵守 Robot协议

3)开启 ITEM_PIPELINES
ITEM_PIPELINES = {
'baidubaike.pipelines.BaidubaikePipeline': 300,
}
其中，ITEM_PIPELINES是一个字典文件，键为要打开的ItemPipeline类，值为优先级，ItemPipeline是按照优先级来调用的，值越小，优先级越高。

6.修改pipelines.py文件
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

#第一种方式
#import json
#
#class BaidubaikePipeline(object):
#    def __init__(self):
#       #pass
#       self.fp = open('baike.json', 'w', encoding='utf-8')
#
#    def open_spider(self, spider):
#        print('爬虫开始了。。')
#
#    def process_item(self, item, spider):
#       item_json = json.dumps(dict(item), ensure_ascii=False)
#        self.fp.write(item_json+ '\n')
#        return item
#
#    def close_spider(self, spider):
#        self.fp.close()
#        print('爬虫结束了。。')
#

#第二种方式
#from scrapy.exporters import JsonItemExporter
#
#class BaidubaikePipeline(object):
#    def __init__(self):
#       #pass
#       self.fp = open('baike.json', 'wb')
#    self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')
#    self.exporter.start_exporting()
#
#    def open_spider(self, spider):
#        print('爬虫开始了。。')
#
#    def process_item(self, item, spider):
#        self.exporter.export_item(item)
#        return item
#
#    def close_spider(self, spider):
#        self.exporter.finish_exporting()
#     self.fp.close()
#        print('爬虫结束了。。')

#第三种方式
from scrapy.exporters import JsonLinesItemExporter

class BaidubaikePipeline(object):
def __init__(self):
      #pass
      self.fp = open('baike.json', 'wb')
      self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')

def open_spider(self, spider):
print('爬虫开始了。。')

def process_item(self, item, spider):
self.exporter.export_item(item)
return item

def close_spider(self, spider):
self.fp.close()
print('爬虫结束了。。')

7.运行爬虫
scrapy crawl 爬虫名

d:\pythonCode\spiderProject\baidubaike\baidubaike>scrapy crawl baike

scrapy简单使用方法的更多相关文章

scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
crawlscrapy简单使用方法
crawlscrapy简单使用方法 1.创建项目:scrapy startproject 项目名例如:scrapy startproject wxapp windows下,cmd进入项目路径例如d:\ ...
MySQL笔记-最简单的方法来解决找不到mysqld.sock文件的问题
首先,环境:ubuntu 14.04,采用apt-get的方式安装的,手动安装可能路径设置稍有区别. 1.安装MySQL后,用命令行首次启动时发现找不到Mysqld.sock文件,提示: ERROR ...
mfc显示静态图片最简单的方法
一致都是研究如何调用opencv显示动态图片,但是很多时候在显示图标的时候,都是需要显示静态图片,现在将最简单的方法总结下: 1.添加picture控件 2.添加资源,要求为bmp 3.修改属性结果 ...
ECshop设置301最快捷最简单的方法
ECshop设置301最快捷最简单的方法在 init.php中加入以下代码 if (strtolower($_SERVER['SERVER_NAME'])!='www.fz1688.com') { ...
git 的简单使用方法
git 的简单使用方法1. 服务器安装完成2. ssh 中的账号创建完成3. 创建 ssh 账号,会在 ssh 的安装目录下的home 目录里面,多了用户家目录4. 进入该目录 ,创建一个新的文件夹 ...
JavaScript，一个超级简单的方法判断浏览器的内核前缀
先说明,此处的方法是说超级简单的方法,不是指代码超级少,而是用非常简单的知识点,只要懂得怎么写JavaScript的行内样式就可以判断. 大家应该还记得JavaScript行内样式怎么写吧?(看来我是 ...
NET MVC1项目升级到MVC2最简单的方法
NET MVC1项目升级到MVC2最简单的方法把MVC1项目升级到MVC2,最简单的做法如下: 新建MVC2项目新建一个MVC2项目,把原来MVC1的项目文件全部拷贝到新建MVC2项目目录里,依照 ...
js 获取当天23点59分59秒时间戳（最简单的方法）
js 获取当天23点59分59秒时间戳 (最简单的方法) new Date(new Date(new Date().toLocaleDateString()).getTime()+24*60*60* ...

随机推荐

松软科技web课堂:SQLServer之SUM() 函数
SUM() 函数 SUM 函数返回数值列的总数(总额). SQL SUM() 语法 SELECT SUM(column_name) FROM table_name SQL SUM() 实例我们拥有下 ...
vscode自动修复eslint规范的插件及配置
在开发大型项目中,经常都是需要多人合作的.相信大家一定都非常头疼于修改别人的代码的吧,而合理的使用eslint规范可以让我们在代码review时变得轻松,也可以让我们在修改小伙伴们的代码的时候会更加清 ...
Node JS爬虫：阮老师网站背景图
小白,轻喷,本文教你三分钟入门爬虫前言有一天发现,阮一峰老师的博客图片很好看,想收藏一下,因为几百张,一张张下载太慢,朋友推荐了个谷歌插件(Fatkun)确实挺好用的,这之后就对爬虫有了兴趣,这个 ...
arcgis api 4.x for js 地图加载多个气泡窗口展示（附源码下载）
前言关于本篇功能实现用到的 api 涉及类看不懂的,请参照 esri 官网的 arcgis api 4.x for js:esri 官网 api,里面详细的介绍 arcgis api 4.x 各个类 ...
剑指offer 24：二叉搜索树的后序遍历序列
题目描述输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果.如果是则输出Yes,否则输出No.假设输入的数组的任意两个数字都互不相同. 解题思路后序遍历,顾名思义根节点位于尾部,故可将 ...
start_udev 是不是会写磁盘头
遇到一个案例,在这里记录一下一套Oracle 11.2.0.4 RAC环境,操作系统是RHEL 6.5,共享磁盘是通过UDEV实现RAW绑定设备名,如下 [root@rac1 opt]# ll /d ...
CentOS安装docker-compose
一.compose简介 compose是一个定义和运行多容器的docker应用的工具.compose 通过yaml文件配置应用服务,然后仅需一个命令就可以创建和运行所有配置中的服务. 二.compos ...
SPA项目开发之tab页实现
实现思路及细节 1.利用前面博客所讲的Vuex的知识:定义几个变量 Options:存放tab页对象的容器(主要是路由路径以及tab页的名字) activeIndex:被激活的tab页路由路径 sho ...
FormData的介绍（一）
FormData对象介绍FormData字母意思是表单数据,H5新增的一个内置对象.可以获取任何类型的表单数据,如text radio checkbox file textarea 常用语发送ajax ...
【hdu4045】Machine scheduling（dp+第二类斯特林数）
传送门题意: 从$n$个人中选$r$个出来,但每两个人的标号不能少于$k$. 再将$r$个人分为不超过$m$个集合. 问有多少种方案. 思路: 直接$dp$预处理出从\(n\ ...

scrapy简单使用方法

scrapy简单使用方法的更多相关文章

随机推荐

热门专题