scrapy初体验

1. 构建scrapy项目

scrapy startproject ['项目名']

在spiders下生成文件

cd spiders

scrapy genspider douban_spider ['域名']

2. 明确目标

明确需要抓取哪些内容，在items.py中定义数据结构：

import scrapy

class DoubanItem(scrapy.Item):

    # 序号

    serial_number = scrapy.Field()

    # 电影名

    movie_name = scrapy.Field()

    # 介绍

    introduce = scrapy.Field()

    # 星级

    star = scrapy.Field()

    # 评论

    evaluate = scrapy.Field()

    # 描述

    describe = scrapy.Field()

3. spider文件编写

打开spider.py文件，默认会有三个参数：

class DoubanSpiderSpider(scrapy.Spider):

    # 爬虫名

    name = 'douban_spider'

    # 允许的域名，超出该域名的链接不会进行抓取

    allowed_domains = ['movie.douban.com']

    # 入口url

    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):

        pass

在def parse方法中进行内容解析：

def parse(self, response):

    print(response.text)

4. 启动scrapy项目

命令行中启动

# douban_spider 即spider.py中的爬虫名

scrapy crawl douban_spider

报错403的原因：user_agent设置不对，去settings.py中设置：

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

在pycharm中启动

创建一个main.py文件:

from scrapy import cmdline

if __name__ == '__main__':

    cmdline.execute('scrapy crawl douban_spider'.split())

5. 编写解析方式

如何解析是写在def parse(self, response)中。

xpath提取内容

需要去学习下xpath的语法

movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")

根据之前的item.py来封装对象
```
from douban.items import DoubanItem
```

具体代码

# 先使用xpath语法来选取，然后后跟text()函数获取内容

movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")

for item in movie_list:

    douban_item = DoubanItem()

    douban_item['serial_number'] = item.xpath(".//div[@class='item']//em/text()").extract_first()

    douban_item['movie_name'] = item.xpath(".//div[@class='info']//a/span/text()").extract_first()

    content = item.xpath(".//div[@class='bd']/p[1]/text()").extract()

    content_set = list()

    for i_content in content:

        tmp = ""

            for temp in i_content.split():

                tmp += temp

                content_set.append(tmp)

            douban_item['introduce'] = content_set

    douban_item['star'] = item.xpath(".//div[@class='star']/span[2]/text()").extract_first()

    douban_item['evaluate'] = item.xpath(".//div[@class='star']/span[4]/text()").extract_first()

    douban_item['describe'] = item.xpath(".//div[@class='bd']/p[2]/span/text()").extract_first()

# 重点

yield douban_item

对象解析完毕后务必要调用yield来进行提交
```
yield douban_item
```

6. 翻页实现

上面的代码只能读取当前页的信息，需要去抓取下一页的链接，然后再次yield

# 取下一页链接

next_link = response.xpath("//span[@class='next']/link/@href").extract()

# 如果不为最后一页

if next_link:

    next = next_link[0]

    yield scrapy.Request("https://movie.douban.com/top250" + next, callback=self.parse)

7. 保存输出

在命令的后边加入-o参数即可，支持json(unicode编码保存)、csv等多个格式

scrapy crawl douban_spider -o test.json

scrapy初体验的更多相关文章

Scrapy 初体验
开发笔记 Scrapy 初体验 scrapy startproject project_name 创建工程 scrapy genspider -t basic spider_name website. ...
Scrapy初体验（一）环境部署
系统选择centOs 7,Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, ...
scrapy初体验 - 安装遇到的坑及第一个范例
scrapy,python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.scrapy的安装稍 ...
Scrapy的初体验
上一节安装了python2和python3的开发环境首先第一步:进入开发环境,workon article_spider 进入这个环境: 安装Scrapy,在安装的过程中出现了一些错误:通常这些错误 ...
python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨
python系列均基于python3.4环境 ---------@_@? --------------------------------------------------------------- ...
[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
.NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
不知不觉,“.NET平台开源项目速览“系列文章已经15篇了,每一篇都非常受欢迎,可能技术水平不高,但足够入门了.虽然工作很忙,但还是会抽空把自己知道的,已经平时遇到的好的开源项目分享出来.今天就给大家 ...
Xamarin+Prism开发详解四：简单Mac OS 虚拟机安装方法与Visual Studio for Mac 初体验
Mac OS 虚拟机安装方法最近把自己的电脑升级了一下SSD固态硬盘,总算是有容量安装Mac 虚拟机了!经过心碎的安装探索,尝试了国内外的各种安装方法,最后在youtube上找到了一个好方法. 简单 ...
Spring之初体验
Spring之初体验 Spring是一个轻量级的Java Web开发框架,以IoC(Inverse of Control 控制反转)和 ...

随机推荐

git 重置密码后，本地电脑需要修改git密码
查看用户名git config user.name 查看密码git config user.password 查看邮箱git config user.email 修改密码git config --gl ...
winform控件拖动
示例代码 using System; using System.Collections.Generic; using System.Drawing; using System.Windows.Form ...
UML 有关类图知识及类间关系
原文链接:https://blog.csdn.net/mj_ww/article/details/53020346 1. 类的含义类图(Class diagram)显示了系统的静态结构,而系统的静态 ...
【记录一个问题】thinkpad x1笔记本，安装ubuntu 16后，拔掉U盘，总是启动到windows，无法启动到ubuntu
如题昨天使用ubuntu 18没有这个问题 ============================= 12:38 1.安装完成出现重启后,一定要拔掉U盘 2.BIOS里面的security boo ...
HBase之MinorCompact全程解析
转自:https://blog.csdn.net/u014297175/article/details/50456147 Compact作用当MemStore超过阀值的时候,就要flush到HDFS ...
vue学习13-自定义组件
1 <!DOCTYPE html> 2 <html lang='en'> 3 <head> 4 <meta charset='UTF-8'> 5 < ...
MyCms 自媒体 CMS 系统 v2.6，SEO 优化升级
MyCms 是一款基于Laravel开发的开源免费的自媒体博客CMS系统,助力开发者知识技能变现. MyCms 基于Apache2.0开源协议发布,免费且不限制商业使用,欢迎持续关注我们. V2.6 ...
golang中的25个关键字
Go 语言中会使用到的 25 个关键字或保留字: 1. 程序声明 import 导入 package 包 2. 程序实体声明和定义 chan 通道 var 变量声明 const 常量声明 func 用 ...
知识增强的预训练语言模型系列之KEPLER：如何针对上下文和知识图谱联合训练
原创作者 | 杨健论文标题: KEPLER: A unified model for knowledge embedding and pre-trained language representat ...
linux正则表达式(全面解析)
目录一:linux正则表达式介绍二:普通正则表达式三:扩展正则一:linux正则表达式介绍 1.正则表达式的分类(grep) 1.普通正则表达式 2.扩展正则表达式二:普通正则表达式 ^ : ...