scrapy学习笔记(1)

初探scrapy，发现很多入门教程对应的网址都失效或者改变布局了，走了很多弯路。于是自己摸索做一个笔记。

环境是win10 python3.6(anaconda)。

安装

pip install scrapy

由于是第一次尝试，这次爬取美剧天堂（http://www.meijutt.com/）以下模块的剧名：

1.创建工程

scrapy startproject movie

2.编辑items.py，设置数据存储模版

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class MovieItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

3.查看网页源代码，在spiders目录下创建爬虫文件meiju.py，如下：

# -*- coding: utf-8 -*-

import scrapy

from movie.items import MovieItem

class MeijuSpider(scrapy.Spider):

    name = "meiju"

    allowed_domains = ["meijutt.com"]

    start_urls = ['http://meijutt.com/']

    def parse(self, response):

        movies=response.xpath('//div[@class="c1_l_wap_contact"]/ul/li')

        for each_movie in movies:

            item=MovieItem()

            item['name']=each_movie.xpath('./a/@title').extract()[0]

            yield item

在parse函数中取文档中（//为选择匹配的节点，不考虑位置；/为选择根目录下的节点）属性为c1_l_wap_condact的div标签下的ul标签中的li标签。对每个元素选取a标签中的title属性。返回list格式，取第一个元素。（xpath语法参见 http://www.w3school.com.cn/xpath/xpath_syntax.asp）

yield函数的作用：“函数中使用yield，可以使函数变成生成器。一个函数如果是生成一个数组，就必须把数据存储在内存中，如果使用生成器，则在调用的时候才生成数据，可以节省内存。 ”

4.settings.py中增加以下内容，激活item pipeline组件：

ITEM_PIPELINES = {'movie.pipelines.MoviePipeline':100}

这里的整数值决定pipelines运行的先后顺序，小的先运行，大的后运行。整数值通常设置在0-1000之间。

为了避免莫名奇妙的报错，暂时设置ROBOTSTXT_OBEY = False。以后会尽量遵守君子协定吧。。

5.编辑pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

class MoviePipeline(object):

    def process_item(self, item, spider):

        with open("my_meiju.txt",'ab+') as fp:

            fp.write(item['name'].encode('utf-8')+'\n'.encode('utf-8'))

        return item

为了写入中文并且每次写入新的一行而不要覆盖，使用'ab+'。'\n'也要转为utf8格式。

6.执行爬虫（在movie目录下）

scrapy crawl meiju

生成的txt文件会出现在目录下了。内容如下：

抵押第一季

沉默的天使第一季

此时此刻第一季

黑道无边第一季

芝加哥故事第一季

相对宇宙第一季

不列颠尼亚第一季

一起单身第一季

今天先探秘到这里~

scrapy学习笔记(1)的更多相关文章

Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy 学习笔记1
最近一段时间开始研究爬虫,后续陆续更新学习笔记爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...
Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够 ...
scrapy 学习笔记2
本章学习爬虫的回调和跟踪链接使用参数回调和跟踪链接上一篇的另一个爬虫,这次是为了抓取作者信息 # -*- coding: utf-8 -*- import scrapy class Myspi ...
scrapy学习笔记一
以前写爬虫都是直接手写获取response然后用正则匹配,被大佬鄙视之后现在决定开始学习scrapy 一.安装 pip install scrapy 二.创建项目 scrapy startprojec ...
Scrapy 学习笔记（一）数据提取
Scrapy 中常用的数据提取方式有三种:Css 选择器.XPath.正则表达式. Css 选择器 Web 中的 Css 选择器,本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的. ...
scrapy 学习笔记
1.scrapy 配合 selenium.phantomJS 抓取动态页面, 单纯的selemium 加 Firefox浏览器就可以抓取动态页面了, 但开启窗口太耗资源,而且一般服务器的linux 没 ...
scrapy学习笔记
1.scrapy用哪条命令行重新编辑已有的项目?cd projectname 2.如何在pycharm中开启scrapy?先在终端创建一个项目(即文件夹),再在pycharm中打开.

随机推荐

Linux下安装python的gmpy2库及遇到无法定位软件包的解决办法
gmpy2需要gmp.h &mpfr.h &mpc.h 安装命令: sudo apt-get install libmpfr-dev libmpc-dev 成功之后再输入安装命令: ...
django模型层优化(关联对象) 懒加载和预加载 +长链接
懒加载存在于外键和多对多关系不检索关联对象的数据调用关联对象会再次查询数据库问题根源查看django orm的数据加载,两次. 查询user,查询menu 预加载的方法预加载单个关联对象--s ...
theos安装详解
1.安装 Homebrew 安装命令官方网站 https://brew.sh 2.利用
npm安装less和less-loadernpm或者stylus和stylus-loader
vue-cli 构建的项目默认是不支持 less 的,需要自己添加. 首选,安装 less 和 less-loader ,在项目目录下运行如下命令 npm install less less-load ...
Windows Internals 笔记——字符和字符串处理
1.自Windows NT起,Windows的所有版本都完全用Unicode来构建,调用Windows函数时,如果向它传入一个ANSI字符串,那么函数首先会把字符串转换为Unicode,再把结果传给操 ...
在Pycharm中自动添加时间日期作者等信息
1.按照下面路径以此打开File→→Settings→→Editor→→File and code Templates 右侧找到Python Script,如下图 2.设置相关代码如下 ##!/usr ...
这里主要展示在Win7下怎么用IIS发布局域网站
首先对IIS做一个简要的介绍: IIS(InternetInformationServices)互联网信息服务的简称.本质是一种Web(网页)服务组件,其中包含Web.FTP和SMTP三大服务器,分别 ...
基于IPv6的数据包分析
1.首先我们来构建拓扑:如下所示 2.对各个路由器进行配置使得网络ping通:命令如下 a)配置各路由器接口的IPv6地址,可由上图注释配置 b)配置各路由器的静态路由(此处举例R4) (global ...
JMeter性能测试中控制业务比例
性能测试混合场景中,我们需要组合多个业务操作到场景中来.比如有一个论坛的业务分布如下:发布新帖与回复帖子的比例为2:3,那么我们在JMeter测试计划中如何控制其比例呢? 可以通过以下两种方式解决:多 ...
C#中异步调用示例与详解
using System; using System.Collections.Generic; using System.Text; using System.Runtime.InteropServi ...

scrapy学习笔记(1)

scrapy学习笔记(1)的更多相关文章

随机推荐

热门专题