Scrapy爬虫库使用初体验

安装pip install Scrapy

中间可能会遇到的问题：

超时，网络问题需要多次尝试

缺少vc++库，官网可以下载

win32api缺失，https://sourceforge.net/projects/pywin32/?source=typ_redirect选择files标签页，下载对应版本的win32api，注意32位和64位，需要和自己的python版本对应一致

创建项目：

scrapy startproject *****

其中*****是你的项目名

本文中使用tutorial

目录如上图所示

在items.py中写入需要保存的字段

import scrapy

class TutorialItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    link = scrapy.Field()

    pass

上述代码中TutorialItem和项目名对应。这里保留两个字段，链接中的title和link

在spiders文件夹中新建爬虫文件命名随意，本文中命名为dmoz_spider.py

import scrapy

from tutorial.items import TutorialItem

class DmozSpider(scrapy.Spider):

    name = "dmoz"

    allowed_domains = ["http://www.wust.edu.cn/default.html"]

    start_urls = [

        "http://www.wust.edu.cn/default.html"

    ]

    def parse(self, response):

        for sel in response.xpath('//ul/li'):

            item = TutorialItem()

            item['title'] = sel.xpath('a/text()').extract()

            item['link'] = sel.xpath('a/@href').extract()

            yield item

这里定义了一个名为dmoz的爬虫，它去找存在于<ul>中的<li>中的<a>标签中的text和href，并将text赋给item中定义的title字段，将href赋给item中定义的link字段。=。=

yield 是用来在迭代时减少内存开销的

此时一个简单的爬虫已经搭建完成，这时我们运行

scrapy crawl dmoz -o result.josn -t json

就可以运行名为dmoz的爬虫，并将结果保存在result.json中，结果如图：

此处默认保存的是Unicode编码

Scrapy爬虫库使用初体验的更多相关文章

Java高级特性1_流库_初体验
Java高级特性流库_初体验面对结果编程在编程里, 有两种编程方式, 一种是面对过程编程, 一种是面对结果编程. 两者区别如下面向过程编程面向过程编程需要编程程序让程序依次执行得到自己想要的结 ...
[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Python爬虫框架--pyspider初体验
之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫.然后昨天我又 ...
python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨
python系列均基于python3.4环境 ---------@_@? --------------------------------------------------------------- ...
Scrapy 初体验
开发笔记 Scrapy 初体验 scrapy startproject project_name 创建工程 scrapy genspider -t basic spider_name website. ...
Node.js 网页瘸腿爬虫初体验
延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...
【Go 入门学习】第一篇关于 Go 的博客--Go 爬虫初体验
一.写在前面其实早就该写这一篇博客了,为什么一直没有写呢?还不是因为忙不过来(实际上只是因为太懒了).不过好了,现在终于要开始写这一篇博客了.在看这篇博客之前,可能需要你对 Go 这门语言有些基本的 ...
Scrapy初体验（一）环境部署
系统选择centOs 7,Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...

随机推荐

JAVA基础补漏--链表
查询慢:链表中数据不是连续的,每次查询元素,都得从头开始增删快:链表结构,增加或删除一个数据,对链表的整体结构没有影响,所以快.
Mybatis 通过动态SQL获取序列值
配置文件 <select id="getSeq" parameterType="string" resultType="long" ...
【TensorFlow/简单网络】MNIST数据集-softmax、全连接神经网络，卷积神经网络模型
初学tensorflow,参考了以下几篇博客: soft模型 tensorflow构建全连接神经网络 tensorflow构建卷积神经网络 tensorflow构建卷积神经网络 tensorflow构 ...
MVC 后台调用JS
示例控制器: public ActionResult Index() { ViewBag.js = "<script type='text/java ...
angular $q的学习笔记转帖
http://blog.segmentfault.com/bornkiller/1190000000402555 angular $q的一个不错的学习笔记
二十一 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存
注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件 spider是一个信号检测 # -*- coding: utf-8 -*- # Define your ite ...
java 不可不知的数据库知识-----事物
每一个java开发对数据库都不会陌生,提到数据库,那么就一定要了解的一个知识点------事物,下面就对事物简单记录一下相关知识点. 最初接触事物的时候其实是从JDBC事物开始的,JDBC比较基础,这 ...
nyoj20——有向无环图深搜模板
吝啬的国度时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述在一个吝啬的国度里有N个城市,这N个城市间只有N-1条路把这个N个城市连接起来.现在,Tom在第S号城市, ...
Using Oracle Database In-Memory with Oracle E-Business Suite
Database In-Memory is one of a number of options that can be deployed to address Oracle E-Business S ...
【Error】 : make 不是内部或外部命令，也不是可运行的程序
之前有段源码需要编译,一开始选择在Windows上编译,由于没有安装VS,只能采取Make + Gcc 的方式,虽然后来还是在ubuntu上编译的,但是遇到的问题还是要记录下来. 虽然我也把make的 ...

Scrapy爬虫库使用初体验

Scrapy爬虫库使用初体验的更多相关文章

随机推荐

热门专题