Scrapy爬虫库使用初体验

安装pip install Scrapy

中间可能会遇到的问题：

超时，网络问题需要多次尝试

缺少vc++库，官网可以下载

win32api缺失，https://sourceforge.net/projects/pywin32/?source=typ_redirect选择files标签页，下载对应版本的win32api，注意32位和64位，需要和自己的python版本对应一致

创建项目：

scrapy startproject *****

其中*****是你的项目名

本文中使用tutorial

目录如上图所示

在items.py中写入需要保存的字段

import scrapy

class TutorialItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    link = scrapy.Field()

    pass

上述代码中TutorialItem和项目名对应。这里保留两个字段，链接中的title和link

在spiders文件夹中新建爬虫文件命名随意，本文中命名为dmoz_spider.py

import scrapy

from tutorial.items import TutorialItem

class DmozSpider(scrapy.Spider):

    name = "dmoz"

    allowed_domains = ["http://www.wust.edu.cn/default.html"]

    start_urls = [

        "http://www.wust.edu.cn/default.html"

    ]

    def parse(self, response):

        for sel in response.xpath('//ul/li'):

            item = TutorialItem()

            item['title'] = sel.xpath('a/text()').extract()

            item['link'] = sel.xpath('a/@href').extract()

            yield item

这里定义了一个名为dmoz的爬虫，它去找存在于<ul>中的<li>中的<a>标签中的text和href，并将text赋给item中定义的title字段，将href赋给item中定义的link字段。=。=

yield 是用来在迭代时减少内存开销的

此时一个简单的爬虫已经搭建完成，这时我们运行

scrapy crawl dmoz -o result.josn -t json

就可以运行名为dmoz的爬虫，并将结果保存在result.json中，结果如图：

此处默认保存的是Unicode编码

Scrapy爬虫库使用初体验的更多相关文章

Java高级特性1_流库_初体验
Java高级特性流库_初体验面对结果编程在编程里, 有两种编程方式, 一种是面对过程编程, 一种是面对结果编程. 两者区别如下面向过程编程面向过程编程需要编程程序让程序依次执行得到自己想要的结 ...
[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Python爬虫框架--pyspider初体验
之前接触scrapy本来是想也许scrapy能够让我的爬虫更快,但是也许是我没有掌握scrapy的要领,所以爬虫运行起来并没有我想象的那么快,看这篇文章就是之前使用scrapy的写得爬虫.然后昨天我又 ...
python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨
python系列均基于python3.4环境 ---------@_@? --------------------------------------------------------------- ...
Scrapy 初体验
开发笔记 Scrapy 初体验 scrapy startproject project_name 创建工程 scrapy genspider -t basic spider_name website. ...
Node.js 网页瘸腿爬虫初体验
延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...
【Go 入门学习】第一篇关于 Go 的博客--Go 爬虫初体验
一.写在前面其实早就该写这一篇博客了,为什么一直没有写呢?还不是因为忙不过来(实际上只是因为太懒了).不过好了,现在终于要开始写这一篇博客了.在看这篇博客之前,可能需要你对 Go 这门语言有些基本的 ...
Scrapy初体验（一）环境部署
系统选择centOs 7,Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...

随机推荐

js事件委托篇(附js一般写法和js、jq事件委托写法)
参考: jQuery代码优化:事件委托篇使用该技术能让你避免对特定的每个节点添加事件监听器:相反,事件监听器被添加在他们的父元素上,事件监听器会分析从子元素上冒泡上来的事件,并找到是哪个子元素事件. ...
Java对map进行排序并生成序号
最近做的项目有这样一个需求:要求对map中的值进行排序并生成序号.如果值相等则序号不变:如果不相等序号为该数数值在所有元素中的索引.如下表所示: Key(String) Value(Float) Id ...
Tomcat热部署，Web工程中线程没有终止
近期项目中,用 jenkins 热部署 web工程时,发现工程中静态持有的线程(将ScheduledExecutorService定时任务存储在静态Map中),导致不定时出现数据库访问事务关闭异常,如 ...
js中比较实用的函数用法
<table id="table"> <tr> <th>用户ID</th> <th>用户名</th> < ...
RabbitMQ Network Partitions
Clustering and Network Partitions RabbitMQ clusters do not tolerate network partitions well. If you ...
mybaties mapping中if..else
<select id="selectSelective" resultMap="xxx" parameterType="xxx"> ...
ssm中不能访问静态资源问题
最近用springmvc spring mybatis框架写程序,请求成功并获得数据,唯独css样式不能加载,但路径正确,css文件编码也是utf-8,用火狐debug总是显示未请求到(都快怀疑自己写 ...
java代码实现JVM栈溢出，堆溢出
参考博客:http://www.cnblogs.com/tv151579/p/3647238.html 背景知识: 栈存放什么:栈存储运行时声明的变量——对象引用(或基础类型, primitive)内 ...
jQuery Ajax总结
jQuery对Ajax的操作进行了封装.jQuery中\(.ajax()属于最底层的方法,这个放在后面说,首先看看封装了\).ajax()的方法. load()方法 load()可以远程载入HTML并 ...
Maven 三种archetype说明
新建Maven project项目时,需要选择archetype. 那么,什么是archetype? archetype的意思就是模板原型的意思,原型是一个Maven项目模板工具包.一个原型被定义为从 ...

Scrapy爬虫库使用初体验

Scrapy爬虫库使用初体验的更多相关文章

随机推荐

热门专题