scrapy爬虫系列之一--scrapy的基本用法

功能点：scrapy基本使用

爬取网站：传智播客老师

完整代码：https://files.cnblogs.com/files/bookwed/first.zip

主要代码：

ff.py

# -*- coding: utf-8 -*-

import scrapy

from first.items import FirstItem

class FfSpider(scrapy.Spider):    #scrapy.Spider是最基本的类，必须继承这个类

    # 爬虫名称

    name = 'ff'

    # 允许的域名，可选

    allowed_domains = ['itcast.cn']

    start_urls = ['http://www.itcast.cn/channel/teacher.shtml']

    # 默认的Request对象回调函数，用来处理网页返回的response，以及生成Item或者Request对象

    def parse(self, response):

        teacher_list = response.xpath("//div[@class='li_txt']")

        for teacher in teacher_list:

            # 创建item对象

            item = FirstItem()

            # 此处由于疏忽，把teacher写成了item，结果找了半天

            name = teacher.xpath("./h3/text()").extract()        # xpath返回的是xpath对象，需要用extract提取字符串，同时，因为返回的是一个列表，所以要用[0]取值

            level = teacher.xpath("./h4/text()").extract()

            desc = teacher.xpath("./p/text()").extract()

            item["name"] = name[0]

            item["level"] = level[0]

            item["desc"] = desc[0]

            yield item

pipelines.py

import json

# 注意点：对应的settings配置，别忘了打开注释

# 可以做数据去重

class FirstPipeline(object):

    def __init__(self):

        self.f = open('teachers.json', 'w', encoding='utf-8')

    # 处理item

    def process_item(self, item, spider):

        print(dict(item))

        content = json.dumps(dict(item), ensure_ascii=False)

        self.f.write(content+",")

        self.f.write("\n")

        return item

    def close_spider(self):

        self.f.close()

scrapy爬虫系列之一--scrapy的基本用法的更多相关文章

[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
scrapy爬虫系列之开头--scrapy知识点
介绍:Scrapy是一个为了爬取网站数据.提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速抓取.Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度. 0.说明: ...
爬虫系列之Scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
scrapy爬虫系列之六--模拟登录
功能点:如何发送携带cookie访问登录后的页面,如何发送post请求登录爬取网站:bilibili.github 完整代码:https://files.cnblogs.com/files/book ...
scrapy爬虫系列之二--翻页爬取及日志的基本用法
功能点:如何翻页爬取信息,如何发送请求,日志的简单实用爬取网站:腾讯社会招聘网完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...
scrapy爬虫系列之七--scrapy_redis的使用
功能点:如何发送携带cookie访问登录后的页面,如何发送post请求登录简单介绍: 安装:pip3 install scrapy_redis 在scrapy的基础上实现了更多的功能:如reques ...
scrapy爬虫系列之五--CrawlSpider的使用
功能点:CrawlSpider的基本使用爬取网站:保监会主要代码: cf.py # -*- coding: utf-8 -*- import scrapy from scrapy.linkextr ...
python爬虫系列：Scrapy安装与使用
这篇博文主要写Scrapy框架的安装与使用 Scrapy框架安装命令行进入C:\Anaconda2\Scripts目录,运行:conda install Scrapy 创建Scrapy项目 1)进入 ...

随机推荐

php图片添加文字水印方法汇总
方法一: <?php header("content-type:text/html;charset=utf-8"); //指定图片路径 $src = "img/a. ...
mysql connection不断增加
程序运行以后,刷新页面,在mysql的status里面检测到Threads_connected的值不断上升. 对程序断点调试,发现,是由于下面的代码导致. class ConnectionMySQL( ...
第五章面向方面编程___AOP入门
上一篇讲了 AOP 和 OOP 的区别,这一次我们开始入门 AOP .实现面向方面编程的技术,主要分为两大类: 一是采用动态代理技术,利用截取消息的方式,对该消息进行装饰,以取代原有对象行为的执行: ...
php 网络爬虫，爬一下花瓣的图片
今天无聊看在知乎上看到有人写网络爬虫爬图片(￣▽ ￣) 传送门: 福利 - 不过百行代码的爬虫爬取美女图:https://zhuanlan.zhihu.com/p/24730075 福利 - 不过十行 ...
Python 调用外部命令
python 可以使用 os 模块来调用外部的 Linux Shell 命令,常用的方法如下: os.system():结果输出在终端上,捕获不到os.popen() : 结果返回一个对象,即标准输出 ...
使用rlwrap调用sqlplus中历史命令
此文来自http://www.cnblogs.com/mchina/archive/2013/03/08/2934473.html 在此谢谢原创作者. 在Linux中运行SQL*Plus,不能调用历史 ...
Google Inc.:Google APIs:23' 解决方案
在导入一个项目是,出现 Unable to resolve target 'Google Inc.:Google APIs:6'第一种解决方法: compileSdkVersion 23 改成 com ...
brocadcastReceiver
用来接收广播, 可以根据系统发生的一些时间做出一些处理系统的一些事件,比如来电,来短信,等等,会发广播:可监听这些广播,并进行一些处理: Android3.2以后,为了安全起见,对于刚安装的应用,需 ...
Winform的学习
昨天由于一些原因没有上课啦,虽然也看啦一些东西,但是感觉太少也就没有来啦,嘿嘿,今天认真地了解啦winform,学习了一些控件的使用,但是感觉好多属性知道怎么用的,却还是记得不太清楚,感觉看到啦知道, ...
Effective C++ —— 杂项讨论（九）
条款53 : 不要轻忽编译器的警告请记住: 1. 严肃对待编译器发出的警告信息.努力在你的编译器的最高(最严苛)警告级别下争取“无任何警告”的荣誉. 2. 不要过度倚赖编译器的报警能力,因为不同的编 ...

scrapy爬虫系列之一--scrapy的基本用法

scrapy爬虫系列之一--scrapy的基本用法的更多相关文章

随机推荐

热门专题