scrapy项目1：爬取某培训机构老师信息（spider类）

1、scrapy爬虫的流程，可简单该括为以下4步：

　　1).新建项目---->scrapy startproject 项目名称（例如：myspider）

　　>>scrapy.cfg为项目配置文件

　　>>myspider:项目的Python模块，将会从这里引用代码

　　　　>>mySpider/items.py ：项目的目标文件

　　　　>>mySpider/pipelines.py ：项目的管道文件

　　　　>>mySpider/settings.py ：项目的设置文件

　　　　>>mySpider/spiders/ ：存储爬虫代码目录

　　2).编写items.py文件，可以理解为要爬取的内容，后边在案例中说明

　　3).编写爬虫文件，在spiders中自己创建，或者通过命令：scrapy genspider 爬虫名爬虫允许访问的域

　　4).存储内容（pipelines.py）

案例：爬取黑马培训的老师信息

第一步：创建项目 scrapy startproject ItcastSpider

第二步：解析网页，明确要爬取的内容，并编写item文件，代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class ItcastspiderItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    # 老师姓名

    name = scrapy.Field()

    # 职位

    level = scrapy.Field()

    # 介绍信息

    info = scrapy.Field()

第三步：编写爬虫文件切入spiders文件夹，通过scrapy genspider itcast 'itcast.cn' 来创建

# -*- coding: utf-8 -*-

import scrapy

# 导入之前已经写好的items文件中的类

from ItcastSpider.items import ItcastspiderItem

class ItcastSpider(scrapy.Spider):

    name = "itcast" #爬虫名

    allowed_domains = ["http://www.itcast.cn"] #爬虫允许访问的域

    start_urls = ['http://www.itcast.cn/channel/teacher.shtml#apython'] # 要爬取的第一个url

    def parse(self, response):

       # 通过scrapy内置的xpath规则解析网页，返回一个包含selector对象的列表

        teacher_list = response.xpath('//div[@class="li_txt"]')

        # 实例化类

        item = ItcastspiderItem()

        for each in teacher_list:

            # 通过xpath解析后返回该表达式所对应的所有节点的selector list列表，利用extract()可将该节点序列化为Unicode字符串并返回列表

            # 老师名称

            item['name'] = each.xpath('./h3/text()').extract()[0]

            # 老师的职称

            item['level'] = each.xpath('./h4/text()').extract()[0]

            # 信息

            item['info'] = each.xpath('./p/text()').extract()[0]

            yield item

第四步：编辑管道文件pipelines，将爬取内容存贮到本地

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class ItcastspiderPipeline(object):

    def __init__(self):

        # 在本地创建teacher.json文件

        self.filename = open('teacher.json','w')

    def process_item(self, item, spider):

        # python类型转化为json字符串

        text = json.dumps(dict(item),ensure_ascii = False) + '\n'

        # 写入

        self.filename.write(text.encode('utf-8'))

        return item

    def close_spider(self,spider):

        self.filename.close()

第五步：在settings.py中配置管道文件

第六步：启动爬虫命令 scrapy crawl itcast

scrapy项目1：爬取某培训机构老师信息（spider类）的更多相关文章

使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
[转]使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

第八周总结and实验
1.实验目的理解异常的基本概念:掌握异常处理方法及熟悉常见异常的捕获方法. 2.实验要求练习捕获异常.声明异常.抛出异常的方法.熟悉try和catch子句的使用.掌握自定义异常类的方法. 3.实验 ...
pom文件中引入依赖成功了，但是jar包找不着
编写代码的时候总是会碰到各种奇奇怪怪的问题,最近引入依赖的时候发现依赖虽然引入成功了,而且查看仓库,仓库中也存在该jar包,但是项目代码中并没有找到该jar包,重新导入reimport各种都试了还是不 ...
[转帖]RSA算法与DSA算法的区别
RSA算法与DSA算法的区别 https://cloud.tencent.com/developer/news/254061 文章来源:企鹅号 - SuperFullStack 本文译自:StackE ...
C#模态对话框和非模态对话框
模态对话框弹出窗口阻止调用窗口的所有消息响应.只有在弹出窗口结束后调用窗口才能继续.在模态窗口“关闭”后,可以读取模态窗口中信息,包括窗口的返回状态,窗口子控件的值. 非模态对话框可以在弹出窗口和调用 ...
Centos7安装Beanstalkd
安装 //安装 yum -y install beanstalkd --enablerepo=epel //查看版本 beanstalkd -v //启动 -b断电重启会恢复 /usr/bin/bea ...
hibernate update-->参数绑定
Hibernate 更新数据库参数绑定总结: 一.query.setParameter(属性名,真实值,类型); String hql="update User u set u.userN ...
springboot2.0处理自定义异常始终返回json
1. 编写自定义异常类 package cn.jfjb.crud.exception; /** * @author john * @date 2019/11/24 - 9:48 */ public c ...
RabbitMQ入门教程(十)：队列声明queueDeclare
原文:RabbitMQ入门教程(十):队列声明queueDeclare 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https:// ...
ES6拷贝方法
ES6 中对象拷贝方法: 方法一: Object.assign() // 对象浅拷贝, 复制所有可枚举属性 const obj1 = {a: 1}; const obj2 = {b: 2}; // c ...
tab栏切换效果案例
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

scrapy项目1：爬取某培训机构老师信息（spider类）

scrapy项目1：爬取某培训机构老师信息（spider类）的更多相关文章

随机推荐

热门专题