scrapy爬虫简单项目入门练习

【写在开头】

scrapy环境配置配置好了之后，开始着手简单项目入门练习。关于环境配置见上一篇博客https://www.cnblogs.com/ljxh/p/11235079.html。

【正文部分】

视频是跟着CZ的学的，入门练习是爬取CZ官网的师资信息，

1、新建工程

　　控制台输入：scrapy startproject myspider 新建一个爬虫的工程文件，后面的myspider 可以自己命名。

2、生成一个爬虫

　　控制台输入scrapy genspider itcast "itcast.cn"，itcast是爬虫文件的名称，后面的"itcast.cn"是允许去爬的范围。完成上面两步之后如图1所示。

图1 生成的工程文件截图

3、更改itcast.py爬虫文件如下，更改最开始请求的URL地址和处理URL响应的函数，程序中用到了xpath对响应进行信息提取，还有日志模块生成日志文件。

# -*- coding: utf-8 -*-

import scrapy

import logging

logger = logging.getLogger(__name__)

class ItcastSpider(scrapy.Spider):

    name = 'itcast'

    allowed_domains = ['itcast.cn']  # 允许爬去的范围

    start_urls = ['http://www.itcast.cn/channel/teacher.shtml']  # 最开始请求的URL地址

    # parse方法名是不能改变的，下面的属性名item是可以随意定义的

    def parse(self, response):

        # 处理start_url地址对应的响应

        # 分组

        li_list = response.xpath("//div[@class='tea_con']//li")

        for li in li_list:

            item = {}

            item['name'] = li.xpath(".//h3/text()").extract_first()

            item['title'] = li.xpath(".//h4/text()").extract_first()

            logger.warning(item)

            yield item

4、更改setting.py文件，将管道处理激活，即取消PIPELINES的注释，用于保存数据。

图2 激活PIPELINES

5、在setting.py文件中设置日志信息。

LOG_LEVEL = "WARNING"

LOG_FILE = './log.log'

6、在控制台输入：scrapy crawl itcast，后面itcast根据自己的爬虫文件的名字来，运行结果如下：

图3 控制台输出的爬虫信息

备注：由于爬取的数据很多，这里只是截取了包含爬虫命令的一段数据。

图4 日志文件截图

【写在最后】

　　到这一个简单入门的爬虫项目就完成了，后面还有很多东西要学，这里做个简单的记录。文章是根据CZ的视频学习练习的，如有侵权，删帖。

小编尊重原创，文章如有侵权，联系小编删帖，谢谢监督。转发请备注出处！

scrapy爬虫简单项目入门练习的更多相关文章

Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
scrapy爬虫简单案例（简单易懂适合新手）
爬取所有的电影名字,类型,时间等信息 1.准备工作爬取的网页 https://www.ddoutv.com/f/27-1.html 创建项目 win + R 打开cmd输入 scrapy start ...
scrapy爬虫简单入门
1. 使用cmd+R命令进入命令行窗口,并进入你需要创建项目的目录 cd 项目地址 2. 创建项目 scrapy startproject <项目名> cd <项目名> 例如 ...
scrapy爬虫--10分钟入门
# -*- coding: utf-8 -*- # @Time : 2019/4/18 9:10 # @Author : wujf # @Email : 1028540310@qq.com # @Fi ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
爬虫系列2：scrapy项目入门案例分析
本文从一个基础案例入手,较为详细的分析了scrapy项目的建设过程(在官方文档的基础上做了调整).主要内容如下: 0.准备工作 1.scrapy项目结构 2.编写spider 3.编写item.py ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

基于Nginx实现负载均衡的部署
Nginx(enginex)是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器. nginx官方网站:http://nginx.org/ nginx plus收费软件, ...
使用vbs调用excel中的宏
使用vbs打开excel文件,并且传递参数调用excel中的macro,自动化完成excel文件的制作. Set oExcel = createobject("Excel.Applicati ...
Java中使用DOM4J来生成xml文件和解析xml文件
一.前言现在有不少需求,是需要我们解析xml文件中的数据,然后导入到数据库中,当然解析xml文件也有好多种方法,小编觉得还是DOM4J用的最多最广泛也最好理解的吧.小编也是最近需求里遇到了,就来整理 ...
linux网络编程（一）
============================================================== 第一天:基本概念.TCP.FTP: =================== ...
Coreos配置docker镜像加速器
CoreOS配置docker镜像加速器 CoreOS下的Docker配置是通过flannel unit来实现的. 1) 通过命令 systemctl cat docker 可以看出配置文件的默认位置 ...
Identity角色管理三（创建角色）
首先创建视图模型 using System.ComponentModel; using System.ComponentModel.DataAnnotations; namespace Shop.Vi ...
SpringBoot-Web-初见
目录怎么开发一个网站? 静态资源找到静态资源的存放目录扩展自定义路径首页定制模板引擎Thymeleaf 员工管理系统-初见国际化国际化实现编写国际化配置类登陆功能编写index.h ...
python库--tensorflow
方法返回值类型参数说明张量 .constant() Tensort 张量实例t value 创建一个常量tensor dtype=None 输出类型 shape=None 返回tens ...
oracle报错注入的一些函数
oracle 报错注入 select dbms_xmltranslations.extractxliff((select banner from sys.v_$version where rownum ...
go中如果想要实现别人写的接口,如何保证确实实现了那个接口而不是错过了什么?
在类型的实现方法上定义通用代码指令 var _ 要实现的接口 = (receiver类型)(nil) 比如要定义一个web处理程序 type handler_def struct{} var _ ...

scrapy爬虫简单项目入门练习

scrapy爬虫简单项目入门练习的更多相关文章

随机推荐

热门专题