爬虫进阶篇（一）scrapy

1.本教程默认认为您已经像我一样是个半吊子爬虫程序员

2.学习爬虫首先要懂得request，json，bs4,re,xpath，pymysql，random,time,文件相关，理解网络编程基本原理，懂得如何抓取url，知道抓包，并且分析url如何获取相关数据。

3.学习scrapy首先需要安装这款框架，打开cmd 输入pip -install scrapy

4.这框架会关联很多的库，百度教程有，很麻烦的，我用的第三方工具下载的：anaconda,安装环境后通过命令行就可直接安装所有关联。

5.好了，开始进入主题，介绍一下scrapy，这款框架有url去重功能，支持高并发，快速集成使用，上手方便。

6.如何使用呢？首先：创建工程，在命令行输入 scrapy startproject 项目名称

7.创建爬虫文件：scrapy genspider 文件名要爬取网站的网址

8.文件创建好之后如何运行呢：命令运行，scrapy crawl 爬虫文件的名称（7的名称）

9.命令行比较麻烦，pytharm的运行创建文件start.py

# -*- coding: utf-8 -*-

from scrapy import cmdline

cmdline.execute(['scrapy','crawl','tlys'])

10.修改默认配置文件settings.py

# Obey robots.txt rules 不遵守爬虫协议

ROBOTSTXT_OBEY = False

#日志级别 清爽

LOG_LEVEL='WARN'

#请求头信息

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}

#爬虫延时，防止封号

DOWNLOAD_DELAY = 1

爬虫进阶篇（一）scrapy的更多相关文章

Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
爬虫学习之基于Scrapy的爬虫自动登录
###概述在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取.我们对网络爬虫有了一个比较初级的认识,只要发起请求获 ...
Python 爬虫-进阶开发之路
第一篇:爬虫基本原理: HTTP, 爬虫基础第二篇:环境安装与搭建: 第三篇:网页抓取:urllib,requests,aiohttp , selenium, appium 第四篇:网页解析:re ...
Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求使用 ...
GO语言的进阶之路-爬虫进阶之路
GO语言的进阶之路-爬虫进阶之路作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分.我们今天要介绍的就是一个简单的网络爬 ...
【转】Shell编程进阶篇(完结)
[转]Shell编程进阶篇(完结) 1.1 for循环语句在计算机科学中,for循环(英语:for loop)是一种编程语言的迭代陈述,能够让程式码反复的执行. 它跟其他的循环,如while循环,最 ...
Python爬虫进阶四之PySpider的用法
审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇内容通过跟我做一个好玩的 ...
Python爬虫进阶一之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...

随机推荐

C 可变参数列表 stdarg.h
内容来自<c和指针>,整理后方便个人理解 stdarg.h 菜鸟教程 - <stdarg.h> 类型 va_list 宏 va_start va_arg va_end #inc ...
javascriptRemke之类的继承
前言:es6之前在js中要实现继承,就必须要我们程序员在原型链上手动继承多对象的操作,但是结果往往存在漏洞,为解决这些问题,社区中出现了盗用构造函数.组合继承.原型式继承.寄生式继承等一系列继承方式, ...
vue3双向数据绑定原理_demo
<!DOCTYPE html> <head> <meta charset="UTF-8" /> <meta name="view ...
【UE4 设计模式】建造者模式 Builder Pattern
概述描述建造者模式,又称生成器模式.是将一个复杂的对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示. 建造者模式将客户端与包含多个组成部分的复杂对象的创建过程分离,客户端无需知道复杂 ...
深入浅出Java内存模型
面试官:我记得上一次已经问过了为什么要有Java内存模型面试官:我记得你的最终答案是:Java为了屏蔽硬件和操作系统访问内存的各种差异,提出了「Java内存模型」的规范,保证了Java程序在各种平台 ...
Scrum Meeting 11
第11次例会报告日期:2021年06月01日会议主要内容概述: 汇报了进度,开始爆肝. 一.进度情况我们采用日报的形式记录每个人的具体进度,链接Home · Wiki,如下记录仅为保证公开性: ...
Ruby on Rails 单元测试
Ruby on Rails 单元测试为什么要写测试文件? 软件开发中,一个重要的环节就是编写测试文件,对代码进行单元测试,确保程序各部分功能执行正确.但是,这一环节很容易被我们轻视,认为进行单元测试 ...
OO_JAVA_表达式求导_单元总结
OO_JAVA_表达式求导_单元总结这里引用个链接,是我写的另一份博客,讲的是设计层面的问题,下面主要是对自己代码的单元总结. 程序分析 (1)基于度量来分析自己的程序结构第一次作业程序结构大致 ...
2021.7.29考试总结[NOIP模拟27]
T1 牛半仙的妹子图做法挺多的,可以最小生成树或者最短路,复杂度O(cq),c是颜色数. 我考场上想到了原来做过的一道题影子,就用了并查集,把边权排序后一个个插入,记录权值的前缀和,复杂度mlogm ...
海思 core 电压动态调整
http://www.eda365.com/forum.php?mod=viewthread&tid=108620&_dsign=5bee4dcb http://www.eda365. ...

爬虫进阶篇（一）scrapy

爬虫进阶篇（一）scrapy的更多相关文章

随机推荐

热门专题