02.Scrapy-Demo

Scrapy入门实战

采集目标：采集西祠网的IP代理包括 IP PORT

1. 新建项目

scrapy startproject xicidailiSpider

# scrapy 新建项目  项目名

2. 创建爬虫

scrapy genspider xicidaili xicidaili.com

# scrapy 产生爬虫  爬虫名字   网站域名

# 注意：爬虫名字一定不能与项目名字一致！

可以看到，在项目的spiders下得到了一个爬虫文件

解释爬虫文件

import scrapy # 导入scrapy

# 创建爬虫类 并且继承自scrapy.Spider --> 爬虫最基础的类

# 另外几个类都是继承自这个类

class XicidailiSpider(scrapy.Spider):

    #爬虫名字 --> 必须唯一

    name = 'xicidaili'

    # 允许采集的域名

    allowed_domains = ['xicidaili.com']

    # 开始采集的网站

    start_urls = ['http://xicidaili.com/']

	# 解析响应数据 提取数据 或者网址等 response就是网页源码

    def parse(self, response):

        pass

3. 分析网址

提取数据

正则表达式（基础必回难掌握）
XPath --> 从HTML中国提取数据语法
CSS --> 从HTML中国提取数据语法

response.xpath("xpath语法").get()

get() 是得到一个元素

getall() 是多个元素

class XicidailiSpider(scrapy.Spider):

    name = 'xicidaili'

    allowed_domains = ['xicidaili.com']

    start_urls = ['https://www.xicidaili.com/nn/']

    # start_urls = [f'https://www.xicidaili.com/nn/{page}' for page in range(1,3685)]

    def parse(self, response):

        # 提取数据

        # response.xpath("//tr/td[2]/text()")

        selectors = response.xpath("//tr")

        for selector in selectors:

            ip = selector.xpath("./td[2]/text()").get() # . 在当前节点下继续选择

            port = selector.xpath("./td[3]/text()").get()

            # ip = selector.xpath("./td[2]/text()").extract_first()  # 与get等价

            # port = selector.xpath("./td[3]/text()").extract_first()

            print(ip,port)

4. 运行爬虫

scrapy crawl 爬虫名字

		# 翻页操作

        next_page = response.xpath('//a[@class="next_page"]/@href').get()

        if next_page:

            print(next_page)

            # 拼接网址

            next_url = response.urljoin(next_page)

            yield scrapy.Request(next_url,callback=self.parse) # yield 生成器

# Request() 发送请求 类似requests.get()

# callback 是回调函数 将发出去的请求得到的响应还交给自己(self.parse)处理

# 注意：回调函数不要写() 只写方法名字

02.Scrapy-Demo的更多相关文章

c#&.NET3.0高级程序设计-02 Enum Demo
Enum 实例 using System; using System.Collections.Generic; public class MyClass { enum EmpType ...
scrapy爬取58同城二手房问题与对策
测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有 ...
爬虫——scrapy框架
Scrapy是一个异步处理框架,是纯Python实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可拓展性强,可以灵活完成各种需求.我们只需要定制几个模块就可以轻松实现一个爬虫. 1.架构 Scra ...
05 爬虫之scrapy
一 scrapy框架简介 01 什么是scrapy: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队 ...
py库： scrapy （深坑未填）
scrapy 一个快速高级的屏幕爬取及网页采集框架 http://scrapy.org/ 官网 https://docs.scrapy.org/en/latest/ Scrapy1.4文档 http: ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
Scrapy 概览笔记
本项目代码可参考 imzhizi/myspider: a scrapy demo with elasticsearch 虚拟环境的创建建议爬虫项目都创建虚拟环境虚拟环境在 Python 项目中真的 ...
Python Scrapy 实战
Python Scrapy 什么是爬虫? 网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. Python 爬虫 ...
Scrapy--1安装和运行
1.Scrapy安装问题一开始是按照官方文档上直接用pip安装的,创建项目的时候并没有报错, 然而在运行 scrapy crawl dmoz 的时候错误百粗/(ㄒoㄒ)/~~比如: ImportEr ...
python3高级编程
1. SMTP发送邮件 internet相关协议: http:网页访问相关,httplib,urllib,xmlrpclib ftp:文件传输相关, ftplib, urllib nntp:新闻和帖子 ...

随机推荐

vc程序设计--图形绘制1
利用绘图函数创建填充区.Windows通过使用当前画笔画一个图形的边界,然后用当前的刷子填充这个图形来创建-一个填充图形.共有三个填充图形,第一个是用深灰色画刷填充带圆角的矩形,第二个是采用亮 ...
[Python3]星号*的打开方式
python中,* 号除了用来做数量乘法,还有其他的用处. 结论概括的来说,就是对修饰的变量进行拆分, 对修饰的形式参数进行参数聚集. 单*号,将被修饰的变量按元素方式拆分, 对修饰的形式参数进行参 ...
Spring boot Sample 005之spring-boot-profile
一.环境 1.1.Idea 2020.1 1.2.JDK 1.8 二.目的通过yaml文件配置spring boot 属性文件三.步骤 3.1.点击File -> New Project - ...
Rocket - debug - TLDebugModuleInner - Drive Custom Access
https://mp.weixin.qq.com/s/1bIqzDYXM36MIfSsjvvYIw 简单介绍TLDebugModuleInner中的针对Custom的访问. 1. customNode ...
Java实现 LeetCode 832 翻转图像（位运算）
832. 翻转图像给定一个二进制矩阵 A,我们想先水平翻转图像,然后反转图像并返回结果. 水平翻转图片就是将图片的每一行都进行翻转,即逆序.例如,水平翻转 [1, 1, 0] 的结果是 [0, 1, ...
Java实现蓝桥杯算法提高 p1001
算法提高 P1001 时间限制:1.0s 内存限制:256.0MB 提交此题当两个比较大的整数相乘时,可能会出现数据溢出的情形.为避免溢出,可以采用字符串的方法来实现两个大数之间的乘法.具体来说 ...
Android如何使用SharedPreferences轻量级储存
SharedPreferences只能用来存一些基本数据类型,并且存下的量比较小直接附代码和XMl布局 package com.example.okhttpdemo; import android ...
美女面试官问我Python如何优雅的创建临时文件，我的回答....
[摘要] 本故事纯属虚构,如有巧合,他们故事里的美女面试官也肯定没有我的美,请自行脑补... 小P像多数Python自学者一样,苦心钻研小半年,一朝出师投简历. 这不,一家招聘初级Python开发工程 ...
win7 64位系统怎么使用debug
安装DOSbox软件下载个debug.exe然后把这放到D盘或E盘的根目录下然后启动dosbox软件,在下面输入 mount c d:\ enter键 c: enter键输入debug命令就ok ...
MySql多表查询优化
一.多表查询连接的选择相信内连接,左连接什么的大家都比较熟悉了,当然还有左外连接什么的,基本用不上,我就补贴出来了,这个图只是让大家熟悉一下各种连接查询.然后要告诉大家的是,需要根据查询的信息,想好 ...

02.Scrapy-Demo

Scrapy入门实战

1. 新建项目

2. 创建爬虫

3. 分析网址

4. 运行爬虫

02.Scrapy-Demo的更多相关文章

随机推荐

热门专题