scrapy框架提升篇

关注公众号“轻松学编程”了解更多

1、创建启动爬虫脚本

在项目目录下创建start.py文件:

添加代码:

#以后只要运行start.py就可以启动爬虫
import scrapy.cmdline def main():
#mytencent为当前项目爬虫名
scrapy.cmdline.execute(['scrapy', 'crawl', 'mytencent']) if __name__ == '__main__':
main()

2、自动爬取多页

在spiders文件夹下的mytencent.py中MytencentSpider类要继承CrawlSpider,然后添加规则即可:

import scrapy
from tencent.items import TencentItem from scrapy.spiders import CrawlSpider, Rule # 爬取规则
from scrapy.linkextractors import LinkExtractor # 提取链接 #爬虫类继承CrawlSpider
class MytencentSpider(CrawlSpider):
name = 'mytencent'
allowed_domains = ['hr.tencent.com']
start_urls = ['https://hr.tencent.com/position.php?keywords=&tid=0&start=10#a'] #添加爬取url规则,url符合正则start=(\d+)#a")就爬取
rules = (Rule(LinkExtractor(allow=("start=(\d+)#a")), callback='get_parse', follow=True),) # 一定不能用parse()
def get_parse(self, response):
jobList = response.xpath('//tr[@class="even"] | //tr[@class="odd"]') # 存储对象
item = TencentItem() for job in jobList:
# .extract()提取文本
jobName = job.xpath('./td[1]/a/text()').extract()[0]
jobType = job.xpath('./td[2]/text()').extract()[0]
item['jobName'] = jobName
item['jobType'] = jobType yield item

3、使用框架自带的Request()构建请求

在spiders文件夹下的mysina.py中:

import scrapy
from scrapy.spiders import CrawlSpider,Rule #爬取规则
from scrapy.linkextractor import LinkExtractor #提取链接 class MysinaSpider(CrawlSpider):
name = 'mysina'
allowed_domains = ['sina.com.cn']
start_urls = ['http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml']
#设置爬取规则,可迭代对象,可设置多个规则
rules = [Rule(LinkExtractor(allow=("index_(\d+).shtml")),callback='get_parse',follow=True)] def get_parse(self, response):
newsList = response.xpath('//ul[@class="list_009"]/li')
for news in newsList:
# 新闻标题
title = news.xpath('./a/text()').extract()[0]
# 新闻时间
newsTime = news.xpath('./span/text()').extract()[0]
# print('***********',title,'****',newsTime)
#获取正文的url
contentsUrl = news.xpath('./a/@href').extract()[0]
#使用框架自带的Request()构建请求,使用meta传递参数
'''
scrapy.Request()参数列表:
url,
callback=None, 回调函数
meta=None, 数据传递
'''
request = scrapy.Request(url=contentsUrl,callback=self.get_article,)
# 使用meta传递参数 是一个字典, 只能传递一层
request.meta['title'] = title
request.meta['newsTime'] = newsTime yield request def get_article(self,response):
contents = response.xpath('//div[@id="article"]//text()')
#新闻内容
newsContent = ""
for content in contents:
newsContent += content.extract().strip()+'\n'
print('*****新闻正文*****',newsContent,'*****新闻正文*****')
item = SinaItem()
# 从meta中获取参数
item['title'] = response.meta['title']
item['newsTime'] = response.meta['newsTime'] item['newsContent'] = newsContent yield item

4、保存进MySQL数据库模板

在MySQL中建立数据库,表,然后在pipelines.py中编写代码如下:

import pymysql

class TencentPipeline(object):
def __init__(self):
#连接数据库
self.conn = None
#游标
self.cur = None # 打开爬虫时调用,只调用一次
def open_spider(self,spider):
self.conn = pymysql.connect(host='127.0.0.1',
user='root',
password="123456",
database='tjob', #数据库为tjob
port=3306,
charset='utf8')
self.cur = self.conn.cursor() def process_item(self, item, spider):
clos,value = zip(*item.items())
sql = "INSERT INTO `%s`(%s) VALUES (%s)" % ('tencentjob', #表名为tencentjob
','.join(clos),
','.join(['%s'] * len(value))) self.cur.execute(sql, value) self.conn.commit()
return item def close_spider(self, spider):
self.cur.close()
self.conn.close()

settings.py中要开启

ITEM_PIPELINES = {
'tencent.pipelines.TencentPipeline': 300,
}

5、使用中间件做UA代理,IP代理

在middlewares.py中添加:

from scrapy import signals
import random #ip代理
from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware
#UA代理
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware from weixinsougou.settings import USER_AGENTS,PROXIES class RandomUAMiddleware(UserAgentMiddleware):
'''
随机UA代理,中间件
'''
def process_request(self, request, spider):
'''
所有的请求都会经过process_request
:param request:请求
:param spider:爬虫名
:return:
'''
ua = random.choice(USER_AGENTS)
request.headers.setdefault("User-Agent", ua) class RandomIPMiddleware(HttpProxyMiddleware):
'''
随机IP代理
''' def process_request(self, request, spider):
proxy = random.choice(PROXIES)
request.meta['proxy'] = 'http://' + proxy['ip_port'] #class RandomCookieMiddleware(CookiesMiddleware):
# '''
# 随机cookie池
# '''
#
# def process_request(self, request, spider):
# cookie = random.choice(COOKIES)
# request.cookies = cookie

在settings.py中添加:

# -*- coding: utf-8 -*-

# Obey robots.txt rules
ROBOTSTXT_OBEY = False # Disable cookies (enabled by default)
COOKIES_ENABLED = False # Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
} # Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#启用中间件
DOWNLOADER_MIDDLEWARES = {
# 'weixinsougou.middlewares.WeixinsougouDownloaderMiddleware': 543,
'weixinsougou.middlewares.RandomUAMiddleware': 543,
'weixinsougou.middlewares.RandomIPMiddleware': 544, } #UA池
USER_AGENTS = [
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
"Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"
] #IP池
PROXIES = [
{'ip_port': '171.38.85.93:8123'},
{'ip_port': '113.67.227.143:8118'},
{'ip_port': '101.236.19.165:8866'},
{'ip_port': '101.236.21.22:8866'},
] #cookle池
COOKIES = [] # 默认线程数量 10
REACTOR_THREADPOOL_MAXSIZE = 20 # 并发 默认16
CONCURRENT_REQUESTS = 16 # pipelines同时处理数量 默认100
CONCURRENT_ITEMS = 50 # scrapy 深度爬取,默认0 不做深度限制
DEPTH_LIMIT = 4
# 下载超时
DOWNLOAD_TIMEOUT = 180

#####6、使用redis实现分布式爬取

https://blog.csdn.net/lm_is_dc/article/details/81866275

#####7、部署

https://blog.csdn.net/lm_is_dc/article/details/81869508

8、使用gerapy管理爬虫

https://blog.csdn.net/lm_is_dc/article/details/81869508

后记

【后记】为了让大家能够轻松学编程,我创建了一个公众号【轻松学编程】,里面有让你快速学会编程的文章,当然也有一些干货提高你的编程水平,也有一些编程项目适合做一些课程设计等课题。

也可加我微信【1257309054】,拉你进群,大家一起交流学习。
如果文章对您有帮助,请我喝杯咖啡吧!

公众号

关注我,我们一起成长~~

python爬虫使用scrapy框架的更多相关文章

  1. Python爬虫进阶(Scrapy框架爬虫)

    准备工作:           配置环境问题什么的我昨天已经写了,那么今天直接安装三个库                        首先第一步:                           ...

  2. python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

    scrapy框架简介 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...

  3. python爬虫之scrapy框架介绍

    一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等) ...

  4. python爬虫之scrapy框架

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...

  5. python爬虫之Scrapy框架(CrawlSpider)

    提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬去进行实现的(Request模块回调) 方法二:基于CrawlSpi ...

  6. (转)python爬虫----(scrapy框架提高(1),自定义Request爬取)

    摘要 之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url.但是一般使用的时候都是需要自己写具体的url抓取函数的. python 爬虫 scrapy scrapy提 ...

  7. Python 爬虫之Scrapy框架

    Scrapy框架架构 Scrapy框架介绍: 写一个爬虫,需要做很多的事情.比如:发送网络请求.数据解析.数据存储.反反爬虫机制(更换ip代理.设置请求头等).异步请求等.这些工作如果每次都要自己从零 ...

  8. python爬虫中scrapy框架是否安装成功及简单创建

    判断框架是否安装成功,在新建的爬虫文件夹下打开盘符中框输入cmd,在命令中输入scrapy,若显示如下图所示,则说明成功安装爬虫框架: 查看当前版本:在刚刚打开的命令框内输入scrapy versio ...

  9. Python网络爬虫之Scrapy框架(CrawlSpider)

    目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用 爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...

随机推荐

  1. 使用AOP和Validator技术对项目接口中的参数进行非空等校验

    javax.validation.Validator基础知识补充: validator用来校验注解的生效,如: @NotBlank(message = "地址名不能为空") pri ...

  2. Python-判断变量类型和继承链-type isinstance

    在很多情况下,需要对类型进程动态判断,因为不同的数据类型不能互相做运算并且各自拥有不同的运算逻辑,所有需要判断对象的类型,常用的是type和isinstance,type更过用于获取对象是什么类型构建 ...

  3. Java (三)APACHE Commons IO 常规操作

    上一篇:Java (二)基于Eclipse配置Commons IO的环境 例1:查看文件.文件夹的长度(大小). 1 import java.io.File; 2 3 import org.apach ...

  4. Hello World背后的事情

    Hello World是不少人学习C++的第一项内容,代码看似简单,很多东西却涉及根本 #include <iostream> using namespace std; int main( ...

  5. TP5自定义路由,为了安全性

    1,入口文件index.php,不要指定任意模块,不然,自定义路由,就不会有任何效果哦 2,在配置文件 route.php  中引进   use think\Router  自带路由文件 3,将路由进 ...

  6. devops工具链概述

    1. devops工具链概述  1)devops工具篇 2) 持续集成 3) 持续交付 4) 持续部署 2. devops工具链概述

  7. How to install the NVIDIA drivers on Fedora 32

    https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-fedora-32 The NVIDIA Driver is a progra ...

  8. Dubbo的负载均衡策略&容错策略

    dubbo的负载均衡策略 RandomLoadBalance 随机调用负载均衡 默认方式该类实现了抽象的AbstractLoadBalance接口,重写了doSelect方法,看方法的细节就是首先遍历 ...

  9. 技术心得丨一种有效攻击BERT等模型的方法

    Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Enta ...

  10. php超全局数组 为什么swoole的http服务不能用

    php的超全局数组$_GET等九个 可以直接使用 无需定义 实际上是浏览器请求到Apache或者nginx的时候 转发到PHP处理模块 fpm转发给php解释器处理 php封装好后丢给php的  sw ...