网络爬虫值scrapy框架基础

简介

Scrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存到csv、json等文件中。

首先我们安装Scrapy。

其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

安装

linux或者mac

pip3 install scrapy

windows

#下载twisted

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

#安装wheel模块之后才能安装.whl文件

pip3 install wheel 

#安装twisted

pip install Twisted‑18.4.0‑cp36‑cp36m‑win_amd64.whl

pip3 install pywin32

#安装scrapy

pip3 install scrapy

使用

创建项目

格式：scrapy startproject 项目名

scrapy  startproject spider

创建项目之后就会生成一个目录，如下：

项目名称/

	- spiders				# 爬虫文件

		- chouti.py

		- cnblgos.py

		....

	- items.py 				# 持久化

	- pipelines				# 持久化

	- middlewares.py		# 中间件

	- settings.py 			# 配置文件（爬虫）

scrapy.cfg					# 配置文件（部署）

创建爬虫

格式：

cd 项目名

scrapy genspider 爬虫名将要爬的网站

cd spider

scrapy genspider chouti chouti.com

创建完爬虫之后会在spiders文件夹里生成一个文件

打开chouti.py之后如下：

运行爬虫

scrapy crawl chouti

scrapy crawl chouti --nolog        # 不打印日志

示例

# -*- coding: utf-8 -*-

import scrapy

class ChoutiSpider(scrapy.Spider):

    '''

    爬去抽屉网的帖子信息

    '''

    name = 'chouti'

    allowed_domains = ['chouti.com']

    start_urls = ['http://chouti.com/']

    def parse(self, response):

        # 获取帖子列表的父级div

        content_div = response.xpath('//div[@id="content-list"]')

        # 获取帖子item的列表

        items_list = content_div.xpath('.//div[@class="item"]')

        # 打开一个文件句柄，目的是为了将获取的东西写入文件

        with open('articles.log','a+',encoding='utf-8') as f:

            # 循环item_list

            for item in items_list:

                # 获取每个item的第一个a标签的文本和url链接

                text = item.xpath('.//a/text()').extract_first()

                href = item.xpath('.//a/@href').extract_first()

                # print(href, text.strip())

                # print('-'*100)

                f.write(href+'\n')

                f.write(text.strip()+'\n')

                f.write('-'*100+'\n')

        # 获取分页的页码，然后让程序循环爬去每个链接

        # 页码标签对象列表

        page_list = response.xpath('//div[@id="dig_lcpage"]')

        # 循环列表

        for page in page_list:

            # 获取每个标签下的a标签的url，即每页的链接

            page_a_url = page.xpath('.//a/@href').extract()

            # 将域名和url拼接起来

            page_url = 'https://dig.chouti.com' + page_a_url

            # 重要的一步！！！！

            # 导入Request模块，然后实例化一个Request对象，然后yield它

            # 就会自动执行Request对象的callback方法，爬去的是url参数中的链接

            from scrapy.http import Request

            yield Request(url=page_url,callback=self.parse)

网络爬虫值scrapy框架基础的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
网络爬虫之scrapy框架设置代理
前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程. 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的. 环境变量是以一 ...
网络爬虫之scrapy框架(CrawlSpider)
一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractor ...
网络爬虫之scrapy框架详解
twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发. twisted是 ...
爬虫之Scrapy框架介绍及基础用法
今日内容概要爬虫框架之Scrapy 利用该框架爬取博客园并发编程今日内容详细爬虫框架Scrapy 1.什么是框架? 框架类似于房子的结构,框架会提前帮你创建好所有的文件和内部环境你只需要往对 ...
Python逆向爬虫之scrapy框架,非常详细
爬虫系列目录目录 Python逆向爬虫之scrapy框架,非常详细一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...
爬虫之scrapy框架
解析 Scrapy解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓 ...

随机推荐

hive 中与mysql 中函数同名不同意的方法记录
max 函数在hive中max函数是一个聚合函数,所以,而且返回值是double ,而且后面必须跟group by ,这个和mysql差异很大 Built-in Aggregate Function ...
netlink--内核态与用户态通信
1. 什么是 Netlink 什么是Netlink?Netlink是linux提供的用于内核和用户态进程之间的通信方式.但是注意虽然Netlink主要用于用户空间和内核空间的通信,但是也能用于用户空间 ...
ASP.NET 5 将于2016年一季度公布
简单介绍:微软ASP.NET团队在GitHub宣布ASP.NET 5的公布时间表和发展蓝图. 该团队宣布在2015年还将公布三个Beta版.一个ASP.NET 5的抢先版(RC 1).到2016年一季 ...
树莓派+android things+实时音视频传输demo之遥控小车
做了个测试小车,上面安装了摄像头,通过外网进行视频传输: https://www.bilibili.com/video/av23817880/
js 复制功能
<html> <head> <title>Zero Clipboard Test</title> <meta charset="utf- ...
ubuntu14.04中安装jdk
1. 下载JDK http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 将下载的 .g ...
假设A.jsp内设定一个<jsp:useBean>元素：
假设A.jsp内设定一个<jsp:useBean>元素: <jsp:useBean id=”bean1” class=”myBean” /> 下列哪一个为真?(选择1项) A. ...
debugging openstack with pdb
在要开始debug的地方导入pdb: class KeypairAPI(base.Base): """Sub-set of the Compute Manager API ...
datatable详解(angular-datatable)+后台分页（springmvc）
datable常规配置,百度一大堆 function prepareDatatable(selector, options) { var defaultOptions = { autoWidth: t ...
python3----requests
import requests def get_html_text(url): try: r = requests.get(url, timeout=30) r.raise_for_status() ...