网络爬虫值scrapy框架基础

简介

Scrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存到csv、json等文件中。

首先我们安装Scrapy。

其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

安装

linux或者mac

pip3 install scrapy

windows

#下载twisted

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

#安装wheel模块之后才能安装.whl文件

pip3 install wheel 

#安装twisted

pip install Twisted‑18.4.0‑cp36‑cp36m‑win_amd64.whl

pip3 install pywin32

#安装scrapy

pip3 install scrapy

使用

创建项目

格式：scrapy startproject 项目名

scrapy  startproject spider

创建项目之后就会生成一个目录，如下：

项目名称/

	- spiders				# 爬虫文件

		- chouti.py

		- cnblgos.py

		....

	- items.py 				# 持久化

	- pipelines				# 持久化

	- middlewares.py		# 中间件

	- settings.py 			# 配置文件（爬虫）

scrapy.cfg					# 配置文件（部署）

创建爬虫

格式：

cd 项目名

scrapy genspider 爬虫名将要爬的网站

cd spider

scrapy genspider chouti chouti.com

创建完爬虫之后会在spiders文件夹里生成一个文件

打开chouti.py之后如下：

运行爬虫

scrapy crawl chouti

scrapy crawl chouti --nolog        # 不打印日志

示例

# -*- coding: utf-8 -*-

import scrapy

class ChoutiSpider(scrapy.Spider):

    '''

    爬去抽屉网的帖子信息

    '''

    name = 'chouti'

    allowed_domains = ['chouti.com']

    start_urls = ['http://chouti.com/']

    def parse(self, response):

        # 获取帖子列表的父级div

        content_div = response.xpath('//div[@id="content-list"]')

        # 获取帖子item的列表

        items_list = content_div.xpath('.//div[@class="item"]')

        # 打开一个文件句柄，目的是为了将获取的东西写入文件

        with open('articles.log','a+',encoding='utf-8') as f:

            # 循环item_list

            for item in items_list:

                # 获取每个item的第一个a标签的文本和url链接

                text = item.xpath('.//a/text()').extract_first()

                href = item.xpath('.//a/@href').extract_first()

                # print(href, text.strip())

                # print('-'*100)

                f.write(href+'\n')

                f.write(text.strip()+'\n')

                f.write('-'*100+'\n')

        # 获取分页的页码，然后让程序循环爬去每个链接

        # 页码标签对象列表

        page_list = response.xpath('//div[@id="dig_lcpage"]')

        # 循环列表

        for page in page_list:

            # 获取每个标签下的a标签的url，即每页的链接

            page_a_url = page.xpath('.//a/@href').extract()

            # 将域名和url拼接起来

            page_url = 'https://dig.chouti.com' + page_a_url

            # 重要的一步！！！！

            # 导入Request模块，然后实例化一个Request对象，然后yield它

            # 就会自动执行Request对象的callback方法，爬去的是url参数中的链接

            from scrapy.http import Request

            yield Request(url=page_url,callback=self.parse)

网络爬虫值scrapy框架基础的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
网络爬虫之scrapy框架设置代理
前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程. 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的. 环境变量是以一 ...
网络爬虫之scrapy框架(CrawlSpider)
一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractor ...
网络爬虫之scrapy框架详解
twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发. twisted是 ...
爬虫之Scrapy框架介绍及基础用法
今日内容概要爬虫框架之Scrapy 利用该框架爬取博客园并发编程今日内容详细爬虫框架Scrapy 1.什么是框架? 框架类似于房子的结构,框架会提前帮你创建好所有的文件和内部环境你只需要往对 ...
Python逆向爬虫之scrapy框架,非常详细
爬虫系列目录目录 Python逆向爬虫之scrapy框架,非常详细一.爬虫入门 1.1 定义需求 1.2 需求分析 1.2.1 下载某个页面上所有的图片 1.2.2 分页 1.2.3 进行下载图片 ...
爬虫之scrapy框架
解析 Scrapy解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓 ...

随机推荐

JS学习笔记（5）--一道返回整数数组的面试题（经验之谈）
说明: 1. 微信文章里看到的,作者是马超网易高级前端技术经理,原文在网上搜不到,微信里可以搜“为什么你的前端工作经验不值钱?”,里面写着“转载自网易实践者社区”.(妈蛋,第二天网上就有了http: ...
poj3067 Japan(树状数组)
转载请注明出处:http://blog.csdn.net/u012860063 题目链接:id=3067">http://poj.org/problem? id=3067 Descri ...
《高性能MySQL》读书笔记(1)
慢查询当一个资源变得效率低下的时候,应该了解一下为什么会这样.有如下可能原因:1.资源被过度使用,余量已经不足以正常工作.2.资源没有被正确配置3.资源已经损坏或者失灵因为慢查询,太多查询的实践过 ...
[HTML5] 手机摇一摇实现
目录结构引入jQuery:jquery-1.11.1.min.js html代码 <!DOCTYPE html> <html lang="en"> < ...
第二百五十三节，Bootstrap项目实战-资讯
Bootstrap项目实战-资讯 html <!DOCTYPE html> <html lang="zh-cn"> <head> <met ...
MapReduce与Hadoop之比较
MapReduce与Hadoop之比较 Hadoop是Apache软件基金会发起的一个项目,在大数据分析以及非结构化数据蔓延的背景下,Hadoop受到了前所未有的关注. Hadoop是一种分布式数据和 ...
Apache -- 压力测试工具ab.exe
ab全称ApacheBench是Apache超文本传输协议(HTTP)的性能测试工具.是描绘当前所安装的Apache的执行性能, 主要是显示你安装的Apache每秒可以处理多少个请求Apache自带的 ...
【UVa】Headmaster's Headache（状压dp）
http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem&p ...
【BZOJ】1677: [Usaco2005 Jan]Sumsets 求和（dp/规律）
http://www.lydsy.com/JudgeOnline/problem.php?id=1677 完全背包很容易想到,将1,2,4...等作为物品容量即可. 然后这题还有一个递推式 f[i]= ...
Kivy: 用于NUI开发的跨平台Python框架
http://top.jobbole.com/9915/ http://kivy.org/