scrapy中的get请求及基本使用：

1. 创建scrapy项目

scrapy startproject QiuBaiProject

2. 创建爬虫文件

scrapy genspider QiuBai  www.qiubai.com

3.修改配置文件

"""

setting.py :配置文件

"""

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {

	#使用哪个管道处理，后面是管道优先级　1-1000,数字越低，优先级越高

   'qiubaiproject.pipelines.QiubaiprojectPipeline': 300,

}

"""

关于日志的说明：默认显示的等级是DEBUG，上面所有的信息全部显示

如果等级配置为ERROR，那么就只显示ERROR，CRITICAL

在配置文件中进行配置

"""

	# 配置显示日志信息等级

	# LOG_LEVEL = 'ERROR'

	# 不将信息显示到屏幕中，将信息显示到文件中

	LOG_FILE = 'log.txt'

4. 编写item.py文件

"""

  items.py : 这里面是定义数据结构的地方

"""

import scrapy

class QiubaiprojectItem(scrapy.Item):

  """

	item对象的用法和字典的用法一模一样,可以快速的转化为字典

  """

    # define the fields for your item here like:

    # name = scrapy.Field()

    # 图片链接

    image_src = scrapy.Field()

    # 用户名

    name = scrapy.Field()

    # 年龄

    age = scrapy.Field()

    # 内容

    content = scrapy.Field()

    # 好笑个数

    haha_count = scrapy.Field()

    # 评论个数

    ping_count = scrapy.Field()

5. 编写爬虫文件

# -*- coding: utf-8 -*-

'''

QiuBai.py 爬虫文件

'''

import scrapy

from qiubaiproject.items import QiubaiprojectItem

class QiubaiSpider(scrapy.Spider):

    name = 'qiubai'

    allowed_domains = ['www.qiushibaike.com']

    #起始页

    start_urls = ['http://www.qiushibaike.com/']

    # 爬取其他页面的内容

    url = 'https://www.qiushibaike.com/8hr/page/{}/'

    page = 1

    def parse(self, response):

        # 先找到所有的div

        div_list = response.xpath('//div[@id="content-left"]/div')

        # 遍历这个div的列表，依次获取里面的每一条信息

        for odiv in div_list:

            # 创建对象

            item = QiubaiprojectItem()

            # 用户头像

            face = 'https:' + odiv.xpath('.//div[1]//img/@src')[0].extract()

            # 用户的名字

            name = odiv.xpath('.//div[1]//h2').extract()[0]

            # 用户的年龄

            age = odiv.xpath('.//div[starts-with(@class,"articleGender")]').extract_first()

            # 获取用户内容

            ospan = odiv.xpath('.//div[@class="content"]/span[1]')[0]

            content = ospan.xpath('string(.)').extract()

            # 用户的好笑个数

            haha_count = odiv.xpath('.//div[@class="stats"]/span[@class="stats-vote"]/i/text()').extract()[0]

            # 获取评论个数

            ping_count = odiv.xpath('.//div[@class="stats"]/span[@class="stats-comments"]//i/text()').extract()[0]

            # 将提取的信息保存起来

            item['image_src'] = face

            item['name'] = name

            item['age'] = age

            item['content'] = content

            item['haha_count'] = haha_count

            item['ping_count'] = ping_count

            yield item

        # 接着爬取其他的页面

        if self.page <= 5:

            self.page += 1

            # 拼接出来指定的url

            url = self.url.format(self.page)

            # 接着发送请求，callback是发送请求之后，用哪一个回调函数处理这个请求

            yield scrapy.Request(url=url, callback=self.parse)

6.编写管道文件

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class QiubaiprojectPipeline(object):

    # 爬虫启动的时候只会调用一次

    def open_spider(self, spider):

        # 将文件的打开写道这里

        self.fp = open('qiubai.json', 'w', encoding='utf8')

    # 这个函数就是处理item的函数，每一个item过来都会回调这个方法

    def process_item(self, item, spider):

        # 将对象转化为字典

        obj = dict(item)

        # 将字典转化为json格式字符串

        string = json.dumps(obj, ensure_ascii=False)

        self.fp.write(string + '\n')

        return item

    # 爬虫结束的时候回调这个方法

    def close_spider(self, spider):

        self.fp.close()

# scrapy(二）：get请求的更多相关文章

angular分页插件tm.pagination 解决触发二次请求的问题
angular分页插件tm.pagination(解决触发二次请求的问题) DEMO: http://jqvue.com/demo/tm.pagination/index.html#?current ...
API接口设计：防参数篡改+防二次请求
API接口由于需要供第三方服务调用,所以必须暴露到外网,并提供了具体请求地址和请求参数为了防止被第别有用心之人获取到真实请求参数后再次发起请求获取信息,需要采取很多安全机制 1.首先: 需要采用ht ...
[转]ASP.NET MVC学习系列(二)-WebAPI请求传参
[转]ASP.NET MVC学习系列(二)-WebAPI请求传参本文转自:http://www.cnblogs.com/babycool/p/3922738.html ASP.NET MVC学习系 ...
Ocelot（二）- 请求聚合与负载均衡
Ocelot(二)- 请求聚合与负载均衡作者:markjiang7m2 原文地址:https://www.cnblogs.com/markjiang7m2/p/10865511.html 源码地址: ...
scrapy 发post请求
可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求. 如果希望程序执行一开始就发送POST请求,可以重写Spider类的s ...
使用Typescript重构axios(二十)——请求取消功能：实现第一种使用方式
0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...
使用Typescript重构axios(二十一)——请求取消功能：添加axios.isCancel接口
0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...
Electron-vue实战（二）— 请求Mock数据渲染页面
Electron-vue实战(二)— 请求Mock数据渲染页面作者:狐狸家的鱼本文链接 GitHub:sueRimn 一.环境搭建 1.安装Mock.js 如果仅仅用作脱离后台的模拟数据,就安装在 ...
Ocelot（二）- 请求聚合
原文:Ocelot(二)- 请求聚合 Ocelot(二)- 请求聚合与负载均衡作者:markjiang7m2 原文地址:https://www.cnblogs.com/markjiang7m2/p/ ...
openresty 学习笔记二:获取请求数据
openresty 学习笔记二:获取请求数据 openresty 获取POST或者GET的请求参数.这个是要用openresty 做接口必须要做的事情.这里分几种类型:GET,POST(urlenco ...

随机推荐

while or if
多线程 wait && notifyAll 模式实现时,如果锁中有判断,对共享对象有curd 操作时,有可能出现异常即,判断条件这个时候关键字有 if 改为while 即可 ...
[博主推荐]如何利用注册的 bug 来疯狂注册,不停开小号"做"事情,支持手机号&邮箱
[博主推荐]如何利用注册的 bug 来疯狂注册,不停开小号"做"事情,支持手机号&邮箱非常简单 1.手机号注册: 用手机号注册网站基本都支持可以用推荐的网址: ...
linu使用x之sz下载和rz上传
对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能,但是很多Linux系统初始并没有这两个命令.今天,我们 ...
Java 设置PDF平铺图片背景（水印）
一.概述及环境准备本文介绍使用免费版PDF库-Free Spire.PDF for Java加载图片来设置成PDF平铺图片背景的效果,也可以作为平铺图片水印来使用:编辑代码前,需要先导入jar文件, ...
Android学习笔记ActionView
概念案例 1.布局文件 activity_main.xml <?xml version="1.0" encoding="utf-8"?> < ...
APP——python——自动化环境搭建01
前提:python以及pycharm安装完成. ---------------------------------------------------------------------------- ...
Tensorflow2 自定义数据集图片完成图片分类任务
对于自定义数据集的图片任务,通用流程一般分为以下几个步骤: Load data Train-Val-Test Build model Transfer Learning 其中大部分精力会花在数据的准备 ...
【Spring注解驱动开发】使用InitializingBean和DisposableBean来管理bean的生命周期，你真的了解吗？
写在前面在<[Spring注解驱动开发]如何使用@Bean注解指定初始化和销毁的方法?看这一篇就够了!!>一文中,我们讲述了如何使用@Bean注解来指定bean初始化和销毁的方法.具体的 ...
python基础知识扩展（一）
python课外笔记 1.print函数 print("helloworld")其实系统默认隐藏了一个参数end,完整的print()语句是 print("hellowo ...
Validate日期校验
public class Validate { private static Regex RegNumber = new Regex("^[0-9]+$"); private st ...

# scrapy(二）：get请求

scrapy中的get请求及基本使用：

1. 创建scrapy项目

2. 创建爬虫文件

3.修改配置文件

4. 编写item.py文件

5. 编写爬虫文件

6.编写管道文件

# scrapy(二）：get请求的更多相关文章

随机推荐

热门专题