Scrapy在pipeline中集成mongodb

settings.py中设置配置项

MONGODB_HOST = "127.0.0.1"

MONGODB_PORT = 27017

MONGODB_DB_NAME = "bang123"

pipelines.py：

from scrapy.pipelines.images import ImagesPipeline

from itemadapter import is_item, ItemAdapter

class Bang123Pipeline:

    # 保存数据时的集合名

    COLLECTION_NAME = "t_bang123"

    def __init__(self):

        # 读取配置

        from scrapy.utils.project import get_project_settings

        from pymongo import MongoClient

        settings = get_project_settings()

        # Mongodb从settings.py中读取配置信息

        self.client = MongoClient(host=settings["MONGODB_HOST"], port=settings["MONGODB_PORT"])

        self.db = self.client[settings["MONGODB_DB_NAME"]]

        self.collection = self.db[self.COLLECTION_NAME]

    def __del__(self):

        self.client.close()

    def process_item(self, item, spider):

        if spider.name == "bang123":

            # 向mongodb中插入数据

            data_dict = ItemAdapter(item).asdict()

            insert_id = self.collection.insert_one(data_dict)

            print(f"{insert_id=}")

        else:

            print("不是bang123，不写入mongodb中")

        return item

爬虫文件：

import time

import scrapy

from scrapy.http import HtmlResponse

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from zolwallpaper.items import Bang123Item

class Bang123Spider(CrawlSpider):

    name = "bang123"

    allowed_domains = ["bang123.cn"]

    start_urls = ["https://www.bang123.cn/"]

    rules = (

        # 翻页

        Rule(LinkExtractor(allow=r"https://www.bang123.cn/index_\d+.html"), follow=True),

        # 详情页

        Rule(LinkExtractor(allow=r"https://www.bang123.cn/gongshi/\d+.html"), callback="parse_item", follow=False),

    )

    def parse_item(self, response: HtmlResponse):

        bang_item = Bang123Item()

        selector = response.xpath('//div[@class="article_content layui-field-box"]')[0]

        title = selector.xpath('./h1/text()').get()

        main = response.xpath('//div[@class="content tindent of_table"]/p').getall()

        bang_item["title"] = title

        bang_item["main"] = main

        print(f"【{title=}】")

        print(f"{main=}")

        print("-"*150)

        # 交给管道处理数据

        yield bang_item

Scrapy在pipeline中集成mongodb的更多相关文章

SpringBoot集成MongoDB之导入导出和模板下载
前言自己很对自己在项目中集成MongoDb做的导入导出以及模板下载的方法总结如下,有不到之处敬请批评指正! 1.pom.xml依赖引入  <de ...
在scrapy中将数据保存到mongodb中
利用item pipeline可以实现将数据存入数据库的操作,可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量 DB_URL:数据库的URL地址 DB_NAME:数据库的 ...
Scrapy入门到放弃05：让Item在Pipeline中飞一会儿
前言 "又回到最初的起点,呆呆地站在镜子前". 本来这篇是打算写Spider中间件的,但是因为这一块涉及到Item,所以这篇文章先将Item讲完,顺便再讲讲Pipeline,然后再 ...
Spring MVC中使用Mongodb总结
近期项目做了次架构调整,原来是使用MySQL+GeoHash来存储LBS数据(地理位置信息),现在使用NOSQL数据库MongoDB来存储LBS数据(地理位置信息).由于项目是基于spring MVC ...
python爬虫之scrapy的pipeline的使用
scrapy的pipeline是一个非常重要的模块,主要作用是将return的items写入到数据库.文件等持久化模块,下面我们就简单的了解一下pipelines的用法. 案例一: items池 cl ...
如何在 ASP.NET MVC 中集成 AngularJS（3）
今天来为大家介绍如何在 ASP.NET MVC 中集成 AngularJS 的最后一部分内容. 调试路由表 - HTML 缓存清除就在我以为示例应用程序完成之后,我意识到,我必须提供两个版本的路由表 ...
spring集成mongodb jar包版本问题
在开发过程中,spring集成mongodb的jar包. 如果需要使用排序功能. spring-data-mongodb-1.4.1.RELEASE.jar 的版本为1.4.1,如果使用如下代码: Q ...
SpringBoot12 QueryDSL01之QueryDSL介绍、springBoot项目中集成QueryDSL
1 QueryDSL介绍 1.1 背景 QueryDSL的诞生解决了HQL查询类型安全方面的缺陷:HQL查询的扩展需要用字符串拼接的方式进行,这往往会导致代码的阅读困难:通过字符串对域类型和属性的不安 ...
Scrapy(爬虫框架)中，Spider类中parse()方法的工作机制
parse(self,response):当请求url返回网页没有指定回调函数,默认的Request对象的回调函数,用来处理网页返回的response,和生成的Item或者Request对象以下分析 ...
Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...

随机推荐

我们能从PEP 703中学到什么
PEP703是未来去除GIL的计划,当然现在提案还在继续修改,但大致方向确定了. 对于实现细节我没啥兴趣多说,挑几个我比较在意的点讲讲. 尽量少依赖原子操作的引用计数没了GIL之后会出现两个以上的线 ...
前端设计模式：单例模式（Singleton）
00.基本概念单例模式(Singleton Pattern),也称单体模式,就是全局(或某一作用域范围)唯一实例,大家共享.复用一个实例对象,也可减少内存开销.单例模式应该是最基础.也最常见的设计模 ...
蓝桥杯真题——第十三届蓝桥杯大赛软件赛省赛 Python 大学 B 组
Python面试题——网络与并发编程
1.python的底层网络交互模块有哪些? socket, urllib,urllib3 , requests, grab, pycurl 2.简述OSI七层协议. OSI七层协议是一个用于计算机或通 ...
PostgreSQL学习笔记-1.基础知识：创建、删除数据库和表格
PostgreSQL 创建数据库 PostgreSQL 创建数据库可以用以下三种方式:1.使用 CREATE DATABASE SQL 语句来创建.2.使用 createdb 命令来创建.3.使用 p ...
使用playwright爬取魔笔小说网站并下载轻小说资源
一.安装python 官网下载python3.9及以上版本二.安装playwright playwright是微软公司2020年初发布的新一代自动化测试工具,相较于目前最常用的Selenium,它 ...
Java 中 extends 与implements 的区别？
一.介绍extends 与 implements 的概念 1.类与类之间的继承使用extends : 子类extends父类的属性和方法,并且进行扩展或者重写. // 父类 class Animal ...
STL 迭代器
工作之余看了一下<<accelerated c++>>这本书,挺有意思没,没有一大堆概念,直接就开始一步一步编写代码. 书中时不时会涉及到一些stl的概念,比如容器,算法,迭代 ...
FWT & FMT（位运算卷积）学习笔记
它们两个的全名叫快速沃尔什变换(FWT) 和快速莫比乌斯变换(FMT),用来在 \(O(n\log n)\) 时间复杂度内求位运算卷积. 因为 FMT 能解决的问题是 FWT 的子集,所以这里不讲 ...
实战｜如何低成本训练一个可以超越 70B Llama2 的模型 Zephyr-7B
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...

Scrapy在pipeline中集成mongodb

Scrapy在pipeline中集成mongodb的更多相关文章

随机推荐

热门专题