爬取知名社区技术文章_pipelines

获取字段的存储处理和获取普通的路径

#!/usr/bin/python3

# -*- coding: utf-8 -*-

import pymysql

import gevent

import pymysql

from gevent import monkey

from scrapy.pipelines.images import ImagesPipeline

import pymysql.cursors

class JobboleImagerPipeline(ImagesPipeline):

    """

    获得图片下载路径

    """

    def item_completed(self, results, item, info):

        if 'img_url' in item:

            for key, value in results:

                # print(key)

                img_path = value['path']

                # print(value['path'])

                item['img_path'] = img_path

        return item

# class SqlSave(object):

#     """常规同步方式存入数据库"""

#     def __init__(self):

#         SQL_DBA = {

#             'host': 'localhost',

#             'db': 'jobole',

#             'user': 'root',

#             'password': 'password',

#             'use_unicode': True,

#             'charset': 'utf8'

#         }

#         self.conn = pymysql.connect(**SQL_DBA)

#         self.cursor = self.conn.cursor()

#

#     def process_item(self, item, spider):

#         sql = self.get_sql(item)

#         print(sql)

#         self.cursor.execute(sql)

#         self.conn.commit()

#

#         return item

#

#     def get_sql(self, item):

#         sql = """insert into article(cont_id, cont_url, title, publish_time, cont, img_url, img_path, like_num, collection_num, comment_num) value ('%s','%s','%s','%s','%s','%s','%s', %d, %d, %d)

#         """ % (item['cont_id'], item['cont_url'],item['title'],item['publish_time'],item['cont'],item['img_url'][0],item['img_path'],item['link_num'],item['collection_num'],item['comment_num'],)

#         return sql

class SqlSave(object):

    """

    协程方式向数据库插入数据

    """

    def __init__(self):

        # 初始数据库连接和参数，SQL_DBA可写在setting中，通过 获取在settings.py中设置的SQL_DBA字典

        # @classmethod

        # def from_settings(cls, settings):

        #     sql_dba = settings[SQL_DBA]

        #     return cls(cls，sql_dba)           需要__init__中新添个参数接收这个值

        SQL_DBA = {

            'host': 'localhost',

            'db': 'jobole',

            'user': 'root',

            'password': 'password',

            'use_unicode': True,

            'charset': 'utf8'

        }

        self.conn = pymysql.connect(**SQL_DBA)

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        sql = self.__get_sql(item)

        # 协程方式对数据库插入操作

        gevent.joinall([

            gevent.spawn(self.__go_sql, self.cursor, self.conn, sql, item),

        ])

        return item

    def __go_sql(self, cursor, conn, sql, item):

        try:

            # 数据库插入操作

            cursor.execute(sql,

                           (item['cont_id'], item['cont_url'], item['title'], item['publish_time'],

                            item['cont'], item['img_url'][0], item['img_path'], item['link_num'],

                            item['collection_num'], item['comment_num']))

            conn.commit()

        except Exception as e:

            print(e)

    def __get_sql(self, item):

        # 生成sql语句

        sql = """insert into

                  article(cont_id, cont_url, title, publish_time,

                  cont, img_url, img_path, like_num,

                  collection_num, comment_num)

                value

                  (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"""

        return sql

爬取知名社区技术文章_pipelines_4的更多相关文章

爬取知名社区技术文章_items_2
item中定义获取的字段和原始数据进行处理并合法化数据 #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy import hashlib ...
爬取知名社区技术文章_setting_5
# -*- coding: utf-8 -*- # Scrapy settings for JobBole project # # For simplicity, this file contains ...
爬取知名社区技术文章_article_3
爬虫主逻辑处理,获取字段,获取主url和子url #!/usr/bin/python3 # -*- coding: utf-8 -*- import scrapy from scrapy.http i ...
第4章 scrapy爬取知名技术文章网站(2)
4-8~9 编写spider爬取jobbole的所有文章 # -*- coding: utf-8 -*- import re import scrapy import datetime from sc ...
爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...

随机推荐

怎样在Win7系统建立并开启Wifi热点
怎样在Win7系统建立并开启Wifi热点步骤/方法: 1.首先,确定你的笔记本已经开启了无线. 点击电脑左下角的开始,在搜索程序和文件栏输入cmd. 2.在上图中找到Windows命令处理程序cmd ...
我的Python学习笔记（四）：动态添加属性和方法
一.动态语言与静态语言 1.1 动态语言在运行时代码可以根据某些条件改变自身结构可以在运行时引进新的函数.对象.甚至代码,可以删除已有的函数等其他结构上的变化常见的动态语言:Object-C.C ...
eml企业通讯录管理系统v5.0 存在sql注入
0x00 前言上周五的时候想练练手,随便找了个系统下载下来看看. 然后发现还有VIP版本,但是VIP要钱,看了一下演示站,貌似也没有什么改变,多了个导入功能?没细看. 搜了一下发现这个系统,压根就没 ...
linux centos下安装dokuwiki
首先先大致介绍一下wiki: DokuWiki是一个开源wiki引擎程序,运行于PHP环境下.Doku Wiki 程序小巧而功能强大.灵活,适合中小团队和个人网站知识库的管理. DokuWiki可以与 ...
JSON 数据操作
2018,狗年.如果在你出生日期的年份上加12等于2018的话,私聊我,今年是你的本命年,你得发红包!!! 子(鼠).丑(牛).寅(虎).卯(兔).辰(龙).巳(蛇).午(马).未(羊).申(猴).酉 ...
hihoCoder #1015 : KMP算法【KMP裸题，板子】
#1015 : KMP算法时间限制:1000ms 单点时限:1000ms 内存限制:256MB 描述小Hi和小Ho是一对好朋友,出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助,在 ...
一步一步从原理跟我学邮件收取及发送 3.telnet命令行发一封信
首先要感谢博客园管理员的及时回复,本系列的第二篇文章得以恢复到首页,这是对作者的莫大鼓励.说实在的本来我真的挺受打击的.好在管理员说只是排版上有些问题,要用代码块修饰下相关的信息.说来惭愧因为常年编码 ...
在64位系统下，指向int型的指针占的内存空间多大？
不废话,请看代码演示如下: 注意使用的操作系统的位数,不同位数的操作系统,结果不一样! 我是用的是64位的操作系统! linux下示例代码如下: #include <stdio.h> in ...
Windows系统下文件的概念及c语言对其的基本操作（甲）
文件概念
js onclick传递对象
在html onclick中如果参数直接传递一个参数js会报错. 如果想要onclick传递参数需要这么做: var user = {id:1, name:'hk'}; var ele = '< ...

爬取知名社区技术文章_pipelines_4

爬取知名社区技术文章_pipelines_4的更多相关文章

随机推荐

热门专题