使用scrapy框架做赶集网爬虫

一、安装

首先scrapy的安装之前需要安装这个模块:wheel、lxml、Twisted、pywin32,最后在安装scrapy

pip install wheel
pip install lxml
这个地址是一个下载python包的好地方
https://www.lfd.uci.edu/~gohlke/pythonlibs/下载twisted
pip install Twisted
pip install pywin32
pip install scrapy 安装完成后
输入scrapy 能够执行,并能提示版本,说明安装没问题

二、Scrapy项目的创建

1、在前面输入 scrapy 的时候有个选项是 startproject,这个选项是创建scrapy项目,我们在命令提示符中输入:

scrapy startproject zufang (zufang是项目名称)

2、打开pycharm-->file-->open 找到建好的项目,显示项目结构

init.py 保持默认,不修改

items.py 保存爬取到的数据的容器

middlewares.py 中间件配置文件

settings.py 项目的设置文件,延迟等。

pipelines.py 项目管道文件,对传入的项目类中的数据进行一个清理和入库

spiders目录 该目录下只有一个init.py 文件,在该目录下定义爬虫类并集成scrapy.Spider

scrapy genspider ganji tj.ganji.com 前一个是py文件名名后一个是要爬取的url

生成一个ganji.py文件

三、创建数据库

1、pycharm下方的Terminal输入

python

    import sqlite3
zufang=sqlite3.connect("zufang.sqlite")
createtable="create table zufang(title varchar(512),money varchar(128))"
zufang.execute(createtable);
2、完成创建数据库和表
3、按住这个文件拖动到右侧的Database中

四、修改代码

1、在ganji.py中配置需要访问的域名和要爬取的url

        # -*- coding: utf-8 -*-
from zufang.items import *
import scrapy class GanjiSpider(scrapy.Spider):
name = 'zufang'
allowed_domains = ['tj.ganji.com']
start_urls = ['http://tj.ganji.com/fang1/chaoyang/'] def parse(self, response):
print(response)
zf = ZufangItem()
allrawpriceList=response.xpath('//div/dl/dd[5]//div/span[1]/text()').extract()
allrawtitleList = response.xpath('//*[@class ="f-list-item ershoufang-list"]/dl/dd[1]/a/text()').extract()
for title, price in zip(allrawtitleList, allrawpriceList):
zf["title"] = title;
zf["money"] = price
yield zf
2、item.py修改代码
import scrapy class ZufangItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field();
money = scrapy.Field();
3、pipeline.py修改代码
import sqlite3 class ZufangPipeline(object):
def process_item(self, item, spider):
print(spider.name, "Spider pipeline")
return item def open_spider(self, spider):
self.con = sqlite3.connect("zufang.sqlite")
self.cn = self.con.cursor() def process_item(self, item, spider):
print(item)
insert_sql = 'insert into zufang(title, money) values("{}", "{}")'.format(item["title"], item["money"])
# insert_sql = 'insert into zufang(title, money) values("{}", "{}")'.format("title", 2500)
print(insert_sql)
self.cn.execute(insert_sql)
self.con.commit()
return item def spider_close(self, spider):
self.con.close()
4、setting.py中修改使pipeline生效
ITEM_PIPELINES = {
'zufang.pipelines.ZufangPipeline': 300,
}

五、执行爬虫 (项目目录下执行)退到与工程同一目录下:

scrapy crawl zufang

使用scrapy框架做赶集网爬虫的更多相关文章

  1. 基于Scrapy框架的Python新闻爬虫

    概述 该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地 详细 代码下载:http://www.demoda ...

  2. 使用scrapy框架爬取图片网全站图片(二十多万张),并打包成exe可执行文件

    目标网站:https://www.mn52.com/ 本文代码已上传至git和百度网盘,链接分享在文末 网站概览 目标,使用scrapy框架抓取全部图片并分类保存到本地. 1.创建scrapy项目 s ...

  3. Scrapy框架实战-妹子图爬虫

    Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...

  4. scrapy框架解读--深入理解爬虫原理

    scrapy框架结构图: 组成部分介绍: Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件 Scheduler: 接收requests,并把他们入队,以便后续的调度 Do ...

  5. Scrapy模拟登录赶集网

    1.打开赶集网登录界面,先模拟登录并抓包,获得post请求的request参数 2. 我们只需构造出上面的参数传入formdata即可 参数分析: setcookie:为自动登录所传的值,不勾选时默认 ...

  6. 使用scrapy框架做武林中文网的爬虫

    一.安装 首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel pip install lxml ...

  7. Golang框架beego电影网爬虫小试牛刀

    学习了一段时间golang,又参考课程学习了beego开发网站爬虫,项目的目录结构是: 采集的目标是豆瓣网电影,入口地址是:https://movie.douban.com/subject/19008 ...

  8. 基于Scrapy框架的增量式爬虫

    概述 概念:监测 核心技术:去重 基于 redis 的一个去重 适合使用增量式的网站: 基于深度爬取的 对爬取过的页面url进行一个记录(记录表) 基于非深度爬取的 记录表:爬取过的数据对应的数据指纹 ...

  9. 网络爬虫第五章之Scrapy框架

    第一节:Scrapy框架架构 Scrapy框架介绍 写一个爬虫,需要做很多的事情.比如:发送网络请求.数据解析.数据存储.反反爬虫机制(更换ip代理.设置请求头等).异步请求等.这些工作如果每次都要自 ...

随机推荐

  1. 【2019.10.17】十天Web前端程序员体验(软件工程实践第五次作业)

    结对信息.具体分工 Github地址:https://github.com/MokouTyan/131700101-031702425 学号 昵称 主要负责内容 博客地址 131700101 莫多 代 ...

  2. Linux 的crond 任务调度

    一.原理示意图 二.概述 任务调度:是指系统在某个时间执行的特定的命令或程序 任务调度分类: 1.系统工作:有些重要的工作周而复始的执行.如病毒扫描等 2.个别用户工作:个别用户可能希望执行程序,比如 ...

  3. mac使用crawlab

    这里采用docker-compose的 第一步拉镜像 docker pull tikazyq/crawlab:latest 第二步修改compose文件 docker-compose.yml文件 ve ...

  4. 2019SDN上机第4次作业

    一.作业要求 1.解压安装OpenDayLight控制器(本次实验统一使用Beryllium版本) 2.启动并安装插件 3.用Python脚本搭建给定的拓扑,并连接OpenDayLight控制器 4. ...

  5. linux系统下以存储从大到小并以K,M,G为单位的方式查看当前目录下的文件信息

    zhuazai:https://blog.csdn.net/sty945/article/details/79830915 前言 ls命令 ls -a ls -l ll du命令 du -s du - ...

  6. Flink实时处理并将结果写入ElasticSearch实战

    参考原博客: https://blog.csdn.net/weixin_44516305/article/details/90258883 1 需求分析 使用Flink对实时数据流进行实时处理,并将处 ...

  7. kafka 的server.properties

    # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreement ...

  8. docker 安装redis 并配置外网可以访问

    1, docker 拉去最新版本的redis docker pull redis #后面可以带上tag号, 默认拉取最新版本 2, docker安装redis container 安装之前去定义我们的 ...

  9. yii2增删改查操作

    https://www.yiichina.com/tutorial/996 https://www.yiichina.com/tutorial/834 一.新增 使用model::save()操作进行 ...

  10. Java基础 switch 表达式为字符串

        JDK :OpenJDK-11      OS :CentOS 7.6.1810      IDE :Eclipse 2019‑03 typesetting :Markdown   code ...