使用scrapy框架做赶集网爬虫

一、安装

首先scrapy的安装之前需要安装这个模块：wheel、lxml、Twisted、pywin32，最后在安装scrapy

pip install wheel

pip install lxml

这个地址是一个下载python包的好地方

https://www.lfd.uci.edu/~gohlke/pythonlibs/下载twisted

pip install Twisted

pip install pywin32

pip install scrapy

安装完成后

输入scrapy 能够执行，并能提示版本，说明安装没问题

二、Scrapy项目的创建

1、在前面输入 scrapy 的时候有个选项是 startproject，这个选项是创建scrapy项目，我们在命令提示符中输入：

scrapy startproject zufang (zufang是项目名称)

2、打开pycharm-->file-->open 找到建好的项目，显示项目结构

init.py 保持默认，不修改

items.py 保存爬取到的数据的容器

middlewares.py 中间件配置文件

settings.py 项目的设置文件，延迟等。

pipelines.py 项目管道文件，对传入的项目类中的数据进行一个清理和入库

spiders目录该目录下只有一个init.py 文件，在该目录下定义爬虫类并集成scrapy.Spider

scrapy genspider ganji tj.ganji.com 前一个是py文件名名后一个是要爬取的url

生成一个ganji.py文件

三、创建数据库

1、pycharm下方的Terminal输入

python

    import sqlite3

    zufang=sqlite3.connect("zufang.sqlite")

    createtable="create table zufang(title varchar(512),money varchar(128))"

    zufang.execute(createtable);

2、完成创建数据库和表

3、按住这个文件拖动到右侧的Database中

四、修改代码

1、在ganji.py中配置需要访问的域名和要爬取的url

        # -*- coding: utf-8 -*-

        from zufang.items import *

        import scrapy

        class GanjiSpider(scrapy.Spider):

            name = 'zufang'

            allowed_domains = ['tj.ganji.com']

            start_urls = ['http://tj.ganji.com/fang1/chaoyang/']

            def parse(self, response):

                print(response)

                zf = ZufangItem()

                allrawpriceList=response.xpath('//div/dl/dd[5]//div/span[1]/text()').extract()

                allrawtitleList = response.xpath('//*[@class ="f-list-item ershoufang-list"]/dl/dd[1]/a/text()').extract()

                for title, price in zip(allrawtitleList, allrawpriceList):

                    zf["title"] = title;

                    zf["money"] = price

                    yield zf

2、item.py修改代码

    import scrapy

    class ZufangItem(scrapy.Item):

        # define the fields for your item here like:

        # name = scrapy.Field()

        title = scrapy.Field();

        money = scrapy.Field();

3、pipeline.py修改代码

    import sqlite3

    class ZufangPipeline(object):

        def process_item(self, item, spider):

            print(spider.name, "Spider pipeline")

            return item

        def open_spider(self, spider):

            self.con = sqlite3.connect("zufang.sqlite")

            self.cn = self.con.cursor()

        def process_item(self, item, spider):

            print(item)

            insert_sql = 'insert into zufang(title, money) values("{}", "{}")'.format(item["title"], item["money"])

            # insert_sql = 'insert into zufang(title, money) values("{}", "{}")'.format("title", 2500)

            print(insert_sql)

            self.cn.execute(insert_sql)

            self.con.commit()

            return item

        def spider_close(self, spider):

            self.con.close()

4、setting.py中修改使pipeline生效

    ITEM_PIPELINES = {

       'zufang.pipelines.ZufangPipeline': 300,

    }

五、执行爬虫（项目目录下执行）退到与工程同一目录下：

scrapy crawl zufang

使用scrapy框架做赶集网爬虫的更多相关文章

基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
使用scrapy框架爬取图片网全站图片(二十多万张)，并打包成exe可执行文件
目标网站:https://www.mn52.com/ 本文代码已上传至git和百度网盘,链接分享在文末网站概览目标,使用scrapy框架抓取全部图片并分类保存到本地. 1.创建scrapy项目 s ...
Scrapy框架实战-妹子图爬虫
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...
scrapy框架解读--深入理解爬虫原理
scrapy框架结构图: 组成部分介绍: Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件 Scheduler: 接收requests,并把他们入队,以便后续的调度 Do ...
Scrapy模拟登录赶集网
1.打开赶集网登录界面,先模拟登录并抓包,获得post请求的request参数 2. 我们只需构造出上面的参数传入formdata即可参数分析: setcookie:为自动登录所传的值,不勾选时默认 ...
使用scrapy框架做武林中文网的爬虫
一.安装首先scrapy的安装之前需要安装这个模块:wheel.lxml.Twisted.pywin32,最后在安装scrapy pip install wheel pip install lxml ...
Golang框架beego电影网爬虫小试牛刀
学习了一段时间golang,又参考课程学习了beego开发网站爬虫,项目的目录结构是: 采集的目标是豆瓣网电影,入口地址是:https://movie.douban.com/subject/19008 ...
基于Scrapy框架的增量式爬虫
概述概念:监测核心技术:去重基于 redis 的一个去重适合使用增量式的网站: 基于深度爬取的对爬取过的页面url进行一个记录(记录表) 基于非深度爬取的记录表:爬取过的数据对应的数据指纹 ...
网络爬虫第五章之Scrapy框架
第一节:Scrapy框架架构 Scrapy框架介绍写一个爬虫,需要做很多的事情.比如:发送网络请求.数据解析.数据存储.反反爬虫机制(更换ip代理.设置请求头等).异步请求等.这些工作如果每次都要自 ...

随机推荐

深入浅出一致性Hash原理
转自:https://www.jianshu.com/p/e968c081f563 一.前言在解决分布式系统中负载均衡的问题时候可以使用Hash算法让固定的一部分请求落到同一台服务器上,这样每台服务 ...
C#作业处理
2019.9.8 作业要求: 将字符串加密,即将字符串中每个字符向后移动五个字符,并输出密文解决方案: using System; using System.Collections.Generic; ...
postgresql 字段sql语句更改表名
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/sq8706/article/detail ...
Are query string keys case sensitive?
Are query string keys case sensitive? @gbjbaanb's answer is incorrect: The RFCs only specify the all ...
unity手机游戏应用程序调试控制台Lunar Mobile Console - PRO 1.5.5
unity手机游戏应用程序调试控制台Lunar Mobile Console - PRO 1.5.5 High-performance Unity iOS/Android console built ...
手写MyBatis ORM框架实践
一.实现手写Mybatis三个难点 1.接口既然不能被实例化?那么我们是怎么实现能够调用的? 2.参数如何和sql绑定 3.返回结果下面是Mybatis接口二.Demo实现 1.创建Maven工程 ...
ln bug
/home/hdp/testcpy sudo ln -s . /usr/lib/cpy390sourcecode cpy390sourcecode -> . sudo ln -s pwd /us ...
JMS与消息队列
JMS,Java Message Service,即Java消息服务. MOM,Message Oriented Miiddleware的英文缩写,指的是利用高效可靠的消息传递机制进行平台无关的数据交 ...
shiro解决一个账号异地登录的问题
如下,找到session中的信息删除即可,按照这个方式试了下.基本可用在多台服务器部署时,前提必须实现session共享. /** * 登录认证 * @param token * @return * ...
php nginx window系统 gettext方式实现UTF-8国际化多语言(i18n)
开始应用: 步骤一:搭建环境(服务器已经完成,环境已经搭建好了) 1.首先查看你的php扩展目录下是否有php_gettext.dll这个文件,如果没有,这就需要你下载一个或是从其他地方拷贝一个,然后 ...

使用scrapy框架做赶集网爬虫

使用scrapy框架做赶集网爬虫的更多相关文章

随机推荐

热门专题