Python scrapy框架爬取瓜子二手车信息数据

项目实施依赖：

python，scrapy ，fiddler

scrapy安装依赖的包：

可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 pywin32，lxml，Twisted，scrapy然后pip安装

项目实施开始：

1、创建scrapy项目：cmd中cd到需创建的文件目录下

scrapy  startproject guazi

2、创建爬虫：cd到创建好的项目下

 scrapy genspider gz guazi.com

3、分析目标网址：

　　第一次我直接用的谷歌浏览器的抓包分析，取得UA和Cookies请求，返回的html数据完全缺失，分析可能是携带的Cookies

有问题，然后就用fiddler抓包才，得到Cookies与谷歌上得到Cookies多了UA，时间等参数，

4、将UA，Cookies添加到下载中间中去：

 class Guzi1DownloaderMiddleware(object):

     def process_request(self, request, spider):

             # 需要对得到的cookies处理成字典类型

         request.cookies={}

         request.headers["User-Agent"]=""

5、在settings中将DOWNLOADER_MIDDLEWARES打开

6、在spiders目录下找到gz.py开始编写爬虫逻辑处理

 import scrapy

 import time

 class GzSpider(scrapy.Spider):

     name = 'gz'

     allowed_domains = ['guazi.com']

     start_urls = ['https://www.guazi.com/cd/buy/0']

     def parse(self, response):

         # 得到页面上所有车辆的url

         url_list = response.xpath('//ul[@class="carlist clearfix js-top"]//li/a/@href').extract()

         url_list = [response.urljoin(url) for url in url_list]

         url_list = [url.replace("cq", "cd") for url in url_list]

         for url in url_list:

             yield scrapy.Request(url=url, callback=self.parse1, dont_filter=True)

         # 获取下一页的url

         next_url = response.urljoin(response.xpath('//span[text()="下一页"]/../@href').extract_first())

         if next_url:

             yield scrapy.Request(url=next_url, callback=self.parse, dont_filter=True)

         time.sleep(2)

     def parse1(self, response):

         # 判断是否有数据

         if response.xpath('//h2/text()').extract_first():

             print(response.xpath('//h2/text()').extract_first().strip())

             item = {}

             item["车型"] = response.xpath('//h2/text()').extract_first().strip()

             item["选车类型"] = response.xpath('//h2/span/text()').extract_first()

             item["价格/万"] = response.xpath('//div[@class="pricebox js-disprice"]/span[1]/text()').extract_first().strip()

             item["新车价格"] = response.xpath('//div[@class="pricebox js-disprice"]/span[2]/text()').extract_first().strip()

             item["上牌时间"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[1]/div/text()').extract_first().strip()

             item["公里数"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[2]/div/text()').extract_first().strip()

             item["排量"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[3]/div/text()').extract_first().strip()

             item["变速箱"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[4]/div/text()').extract_first().strip()

             item["配置信息"] = response.xpath('//span[@class="type-gray"]//text()').extract()

             item["网址"] = response.url

             yield item

7、启动爬虫并保存为csv文件

scrapy crawl gz -o guanzi.csv

8、最后得到了想要的二手车信息，贴上部分截图

Python scrapy框架爬取瓜子二手车信息数据的更多相关文章

爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
python scrapy框架爬取豆瓣
刚刚学了一下,还不是很明白.随手记录. 在piplines.py文件中将爬到的数据放到json中 class DoubanmoviePipelin2json(object):#打开文件 open_ ...
Python——爬取瓜子二手车
# coding:utf8 # author:Jery # datetime:2019/5/1 5:16 # software:PyCharm # function:爬取瓜子二手车 import re ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
scrapy框架爬取小说信息
1.爬取目标网站:http://www.zhaoxiaoshuo.com/all.php?c=0&o=0&s=0&f=2&l=0&page=1 2.爬取目标网站 ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...

随机推荐

Linux常用命令——持续更新（2018-05-09）
此命令默认是在centos环境下执行,除非特殊标明. 1.查看ip: ifconfig 2.创建指定用户并分配到某个组:创建用户user并分配到root组 useradd -g root user 3 ...
java创建文件夹以及文件
java在创建文件的过程中如果改文件的路径不存在: 会出现下面这种情况 java.io.IOException: 系统找不到指定的路径. at java.io.WinNTFileSystem.crea ...
6.JS输出
JavaScript 通常用于操作 HTML 元素. ① document.getElementById(id),可以访问某个 HTML 元素请使用 "id" 属性来标识 HTM ...
用ASTERISK搭建自己的免费VOIP服务器
服务器别闲着,博主又要给大家带来新的玩法咯 1. 这里以 Debian 为例子,安装 Asterisk apt-get update apt-get install asterisk 2. 预设置 A ...
vue axios拦截器介绍
关于axios的拦截器是一个作用非常大,非常好用的东西.分为请求拦截器和响应拦截器两种.我一般把拦截器写在main.js里. 1. 请求拦截器请求拦截器的作用是在请求发送前进行一些操作,例如在每个请 ...
Ubuntu 12.04安装grub2过程中出错怎么办【转】
本文转载自:https://zhidao.baidu.com/question/491448169666671012.html 其实是可以不用优盘启动的.但使用优盘没有风险.你的系统虽然出现==不能安 ...
动态inventory脚本的python实现
#!/usr/bin/env python # -*- coding: utf-8 -*- ''' 基于python的动态inventory脚本实例 ''' import os import sys ...
在Eclipse Java EE编译器中修改Web项目的发布名称
在工程目录上右键, 选properties, 弹出属性窗口, 选中Web Project Settings, 在右边的Context root中修改保存即可死马当做活马医在你的工程目录下找到.se ...
hdu-4857 逃生(拓扑序)
题目链接: 逃生 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Proble ...
[WC 2006] 水管局长
[题目链接] https://www.lydsy.com/JudgeOnline/problem.php?id=2594 [算法] 首先离线 , 将删边操作转化为倒序加边假设我们已经维护出了一棵最小 ...