scrapy获取58同城数据

1. scrapy项目的结构

    项目名字

        项目名字

            spiders文件夹 （存储的是爬虫文件）

                init

                自定义的爬虫文件    核心功能文件  ****************

            init

            items        定义数据结构的地方 爬取的数据都包含哪些

            middleware   中间件    代理

            pipelines    管道   用来处理下载的数据

            settings     配置文件    robots协议  ua定义等

2. response的属性和方法

    response.text   获取的是响应的字符串

    response.body   获取的是二进制数据

    response.xpath  可以直接是xpath方法来解析response中的内容

    response.extract()   提取seletor对象的data属性值

    response.extract_first() 提取的seletor列表的第一个数据

1、创建scrapy项目

> scrapy startproject scrapy_58tc

文件路径scrapy_58tc\scrapy_58tc

2、找到访问接口

4、创建爬虫文件

scrapy_58tc\scrapy_58tc\spiders> scrapy genspider tc https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=jianzhi_B

文件路径scrapy_58tc\scrapy_58tc\spiders\spiders

提示遵守robots协议

注释spider目录下的settings中的遵守robots协议

ty.py

import scrapy

class TcSpider(scrapy.Spider):

    name = 'tc'

    allowed_domains = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']

    start_urls = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']

    def parse(self, response):

        # 字符串

        # content = response.text

        # 二进制数据

        # content = response.body

        # print('===========================')

        # print(content)

　　　　 # 获取列表中的第一元素

        span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0]

        print('=======================')
　　　　 #获取Seletor对象的data属性值

        print(span.extract())

print(span)

运行爬虫文件

scrapy_58tc\scrapy_58tc\spiders> scrapy crawl tc

print(span.extract())

scrapy获取58同城数据的更多相关文章

Python 之scrapy框架58同城招聘爬取案例
一.项目目录结构: 代码如下: # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See docu ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
58同城AES签名接口分析
背景:需要获取58同城上面发布的职位信息,其中的包括职位的招聘要求,薪资福利,公司的信息,招聘者的联系方式.(中级爬虫的难度系数) 职位详情页分析某个职位详情页的链接 https://qy.m.58 ...
scrapy爬取58同城二手房问题与对策
测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有 ...
用Python写爬虫爬取58同城二手交易数据
爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意模块1 获取分类url列表 from bs4 import BeautifulSoup import request ...
转载：MongoDB 在 58 同城百亿量级数据下的应用实践
为什么要使用 MongoDB? MongoDB 这个来源英文单词“humongous”,homongous 这个单词的意思是“巨大的”.“奇大无比的”,从 MongoDB 单词本身可以看出它的目标是提 ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...
58同城高性能移动Push推送平台架构演进之路
本文详细讲述58同城高性能移动Push推送平台架构演进的三个阶段,并介绍了什么是移动Push推送,为什么需要,原理和方案对比:移动Push推送第一阶段(单平台)架构如何设计:移动Push推送典型性能问 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...

随机推荐

c# 类型安全语言
所谓的安全性语言其本质是有关类型操作的一种规范,即不能将一种类型转换为另一种类型. c#作为一种安全性语言,允许合理的类型转换,但是不能将两个完全不同的类型相互转换. c#允许开发者将对象转换为它的实 ...
暑期 2021 | Serverless Devs 最全项目申请攻略来啦！
Serverless 是近年来云计算领域热门话题,凭借极致弹性.按量付费.降本提效等众多优势受到很多人的追捧,各云厂商也在不断地布局 Serverless 领域.但是随着时间的发展,Serverles ...
JavaScript有同步任务和异步任务，浏览器是怎么处理的？
1.在讨论浏览器与JavaScript之前,我们先来简单了解一下进程与线程进程(process):资源分配的最小单位进程是应用程序的执行实例,是操作系统进行资源分配和调度的一个独立单位. 线程(t ...
CompleteFuture实现简单的任务编排实践
CompleteFuture实现简单的任务编排实践一:前言 CompleteFuture是java8 新提供的API,是对函数式编程思想的体现,提供了很多的对于函数式编程支持.不止有同步处理功能 ...
keras框架下的深度学习（一）手写体识别
这个系列文章主要记录使用keras框架来搭建深度学习模型的学习过程,其中有一些自己的想法和体会,主要学习的书籍是:Deep Learning with Python,使用的IDE是pycharm. 在 ...
40个Python入门小程序
有不少同学学完Python后仍然很难将其灵活运用.我整理 37 个Python入门的小程序.在实践中应用Python会有事半功倍的效果. 分享 Github 项目,里面收集了 Python 学习资料 ...
【UE4 C++】 Config Settings配置文件(.ini)
简介常见存储路径 \Engine\Config\ \Engine\Saved\Config\ (运行后生成) [ProjectName]\Config\ [ProjectName]\Saved\Co ...
利用 pip 安装 Python 程序包到个人用户文件夹下
利用 --user 参数,即 pip install --user package_name 这样会将Python 程序包安装到 $HOME/.local 路径下,其中包含三个字文件夹:bin,lib ...
热身 for computer industry
项目内容作业属于班级博客作业要求作业要求个人课程目标掌握软件工程基础知识具体有助方面个人认知与规划其他参考文献博客Ⅰ 博客 Ⅱ 选择计算机你为什么选择计算机专业?你认为你的条件 ...
Prometheus之告警规则的编写
Prometheus之告警规则的编写一.前置知识二.需求三.实现步骤 1.编写告警规则 2.修改prometheus.yml执行告警规则的位置 3.配置文件截图 4.页面上看告警数据信息 5.查 ...

scrapy获取58同城数据

scrapy获取58同城数据的更多相关文章

随机推荐

热门专题