scrapy获取58同城数据

1. scrapy项目的结构

    项目名字

        项目名字

            spiders文件夹 （存储的是爬虫文件）

                init

                自定义的爬虫文件    核心功能文件  ****************

            init

            items        定义数据结构的地方 爬取的数据都包含哪些

            middleware   中间件    代理

            pipelines    管道   用来处理下载的数据

            settings     配置文件    robots协议  ua定义等

2. response的属性和方法

    response.text   获取的是响应的字符串

    response.body   获取的是二进制数据

    response.xpath  可以直接是xpath方法来解析response中的内容

    response.extract()   提取seletor对象的data属性值

    response.extract_first() 提取的seletor列表的第一个数据

1、创建scrapy项目

> scrapy startproject scrapy_58tc

文件路径scrapy_58tc\scrapy_58tc

2、找到访问接口

4、创建爬虫文件

scrapy_58tc\scrapy_58tc\spiders> scrapy genspider tc https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=jianzhi_B

文件路径scrapy_58tc\scrapy_58tc\spiders\spiders

提示遵守robots协议

注释spider目录下的settings中的遵守robots协议

ty.py

import scrapy

class TcSpider(scrapy.Spider):

    name = 'tc'

    allowed_domains = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']

    start_urls = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']

    def parse(self, response):

        # 字符串

        # content = response.text

        # 二进制数据

        # content = response.body

        # print('===========================')

        # print(content)

　　　　 # 获取列表中的第一元素

        span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0]

        print('=======================')
　　　　 #获取Seletor对象的data属性值

        print(span.extract())

print(span)

运行爬虫文件

scrapy_58tc\scrapy_58tc\spiders> scrapy crawl tc

print(span.extract())

scrapy获取58同城数据的更多相关文章

Python 之scrapy框架58同城招聘爬取案例
一.项目目录结构: 代码如下: # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See docu ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
58同城AES签名接口分析
背景:需要获取58同城上面发布的职位信息,其中的包括职位的招聘要求,薪资福利,公司的信息,招聘者的联系方式.(中级爬虫的难度系数) 职位详情页分析某个职位详情页的链接 https://qy.m.58 ...
scrapy爬取58同城二手房问题与对策
测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有 ...
用Python写爬虫爬取58同城二手交易数据
爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意模块1 获取分类url列表 from bs4 import BeautifulSoup import request ...
转载：MongoDB 在 58 同城百亿量级数据下的应用实践
为什么要使用 MongoDB? MongoDB 这个来源英文单词“humongous”,homongous 这个单词的意思是“巨大的”.“奇大无比的”,从 MongoDB 单词本身可以看出它的目标是提 ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...
58同城高性能移动Push推送平台架构演进之路
本文详细讲述58同城高性能移动Push推送平台架构演进的三个阶段,并介绍了什么是移动Push推送,为什么需要,原理和方案对比:移动Push推送第一阶段(单平台)架构如何设计:移动Push推送典型性能问 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...

随机推荐

MySQL8.0.20安装教程图文详解,MySQL8.0.20安装教程winodws10
MySQL8.0.20安装教程图文详解,非常详细一:mysql官网下载 https://dev.mysql.com/downloads/file/?id=494993 不用注册,直接下载就好二:解 ...
mysql8 主从搭建
主:192.168.10.2 从:192.168.10.3 主:1.登录mysql,授权账号,让从数据库可以进行复制. mysql CREATE USER 'repl'@'192.168.10.3' ...
无服务计算应用场景探讨及 FaaS 应用实战
作者 | 宋文龙(闻可) 阿里云全球技术服务部高级交付专家什么是无服务计算无服务器计算(Serverless Computing)在构建和运行应用时无需管理服务器等基础设施.它描述了一个细粒度的 ...
javascript-原生-函数
本节呢讲解js的函数部分,js函数部分总共分为两大类:1.自定义函数.2.系统函数说白了,系统函数就是js自己内置的函数,其他的都属于自定义函数. 1.自定义函数函数是完成指定功能的程序段,可以反 ...
VMD可视化hdf5格式的分子坐标文件
技术背景 VMD是分子动力学模拟领域常用的一款可视化软件,可以非常直观方便的展示分子的运动过程.而VMD本身对展现的格式有一定的要求,如果不是常见的rst等类型的坐标文件的话,就需要自己手动去实现一个 ...
Alpha发布声明
项目内容这个作业属于哪个课程 2021春季软件工程(罗杰任健) 这个作业的要求在哪里 Alpha-发布声明我们是谁删库跑路对不队我们在做什么题士进度如何进度总览一.功能与特性 1. ...
[软工顶级理解组] Beta阶段项目展示
目录团队成员软件介绍项目简介预期典型用户功能描述预期目标用户数用户反馈团队管理分工协作项目管理取舍平衡代码管理程序测试代码规范文档撰写继续开发指导性用户沟通需求分析 ...
【做题记录】 [HEOI2013]SAO
P4099 [HEOI2013]SAO 类型:树形 \(\text{DP}\) 这里主要补充一下 \(O(n^3)\) 的 \(\text{DP}\) 优化的过程,基础转移方程推导可以参考其他巨佬的博 ...
手把手搭建自己的智能家居 - 基于 IOT Pi 的智能甲醛检测器
智慧家居 - 基于 IOT Pi 的智能甲醛检测器之前的文章体验 MS-RTOS 的时候入手了一个块 IOT Pi ,放着也是浪费,这次我们就利用 IOT PI 开发一个智能甲醛检测器.φ(> ...
Hive计算最大连续登陆天数
目录一.背景二.算法 1. 第一步:排序 2. 第二步:第二列与第三列做日期差值 3. 第三步:按第二列分组求和 4. 第四步:求最大次数三.扩展(股票最大涨停天数) 强哥说他发现了财富密码,最 ...

scrapy获取58同城数据

scrapy获取58同城数据的更多相关文章

随机推荐

热门专题