python3 requests_html 爬取智联招聘数据（简易版）

PS重点：我回来了-----我回来了-----我回来了

1. 基础需要： python3 基础

html5 CS3 基础

2.库的选择：原始库 urllib2 (这个库早些年的用过，后来淡忘了)

进阶库 requests + BeautifulSop

Xpth 方法 -库lxml

组合版： requests_html （requests 作者）

存储: csv

正则: re

PS:那个方便用那个。

|-1

PS: 智联的网页ip复制到本地text，中文会出现加密，其他网站我没试过，但是智联真是这样，切记，切记

另外就是下载的页面数据，都是通过js渲染的，如果不使用render 方法，有些数据读取不到。

import requests_html

import csv

import re

session = requests_html.HTMLSession()

r = session.get('https://sou.zhaopin.com/?jl=530&kw=爬虫工程师&kt=3')

r.html.render()

|-2

本来是要使用 .html.find() 方法找标签，但是获取的数据只有一行，真的哔了狗，怀疑找的 html 标签不对，直接copy复制的层级，没问题。应该还是数据加载的问题

PS：用正则去找的div 标签。

用 (\d)K-(\d)K 获取工资，它给我把0和k干掉了，神马情况。

xinzi = '<p.* class="contentpile__content__wrapper__item__info__box__job__saray">(.*?)</p>'

xinzi_title = re.findall(xinzi,r.html.html)

gongsi = '<a.*  target="_blank" class="contentpile__content__wrapper__item__info__box__cname__title company_title>(.*?)</>'

gongsi_title = re.findall(gongsi,r.html.html)

|-3

重点来了，文件的获取之后在存储。真的要尝试后才发现自己的错误点，马克思告诉我们要实践检验，是没错的。

获取之后的数据，存在列表里面，存在csv里面，发现就一行，就用了for 循环，遍历存储，但是发现存储的值还是间隔一行。目前没有什么好的思路，再找找原因。

wiht open('xinzi.csv','w+',) as files:

  csvwrite = csv.write(files)

  csvwrite.writeorw(['公司',薪资''])

  #xinzi_title1 = r.html.find(xinzi_title,first=True)

  #gongsi_title1 = r.html.find(gongsi_title,first=True)

  for i in range(len(xinzi_title)):

    csvwrite.writerow([xinzi_title[i],gongsi_title[i]])

完整：

#/usr/bin/python3

#conding:utf-8

#author:yan

import requests_html

import csv

import re

# 获取连接，进行网页下载,js渲染

session = requests_html.HTMLSession()

r = session.get('https://sou.zhaopin.com/?jl=530&kw=爬虫工程师&kt=3')

r.html.render()

#

xinzi = '<p.* class="contentpile__content__wrapper__item__info__box__job__saray">(.*?)</p>'

xinzi_title = re.findall(xinzi,r.html.html)

gongsi = '<a.* target="_blank" class="contentpile__content__wrapper__item__info__box__cname__title company_title">(.*?)</a>'

gongsi_title = re.findall(gongsi,r.html.html)

with open('xinzi1.csv','w+',) as filea:

    csvwrite = csv.writer(filea)

    csvwrite.writerow(['薪资','工资'])

    #xinzi_title1 = r.html.find(xinzi_title,first=True)

    #gongsi_title1 = r.html.find(gongsi_title,first=True)

    for i in range(len(xinzi_title)):

        csvwrite.writerow([xinzi_title[i],gongsi_title[i]])

PS：加油，

最近是心态炸裂，颓废了两年，

耗费大半个时间，真的是放纵自己。

该活过来了，生命走了三分之一的路程，浪费了多少。

python3 requests_html 爬取智联招聘数据（简易版）的更多相关文章

用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...
用生产者消费模型爬取智联招聘python岗位信息
爬取python岗位智联招聘这里爬取北京地区岗位招聘python岗位,并存入EXECEL文件内,代码如下: import json import xlwt import requests from ...
python3爬虫抓取智联招聘职位信息代码
上代码,有问题欢迎留言指出. # -*- coding: utf-8 -*- """ Created on Tue Aug 7 20:41:09 2018 @author ...
scrapy 爬取智联招聘
准备工作 1. scrapy startproject Jobs 2. cd Jobs 3. scrapy genspider ZhaopinSpider www.zhaopin.com 4. scr ...

随机推荐

php数据提交POSt
通常情况下用户使用浏览器网页表单向服务器post提交数据,我们使用PHP的$_POST接收用户POST到服务器的数据,并进行适当的处理.但有些情况下,如用户使用客户端软件向服务端php程序发送post ...
写论文与PPT汇报时matlab图片的背景透明处理
不少同学在使用Word写论文时,将matlab生成的图保存为jpg格式,然后粘贴到文档中.word背景为纯白色,jpg图的缺点没有显示,实际上会存在很大白边,以及放大后不清晰的问题,很影响PPT展示和 ...
[sonarqube的使用] sonarqube安装
一 . SonarQube代码质量检查工具简介 Sonar (SonarQube)是一个开源平台,用于管理源代码的质量 Sonar 不只是一个质量数据报告工具,更是代码质量管理平台支持Java, C ...
JAVASE知识点总结（三）
第十六章:抽象类和接口一.抽象方法:在方法面前加了abstract(为了解决,子类必须要覆盖此方法,在定义的时候不要方法体). 特点:1.抽象方法没有方法体. 2.抽象方法必须放在抽象类(类前面加上 ...
append追加的html片段，添加点击事件没有反应，解决！
对于追加的元素来说,属于未来展现的内容,我们此时不能使用一般点击事情处理,需要用未来事件绑定. 例如:我点击车牌号显示车辆详情,如下绑定. //绑定未来元素 $("body").d ...
【ADO.NET基础】——数据库连接
SQL Sever连接字符串 (1)标准的安全连接 Data Source=myServerAddress;Initial Catalog=myDataBase;User Id=myUsername; ...
使用Hexo开源博客系统，轻松搭建你的个人博客（1）
Hexo 是一个轻量级.简洁.高效且高逼格的博客框架.Hexo 使用 Markdown(或其他渲染引擎)解析文章,在几秒内,即可利用靓丽的主题生成静态网页.同时有着丰富的主题,官网或者GitHub都可 ...
Python基础（十六）
今日主要内容内置模块(标准库) 序列化 hashlib collections 软件开发规范一.内置模块(标准库) (一)序列化模块什么是序列化? 将一种数据结构(如列表.字典)转换为另一种特殊 ...
UVA12983 The Battle of Chibi
第一眼能看出来是个dp O($n^3$) 暴力应该很好想 dp[i][j] = $\sum_{k=1}^i [a[k] < a[i]] *dp[k][j-1]$ 发现dp[i][j] 为前面小于 ...
.Net Core 商城微服务项目系列（五）：使用Polly处理服务错误
项目进行微服务化之后,随之而来的问题就是服务调用过程中发生错误.超时等问题的时候我们该怎么处理,比如因为网络的瞬时问题导致服务超时,这在我本人所在公司的项目里是很常见的问题,当发生请求超时问题的时候, ...

python3 requests_html 爬取智联招聘数据（简易版）

python3 requests_html 爬取智联招聘数据（简易版）的更多相关文章

随机推荐

热门专题