python3爬虫抓取智联招聘职位信息代码

上代码，有问题欢迎留言指出。

# -*- coding: utf-8 -*-

"""

Created on Tue Aug  7 20:41:09 2018

@author: brave-man

blog: http://www.cnblogs.com/zrmw/

"""

import requests

from bs4 import BeautifulSoup

import json

def getDetails(url):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}

    res = requests.get(url, headers = headers)

    res.encoding = 'utf-8'

    soup = BeautifulSoup(res.text, 'html.parser')

    soup = json.loads(str(soup))

    try:

        with open('jobDetails.txt', 'w') as f:

            print('创建 {} 文件成功'.format('jobDetails.txt'))

    except:

        print('failure')

    details = {}

    for i in soup['data']['results']:

        jobName = i['jobName']

        salary = i['salary']

        company = i['company']['name']

        companyUrl = i['company']['url']

        positionURL = i['positionURL']

        details = {'jobName': jobName,

                   'salary': salary,

                   'company': company,

                   'companyUrl': companyUrl,

                   'positionURL': positionURL

                   }

#        print(details)

        toFile(details)

def toFile(d):

    dj = json.dumps(d)

    try:

        with open('jobDetails.txt', 'a') as f:

            f.write(dj)

#            print('sucessful')

    except:

        print('Error')

def main():

    url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=635&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=python&kt=3&lastUrlQuery={"jl":"635","kw":"python","kt":"3"}'

    getDetails(url)

if __name__ == "__main__":

    main()

执行完上述代码后，会在代码同目录下创建一个保存职位信息的txt文件，jobDetails.txt。

这只是获取一页招聘信息的代码，后续会添加，如何获取url和所有页的招聘信息的代码。

智联招聘网站还是有一点点小坑的，就是不是所有的招聘职位详情页面都是使用智联的官网格式，点开某个招聘职位之后，链接定向到某公司官网的招聘网站上，后面遇到的时候会具体处理。

python3爬虫抓取智联招聘职位信息代码的更多相关文章

python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
python3 requests_html 爬取智联招聘数据（简易版）
PS重点:我回来了-----我回来了-----我回来了 1. 基础需要: python3 基础 html5 CS3 基础 2.库的选择: 原始库 urllib2 (这个库早些年的用过,后来淡忘了) ...
一个抓取智联招聘数据并存入表格的python爬虫
talk is cheap...show you the code..... import requests import lxml,time,os from bs4 import Beautiful ...
（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
用生产者消费模型爬取智联招聘python岗位信息
爬取python岗位智联招聘这里爬取北京地区岗位招聘python岗位,并存入EXECEL文件内,代码如下: import json import xlwt import requests from ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...

随机推荐

Java 容器源码分析之 Deque 与 ArrayDeque
Queue 也是 Java 集合框架中定义的一种接口,直接继承自 Collection 接口.除了基本的 Collection 接口规定测操作外,Queue 接口还定义一组针对队列的特殊操作.通常来说 ...
深入MySQL复制(一)
本文非常详细地介绍MySQL复制相关的内容,包括基本概念.复制原理.如何配置不同类型的复制(传统复制)等等.在此文章之后,还有几篇文章分别介绍GTID复制.半同步复制.实现MySQL的动静分离,以及M ...
Linux某些命令找不到/无法使用
1.zip/unzip: command not found yum list | grep zip/unzip yum install zip yum install unzip 2.rz -y/s ...
OpenCV入门之寻找图像的凸包（convex hull）
介绍凸包(Convex Hull)是一个计算几何(图形学)中的概念,它的严格的数学定义为:在一个向量空间V中,对于给定集合X,所有包含X的凸集的交集S被称为X的凸包. 在图像处理过程中,我们 ...
[转]Docker学习之四：使用docker安装mysql
本文转自:https://blog.csdn.net/qq_19348391/article/details/82998391 Docker学习之一:注册Docker Hub账号 Docker学习之二 ...
Tomcat的Https设置及Http自动跳转Https
Https相关介绍 Https是由NetScape公司设计的一个基于Http的加密传输协议,可以这样理解Https = Http +SSL(安全套接层),Https的端口为443,而且还需要申请 ...
Mysql索引的类型
索引的类型 B-Tree索引 B-Tree 索引通常意味着所有的值都是按顺序存储的,并且每一个叶子页到根的距离相同. B-Tree 索引能够加快访问数据的速度,存储引擎不再需要进行全表扫描来获取需 ...
Log4j的扩展RollingFileAppender、DailyRollingFileAppender
最常用的Appender--RollingFileAppender RollingFileAppender的一个Log4j配置样例: log4j.appender.R=org.apache.log4j ...
phpStorm ctrl+左键无法找到类
场景在使用phpstrom时,通过commd+鼠标左键的方式找不到该类报如下异常: Cannot load settings from file ‘/*/.idea/xdp_stat.iml': ...
tpshop linux安装下注意事项
1. 安装目录不可读写---赋予权限 chmod -Rf 777 public 2.安装环境参考 https://lnmp.org/install.html 3.wget 若没有安装 yum 安装

python3爬虫抓取智联招聘职位信息代码

python3爬虫抓取智联招聘职位信息代码的更多相关文章

随机推荐

热门专题