爬取猎聘大数据岗位相关信息--Python

猎聘网站搜索大数据关键字，只能显示100页，爬取这一百页的相关信息，以便做分析。

__author__ = 'Fred Zhao'

import requests

from bs4 import BeautifulSoup

import os

import csv

class JobSearch():

    def __init__(self):

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}

        self.base_url = 'https://www.liepin.com/zhaopin/?ckid=c1a868fa8b83aa5b&fromSearchBtn=2&init=-1&sfrom=click-pc_homepage-centre_searchbox-search_new&degradeFlag=0&key=大数据&headckid=c1a868fa8b83aa5b&d_pageSize=40&siTag=LGV-fc5u_67LtFjetF6ACg~fA9rXquZc5IkJpXC-Ycixw&d_headId=8e7325814e7ed9919787ee3fe85e1c94&d_ckId=8e7325814e7ed9919787ee3fe85e1c94&d_sfrom=search_fp&d_curPage=99&curPage='

        self.base_path = os.path.dirname(__file__)

    def makedir(self, name):

        path = os.path.join(self.base_path, name)

        isExist = os.path.exists(path)

        if not isExist:

            os.makedirs(path)

            print("File has been created.")

        else:

            print('OK!The file is existed. You do not need create a new one.')

        os.chdir(path)

    def request(self, url):

        r = requests.get(url, headers=self.headers)

        return r

    def get_detail(self, page):

        r = self.request(self.base_url + page)

        ul = BeautifulSoup(r.text, 'lxml').find('ul', class_='sojob-list')

        plist = ul.find_all('li')

        self.makedir('job_data')

        rows = []

        for item in plist:

            job_info = item.find('div', class_='sojob-item-main clearfix').find('div', class_='job-info')

            position = job_info.find('h3').get('title')

            print(position)

            job_info_list = job_info.find_all('p')

            job_condition = job_info_list[0].get('title')

            print(job_condition)

            job_time = job_info_list[1].find('time').get('title')

            print(job_time)

            company_info = item.find('div', class_='sojob-item-main clearfix').find('div', class_='company-info')

            company = company_info.find('p', class_='company-name').find('a').get('title')

            print(company)

            rows.append([position, job_condition, job_time, company])

        self.save_to_csv(rows)

    def save_to_csv(self, rows):

        with open('job.csv', 'a') as f:

            writer = csv.writer(f)

            writer.writerows(rows)

if __name__ == '__main__':

    job = JobSearch()

    for page in range(0, 100):

        job.get_detail(str(page))

爬取猎聘大数据岗位相关信息--Python的更多相关文章

利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
使用Selenium爬取网站表格类数据
本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...
基于爬取百合网的数据，用matplotlib生成图表
爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
16、爬取知乎大v张佳玮的文章“标题”、“摘要”、“链接”，并存储到本地文件
爬取知乎大v张佳玮的文章“标题”.“摘要”.“链接”,并存储到本地文件 # 爬取知乎大v张佳玮的文章“标题”.“摘要”.“链接”,并存储到本地文件 # URL https://www.zhihu.co ...
Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
jsoup爬取某网站安全数据
jsoup爬取某网站安全数据 package com.vfsd.net; import java.io.IOException; import java.sql.SQLException; impor ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
爬虫黑科技，我是怎么爬取indeed的职位数据的
最近在学习nodejs爬虫技术,学了request模块,所以想着写一个自己的爬虫项目,研究了半天,最后选定indeed作为目标网站,通过爬取indeed的职位数据,然后开发一个自己的职位搜索引擎,目前 ...

随机推荐

绕X 轴 Y轴 Z轴旋转的结果
void warp_perspect_3_angle(cv::Mat face, float roll, float yaw, float pitch) { cv::Mat face_img = fa ...
测开之路二十：比较v1和v2
根据V1和V2的版本号,如果v1>v2,返回1,如果v1<v2,返回-1,除此之外返回0 # 如果v1>v2,返回1,如果v1<v2,返回-1,除此之外返回0v1 = inpu ...
<读书笔记>Javascript系列之6种继承（面向对象）
写在前面: 以下三选一: 阅读博文JavaScript 对象详解. 阅读<JavaScript权威指南>第6章. 阅读<JavaScript高级程序设计>第6章. 注意:只需要 ...
html5 新增元素以及css3新特性
HTML5 1.HTML5 新元素 HTML5提供了新的元素来创建更好的页面结构: 标签描述 <article> 定义页面独立的内容区域. <aside> 定义页面的侧边栏内 ...
搭建干净的Mac开发学习环境
docker + linux + gcc/g++ https://www.jianshu.com/p/d113db99fe24 https://www.jianshu.com/p/d26140d20c ...
重磅！挑战Oracle，华为将开源 GaussDB 数据库
来源:中关村在线,https://dwz.cn/nHNSOTeN 有消息称在正在进行的鲲鹏计算产业论坛上,华为宣布将开源其GaussDB数据库. GaussDB数据库是今年5月15日华为公布的分布式数 ...
Netty 粘包拆包 | 史上最全解读
Netty 粘包/半包原理与拆包实战(史上最全) 疯狂创客圈 Java 聊天程序[ 亿级流量]实战系列之13 [博客园总入口 ] 本文的源码工程:Netty 粘包/半包原理与拆包实战源码本实例是 ...
C#break和continue学习
一,代码 static void Main(string[] args) { ; while (true) { int num = Convert.ToInt32(Console.ReadLine() ...
从vue的组件传值着手浅谈观察者模式
首先,提到观察者模式,这不禁让我想到了MVVM,MVVM架构模式感觉用到了观察者的思想. 我们还是按照惯例,了解一下什么是观察者模式观察者模式,类似发布订阅模式,完成这个动作首先最少得有两个不同的对 ...
linux c 链接详解4-共享库
4. 共享库 4.1. 编译.链接.运行组成共享库的目标文件和一般的目标文件有所不同,在编译时要加-fPIC选项,例如: $ gcc -c -fPIC stack/stack.c stack/pus ...

爬取猎聘大数据岗位相关信息--Python

爬取猎聘大数据岗位相关信息--Python的更多相关文章

随机推荐

热门专题