python使用bs4爬取boss静态页面

思路：

　　1、将需要查询城市列表，通过城市接口转换成相应的code码

　　2、遍历城市、职位生成url

　　3、通过url获取列表页面信息，遍历列表页面信息

　　4、再根据列表页面信息的job_link获取详情页面信息，将需要的信息以字典data的形式存在列表datas里　　

　　5、判断列表页面是否有下一页，重复步骤3、4；同时将列表datas一直传递下去

　　6、一个城市、职位url爬取完后，将列表datas接在列表datas_list后面，重复3、4、5

　　7、最后将列表datas_list的数据，遍历写在Excel里面

知识点：

　　1、将response内容以json形式输出，解析json并取值

　　2、soup 的select()和find_all()和find()方法使用

　　3、异常Exception的使用

　　4、wldt创建编辑Excel的使用

import requests, time, xlwt

from bs4 import BeautifulSoup

class MyJob():

    def __init__(self, mycity, myquery):

        self.city = mycity

        self.query = myquery

        self.list_url = "https://www.zhipin.com/job_detail/?query=%s&city=%s&industry=&position="%(self.query, self.city)

        self.datas = []

        self.header = {

            'authority': 'www.zhipin.com',

            'method': 'GET',

            'scheme': 'https',

            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

            'accept-encoding': 'gzip, deflate, br',

            'accept-language': 'zh-CN,zh;q=0.9',

            'cache-control': 'max-age=0',

            'cookie': 'lastCity=101210100;uab_collina=154408714637849548916323;toUrl=/;c=1558272251;g=-;l=l=%2Fwww.zhipin.com%2Fuser%2Flogin.html&r=; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1555852331,1556985726,1558169427,1558272251; __a=40505844.1544087205.1558169426.1558272251.41.14.4.31; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1558272385',

            'referer': 'https://www.zhipin.com/?ka=header-logo',

            'upgrade-insecure-requests': '',

            'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'

        }

    #将城市转化为code码

    def get_city(self,city_list):

        city_url = "https://www.zhipin.com/wapi/zpCommon/data/city.json" #获取城市

        json = requests.get(city_url).json()

        zpData = json["zpData"]["cityList"]

        list = []

        for city in city_list :

            for data_sf in zpData:

                for data_dq in data_sf["subLevelModelList"]:

                    if city == data_dq["name"]:

                         list.append(data_dq["code"])

        return list

    #获取所有页内容

    def get_job_list(self, url, datas):

        print(url)

        html = requests.get(url, headers=self.header).text

        soup = BeautifulSoup(html, 'html.parser')

        jobs = soup.select(".job-primary")

        for job in jobs:

            data = {}

            # 招聘id

            data["job_id"] = job.find_all("div", attrs={"class": "info-primary"})[0].find("a").get("data-jobid")

            # 招聘链接

            data["job_link"] = "https://www.zhipin.com" + job.find_all("div", attrs={"class": "info-primary"})[0].find("a").get("href")

            # 招聘岗位

            data["job_name"] = job.find_all("div", attrs={"class": "info-primary"})[0].find("div", attrs={"class": "job-title"}).get_text()

            # 薪资

            data["job_red"] = job.find_all("div", attrs={"class": "info-primary"})[0].find("span", attrs={"class": "red"}).get_text()

            # 地址 #工作年限 #学历

            data["job_address"] = job.find_all("div", attrs={"class": "info-primary"})[0].find("p").get_text().split(" ")

            # 企业链接

            data["job_company_link"] = job.find_all("div", attrs={"class": "info-company"})[0].find("a").get("href")

            # 企业信息

            data["job_company"] = job.find_all("div", attrs={"class": "info-company"})[0].find("p").get_text().split(" ")

            # boss链接

            data["job_publis_link"] = job.find_all("div", attrs={"class": "info-publis"})[0].find("img").get("src")

            # boos信息

            data["job_publis"] = job.find_all("div", attrs={"class": "info-publis"})[0].find("h3").get_text().split(" ")

            time.sleep(5)

            self.get_job_detail(data)  # 获取job详情页内容

            print(data)

            datas.append(data)  # 将某条job添加到datas中，直到将当前页添加完

        try:

            next_url = soup.find("div", attrs={"class": "page"}).find("a", attrs={"class": "next"}).get("href")

            #if next_url[-1] =="3":  # 第二页自动抛异常

            if next_url in "javascript:;":  # 最后一页自动抛异常

                raise Exception()

        except Exception as e:

            print("最后一页了；%s" % e)

            return datas  # 返回所有页内容

        else:

            time.sleep(5)

            next_url = "https://www.zhipin.com" + next_url

            self.get_job_list(next_url, datas)

            return datas  # 返回所有页内容

    #获取详情页内容

    def get_job_detail(self, data):

        print(data["job_link"])

        html = requests.get(data["job_link"], headers=self.header).text

        soup = BeautifulSoup(html, 'html.parser')

        # 招聘公司

        data["detail_content_name"] = soup.find_all("div", attrs={"class": "detail-content"})[0].find("div", attrs={"class": "name"}).get_text()

        # 福利

        data["detail_primary_tags"] = soup.find_all("div", attrs={"class": "info-primary"})[0].find("div", attrs={"class": "job-tags"}).get_text().strip()

        # 招聘岗位

        data["detail_primary_name"] = soup.find_all("div", attrs={"class": "info-primary"})[0].find("h1").get_text()

        # 招聘状态

        data["detail_primary_status"] = soup.find_all("div", attrs={"class": "info-primary"})[0].find("div", attrs={"class": "job-status"}).get_text()

        # 薪资

        data["detail_primary_salary"] = soup.find_all("div", attrs={"class": "info-primary"})[0].find("span", attrs={"class": "salary"}).get_text()

        # 地址 #工作年限 #学历

        data["detail_primary_address"] = soup.find_all("div", attrs={"class": "info-primary"})[0].find("p").get_text()

        # 工作地址

        data["detail_content_address"] = soup.find_all("div", attrs={"class": "detail-content"})[0].find("div", attrs={"class": "location-address"}).get_text()

        # 职位描述

        data["detail_content_text"] = soup.find_all("div", attrs={"class": "detail-content"})[0].find("div", attrs={"class": "text"}).get_text().strip().replace("；", "\n")

        # boss名字

        data["detail_op_name"] = soup.find_all("div", attrs={"class": "detail-op"})[1].find("h2", attrs={"class": "name"}).get_text()

        # boss职位

        data["detail_op_job"] = soup.find_all("div", attrs={"class": "detail-op"})[1].find("p", attrs={"class": "gray"}).get_text().split("·")[0]

        # boss状态

        data["detail_op_status"] = soup.find_all("div", attrs={"class": "detail-op"})[1].find("p", attrs={"class": "gray"}).get_text().split("·")[1]

    #将获取的数据写入Excel

    def setExcel(self, datas_list):

        book = xlwt.Workbook(encoding='utf-8')

        table = book.add_sheet("boss软件测试")

        table.write(0, 0, "编号")

        table.write(0, 1, "招聘链接")

        table.write(0, 2, "招聘岗位")

        table.write(0, 3, "薪资")

        table.write(0, 4, "地址")

        table.write(0, 5, "企业链接")

        table.write(0, 6, "企业信息")

        table.write(0, 7, "boss链接")

        table.write(0, 8, "boss信息")

        table.write(0, 9, "detail详情")

        i = 1

        for data in datas_list:

            table.write(i, 0, data["job_id"])

            table.write(i, 1, data["job_link"])

            table.write(i, 2, data["job_name"])

            table.write(i, 3, data["job_red"])

            table.write(i, 4, data["job_address"])

            table.write(i, 5, data["job_company_link"])

            table.write(i, 6, data["job_company"])

            table.write(i, 7, data["job_publis_link"])

            table.write(i, 8, data["job_publis"])

            table.write(i, 10, data["detail_content_name"])

            table.write(i, 11, data["detail_primary_name"])

            table.write(i, 12, data["detail_primary_status"])

            table.write(i, 13, data["detail_primary_salary"])

            table.write(i, 14, data["detail_primary_address"])

            table.write(i, 15, data["detail_content_text"])

            table.write(i, 16, data["detail_op_name"])

            table.write(i, 17, data["detail_op_job"])

            table.write(i, 18, data["detail_op_status"])

            table.write(i, 19, data["detail_primary_tags"])

            table.write(i, 20, data["detail_content_address"])

            i += 1

        book.save(r'C:\%s_boss软件测试.xls' % time.strftime('%Y%m%d%H%M%S'))

        print("Excel保存成功")

if __name__ == '__main__':

    city_list = MyJob("","").get_city(["杭州"])

    query_list = ["软件测试", "测试工程师"]

    datas_list = []

    for city in city_list:

        for query in query_list:

            myjob = MyJob(city, query)

            datas = myjob.get_job_list(myjob.list_url, myjob.datas)

            datas_list.extend(datas)

    myjob.setExcel(datas_list)

python使用bs4爬取boss静态页面的更多相关文章

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114
年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程解析url获得网站 ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
Scrapy 爬取BOSS直聘关于Python招聘岗位
年前的时候想看下招聘Python的岗位有多少,当时考虑目前比较流行的招聘网站就属于boss直聘,所以使用Scrapy来爬取下boss直聘的Python岗位. 1.首先我们创建一个Scrapy 工程 s ...
Python的scrapy之爬取boss直聘网站
在我们的项目中,单单分析一个51job网站的工作职位可能爬取结果不太理想,所以我又爬取了boss直聘网的工作,不过boss直聘的网站一次只能展示300个职位,所以我们一次也只能爬取300个职位. jo ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
Python爬虫《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...

随机推荐

Jenkins 添加新用户
下面重点记录下jenkins安装后的一些配置: (1)添加用户权限 jenkins初次登陆后,要先注册一个用户作为管理员: 依次点击“系统管理”->“Configure Global Secur ...
Java控制台输入字符串及字符串比较
需求描述:茵茵很喜欢研究车牌号码,从车牌号码上可以看出号码注册的早晚,据研究发现,车牌号码是按字典序发放的,现在她收集了很多车牌号码,请你设计程序帮她判断注册较早的号码.车牌号码由5个字母或数字组成. ...
121、TensorFlow张量命名
# tf.Graph对象定义了一个命名空间对于它自身包含的tf.Operation对象 # TensorFlow自动选择一个独一无二的名字,对于数据流图中的每一个操作 # 但是给操作添加一个描述性的名 ...
Socket编程半双工
服务器 package com.test; import java.io.IOException; import java.net.*; import java.io.*; public class ...
css禁止事件
js有多种禁止事件的方法, css也有: pointer-events:none
Springboot War包部署下nacos无法注册问题
目录 1. @EnableDiscoveryClient的使用 2. EnableDiscoveryClientImportSelector类的作用 3.AutoServiceRegistration ...
[暑假集训Day4T1]羊圈
ZYC同志开农场了????? 二分答案. 对于每一个二分出来的答案对其进行检查(check),检查是否有一个长度大于m的字段和的平均值大于mid.方法如下:先把原数组的每一个元素减去mid,储存进一个 ...
poj2385 Apple Catching （线性dp）
题目传送门 Apple Catching Apple Catching Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 154 ...
BFS+打印路径
题目是给你起点sx,和终点gx:牛在起点可以进行下面两个操作: 步行:John花一分钟由任意点X移动到点X-1或点X+1. 瞬移:John花一分钟由任意点X移动到点2*X. 你要输出最短步数及打印路径 ...
Mybatis-技术专区-中的条件查询createCriteria example里面的条件
之前用Mybatis框架反向的实体,还有实体里面的Example,之前只是知道Example里面放的是条件查询的方法,可以一直不知道怎么用,到今天才开始知道怎么简单的用. 在我们前台查询的时候会有许多 ...

python使用bs4爬取boss静态页面

python使用bs4爬取boss静态页面的更多相关文章

随机推荐

热门专题