04爬取拉勾网Python岗位分析报告

# 导入需要的包
import requests
import time,random
from openpyxl import Workbook
import pymysql.cursors
#@ 连接数据库；
# 这个是我本地上边运行的程序，用来获取代理服务器。
def get_proxy():
    try:
        PROXY_POOL_URL = 'http://localhost:5555/random'
        response = requests.get(PROXY_POOL_URL)
        print(response.text)
        if response.status_code == 200:
            return response.text
    except ConnectionError:
        return None
# 用来连接本地mysql，可以不连接，直接写入Excel中
def get_conn():
    """连接本地数据库"""
    # 定义要连接的主机IP，账号名称和密码，连接的数据库，编码等等
    conn = pymysql.connect(host = 'localhost',
                           user = 'root',
                           password = '123456',
                           db = 'python',
                           charset = 'utf8mb4',
                           cursorclass = pymysql.cursors.DictCursor)
    return conn
# 将数据写入到数据库中
def insert(conn,info):
    """数据写入数据库"""
    with conn.cursor() as cursor:
        sql = "INSERT INTO `python` (`companyShortName`, `companyFullName`, `industryField`, `companySize`, `salary`, `city`, `education`) VALUES (%s, %s, %s, %s, %s, %s, %s)"
        cursor.execute(sql, info)
    conn.commit()
# 获取当前网址的信息
def get_json(url,page,lang_name):
    """返回当前页面的信息列表"""
    data = {'first':'false','pn':page,'kd':lang_name}
    proxies = get_proxy()
    proxies = {
        "http": "http://" + proxies
    }
    json = ses.post(url,data,proxies = proxies).json()
    list_con = json['content']['positionResult']['result']
    info_list = []
    for i in list_con:
        info = []
        info.append(i.get('companyShortName','无')) # 公司名称
        info.append(i.get('companyFullName','无'))
        info.append(i.get('industryField','无'))
        info.append(i.get('companySize','无'))
        info.append(i.get('salary','无'))
        info.append(i.get('city','无'))
        info.append(i.get('education','无'))
        info_list.append(info)
    return info_list

def main():
    lang_name = 'python'
    wb = Workbook() # 打开Excel工作薄
    conn = get_conn()  # 建立数据库连接 不存放数据，注释此行
    for i in ['北京','上海','广州','深圳','杭州']: #五个城市
        page = 1
        wsl = wb.active
        wsl.title = lang_name
        url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
        while page < 2: # 每个城市30页信息
            info = get_json(url,page,lang_name)
            page += 1
            # time.sleep(random.randint(10,20))
            for row in info:
                # 插入数据库，若不想存入 注释此行
                insert(conn,tuple(row))
                wsl.append(row)
    # 关闭数据库连接，不存放数据，注释此行
    conn.close()
    wb.save('{}职位信息.xlsx'.format(lang_name))

if __name__ == "__main__":
    my_headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36",
    "Referer": "https://www.lagou.com/jobs/list_Python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=",
    "Content-Type": "application/x-www-form-urlencoded;charset = UTF-8"
    }
    # time.sleep(5)
    ses = requests.session()  # 获取 session
    ses.headers.update(my_headers)  # 更新
    ses.get(
        "https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=")
    main()

04爬取拉勾网Python岗位分析报告的更多相关文章

爬取拉勾网python工程师的岗位信息并生成csv文件
转载自:https://www.cnblogs.com/sui776265233/p/11146969.html 代码写得很好,但是目前只看得懂前一部分一.爬取和分析相关依赖包 Python版本: ...
Python爬虫——Python 岗位分析报告
前两篇我们分别爬取了糗事百科和妹子图网站,学习了 Requests, Beautiful Soup 的基本使用.不过前两篇都是从静态 HTML 页面中来筛选出我们需要的信息.这一篇我们来学习下如何来获 ...
python爬取拉勾网数据并进行数据可视化
爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示.直方图展示.词云展示等并根据可视化的数据做 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
Python爬虫实战（一）使用urllib库爬取拉勾网数据
本笔记写于2020年2月4日.Python版本为3.7.4,编辑器是VS code 主要参考资料有: B站视频av44518113 Python官方文档 PS:如果笔记中有任何错误,欢迎在评论中指出, ...
爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...
Python3爬虫：（一）爬取拉勾网公司列表
人生苦短,我用Python 爬取原因:了解一下Python工程师在北上广等大中城市的薪资水平与入职前要求. Python3基础知识 requests,pyquery,openpyxl库的使用爬取前的 ...
python-scrapy爬虫框架爬取拉勾网招聘信息
本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...

随机推荐

深入理解RocketMQ（九）---实战（控制台搭建）
rocketMQ控制台搭建 (1)下载rocketmq-console代码:https://github.com/875279177/incubator-rocketmq-externals (2)修 ...
Executors框架之ScheduledExecutorService实现定时任务
一.简介 An ExecutorService that can schedule commands to run after a given delay, or to execute periodi ...
max depth exceeded when dereferencing c0-param0的问题
在做项目的时候,用到了dwr,有一次居然报错,错误是max depth exceeded when dereferencing c0-param0 上网查了一下,我居然传参数的时候传的是object类 ...
FTP学习
FTP服务的使用一.LVM理论介绍 FTP用于在Internet 上控制文件的双向传输. FTP的主要作用就是让用户连接一个远程计算机(这些计算机上运行着FTP服务器程序) ,并查看远程计算机 ...
pycharm一直显示Process finished with exit code 0
后来排查发现原来是解释器的问题我之前使用的解释器是pycharm提供的虚拟解释器#####如何查看解释器点file–>new projects 如果选择的是2就是使用了pycharm提供的虚拟解 ...
Logstash7.6.2同步Mysql数据到ElasticSearch
1.准备工作:存在的mysql的数据库表.创建好的elasticsearch索引 2.下载mysql-connector 下载地址:https://dev.mysql.com/downloads/co ...
（私人收藏）蓝色抽象科技感工作计划PPT模板
蓝色抽象科技感工作计划PPT模板 https://pan.baidu.com/s/16iFYH94dVXp_izksVMGMBg0ozp
MySQL的数据类型及注意事项
MySQL的数据类型注意选择合适的数据类型,能节省储存空间,提升计算性能.(1)在符合应用要求(取值范围.精度)的前提下,尽量使用“短”数据类型(2)数据类型越简单越好.(3)在MySQL中, ...
每日一题 - 剑指 Offer 46. 把数字翻译成字符串
题目信息时间: 2019-07-02 题目链接:Leetcode tag: 动态规划难易程度:中等题目描述: 给定一个数字,我们按照如下规则把它翻译为字符串:0 翻译成 "a" ...
洛谷 P6082 [JSOI2015]salesman
题意给定一棵\(n\)个点的树,有点权,你从\(1\)号点开始一次旅行,最后回到\(1\)号点.每到达一个点,你就能获得等于该点点权的收益, 但每个点都有进入该点的次数限制,且每个点的收益只能获得一 ...

04爬取拉勾网Python岗位分析报告

04爬取拉勾网Python岗位分析报告的更多相关文章

随机推荐

热门专题