【转】Python用数据说明程序员需要掌握的技能

https://blog.csdn.net/HuangZhang_123/article/details/80497951

当下是一个大数据的时代，各个行业都离不开数据的支持。因此，网络爬虫就应运而生。网络爬虫当下最为火热的是Python，Python开发爬虫相对简单，而且功能库相当完善，力压众多开发语言。
本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页，按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息，通过分析请求信息可以了解请求参数、请求方式和响应内容。如图所示：

从图上可以看到，我们将搜索关键字添加设置python，搜索地区设为广州。浏览器的地址为：

https://search.51job.com/list/030200,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

由请求链接的格式分析可知，该请求为GET请求，并且带有多个请求参数。为了简化请求参数，我们在浏览器上依次删除请求参数并访问删除后的请求链接，对比删除之前与删除之后的网页变化。最后请求链接的优化如下：

https://search.51job.com/list/030200,000000,0000,00,9,99,python,2,1.html

从优化后的请求链接可以看到，搜索关键字和搜索区域是隐藏在请求链接的某个位置中。搜索关键字的位置是直观可以看到的，而搜索区域需要进行分析。我们将区域改为上海，其请求链接如下：

https://search.51job.com/list/020000,000000,0000,00,9,99,python,2,1.html

通过对比发现，搜索区域030200代表广州，020000代表上海。那么问题来了，如果我要切换其他城市，那怎样获取该城市的编号？
针对这个问题，首先从上述的编号分析其特性，发现编号不存规律性，那么应该是由网站自行定义的。因此可以在浏览器的开发者工具下查找相关的请求信息，最后在js下查到以下信息，如图所示：

现在确定了搜索关键字和搜索区域后，我们还需要确定页数，因为搜索出来的结果肯定是进行分页处理。以搜索关键字为python，搜索地区为广州，点击第二页，其请求链接如下：

# 第一页

https://search.51job.com/list/030200,000000,0000,00,9,99,python,2,1.html

# 第二页

https://search.51job.com/list/030200,000000,0000,00,9,99,python,2,2.html

对比发现，我们可确定页数的位置，最终，请求链接的地址修改如下：

# 变量cityCode是城市编号

# 变量keyWord是搜索关键词

# 变量pageNum是搜索页数

'https://search.51job.com/list/'+cityCode+',000000,0000,00,9,99,'+keyWord+',2,'+pageNum+'.html'

确定请求链接后，我们在分析该请求的响应内容，从响应内容中获取所需的数据内容，如图所示：

从图上可知，我们需要爬取职位的岗位要求和任职要求的数据，因此在当前页面中，我们需要获取职位的URL地址。

根据上述分析，功能代码如下：

import requests

from bs4 import BeautifulSoup

# 函数参数分别为城市编号、关键词和循环的页数

def get_url(cityCode, keyWord, pageNum):

    headers = {

            'Host':'search.51job.com',

            'Upgrade-Insecure-Requests': '1',

            'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'

        }

    temp_list = []

    for i in range(int(pageNum)):

        url = 'https://search.51job.com/list/'+cityCode+',000000,0000,00,9,99,'+keyWord+',2,'+str(i+1)+'.html'

        r = requests.get(url, headers=headers)

        soup = BeautifulSoup(r.content.decode('gbk'),'html5lib')

        find_div = soup.find_all('div',class_='el')

        # 获取职位的URL

        for j in find_div:

            find_href = j.find('a')

            if 'https://jobs.51job.com' in str(find_href):

                temp_list.append(find_href['href'])

    return temp_list

得到职位的URL之后，接下来分析职位的信息页面。在职位信息页，分别获取职位信息和任职要求，网页分析如图所示：

图上的响应内容中，职位信息是在HTML的div标签，属性class为bmsg job_msg inbox，并且属性值是唯一的，因此可以通过该标签进行定位获取数据。其代码功能如下：

# 获取职位信息

def get_data(job_url):

    headers = {

        'Host': 'jobs.51job.com',

        'Upgrade-Insecure-Requests': '1',

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'

    }

    # 遍历职位url列表，获取每个职位的职位信息

    for url in job_url:

        r = requests.get(url, headers=headers)

        soup = BeautifulSoup(r.content.decode('gbk'), 'html5lib')

        find_job = soup.find('div', class_='bmsg job_msg inbox').find_all('p')

        temp_list = []

        # 获取职位信息

        for k in find_job:

            # 简单的数据清洗

            if not '：' in str(k) and not ':' in str(k) and k.getText():

                if '、' in k.getText():

                    text = k.getText().split('、')[1].strip()

                else:

                    text = k.getText().strip()

                temp_list.append(text)

        # 将数据写入CSV文件

        if ''.join(temp_list).strip():

            f = open('text.csv', 'a', newline='', encoding='utf-8')

            writer = csv.writer(f)

            writer.writerow([''.join(temp_list)])

            f.close()

我们将两个函数get_url和get_data写在spider.py文件，代码如下：

import requests

from bs4 import BeautifulSoup

import csv

# 函数参数分别为城市编号、关键词和循环的页数

def get_url(cityCode, keyWord, pageNum):

    headers = {

            'Host':'search.51job.com',

            'Upgrade-Insecure-Requests': '1',

            'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'

        }

    temp_list = []

    for i in range(int(pageNum)):

        url = 'https://search.51job.com/list/'+cityCode+',000000,0000,00,9,99,'+keyWord+',2,'+str(i+1)+'.html'

        r = requests.get(url, headers=headers)

        soup = BeautifulSoup(r.content.decode('gbk'),'html5lib')

        find_div = soup.find_all('div',class_='el')

        # 获取职位的URL

        for j in find_div:

            find_href = j.find('a')

            if 'https://jobs.51job.com' in str(find_href):

                temp_list.append(find_href['href'])

    return temp_list

# 获取职位信息

def get_data(job_url):

    headers = {

        'Host': 'jobs.51job.com',

        'Upgrade-Insecure-Requests': '1',

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36'

    }

    # 遍历职位url列表，获取每个职位的职位信息

    for url in job_url:

        r = requests.get(url, headers=headers)

        soup = BeautifulSoup(r.content.decode('gbk'), 'html5lib')

        find_job = soup.find('div', class_='bmsg job_msg inbox').find_all('p')

        temp_list = []

        # 获取职位信息

        for k in find_job:

            # 简单的数据清洗

            if not '：' in str(k) and not ':' in str(k) and k.getText():

                if '、' in k.getText():

                    text = k.getText().split('、')[1].strip()

                else:

                    text = k.getText().strip()

                temp_list.append(text)

        # 将数据写入CSV文件

        if ''.join(temp_list).strip():

            f = open('text.csv', 'a', newline='', encoding='utf-8')

            writer = csv.writer(f)

            writer.writerow([''.join(temp_list)])

            f.close()

if __name__ == '__main__':

    cityCode = '030200'

    keyWord = 'python'

    pageNum = 2

    job_url = get_url(cityCode, keyWord, pageNum)

    get_data(job_url)

本例子只获取关键字为python，搜索区域为广州，页数为两页的职位信息。（如果读者想爬取多地方多关键词的职位信息，可自行修改）。代码运行后，在文件spider.py同一目录下自动生成text.csv文件，文件内容如下：

现在有了职位信息的数据后，下一步是对这些数据进行分析。数据分析我们采用人工智能的自然语言处理，根据提供的关键词来计算相关词列表。首先对数据进行分词处理，将数据划分为词语。中文分词建议使用jieba模块，分词的效果相当较高，在分词之前，还需要对数据进行清洗，清洗数据中一些标点符号，如下所示：

import csv,re

import jieba

# 数据清洗并分词

csv_reader=csv.reader(open('text.csv',encoding='utf-8'))

seg_list = []

for row in csv_reader:

    temp_list = jieba.cut(row[0], cut_all=False)

    results = re.sub('[（）：:？“”；．～?/《》【】，,。！()·、.\d ]+', ' ', ' '.join(temp_list))

    seg_list.append(results)

# 将分词写入文件

f = open('data.txt','w',encoding='utf-8')

f.write(' '.join(seg_list))

f.close()

数据清洗完毕会自动保存在文件data.txt，打开data.txt查看数据内容，如图所示：

数据清洗完成后，最后一步就是建模，我们使用gensim模块实现，由word2vec函数方法实现建模，其功能代码如下：

# 通过word2vec计算相关词列表

from gensim import models

# 建模

sentences = models.word2vec.LineSentence('data.txt')

model = models.word2vec.Word2Vec(sentences, size=1000, window=25, min_count=5, workers=4)

# 计算前50个与python相关的词列表

sim = model.wv.most_similar('python', topn=50)

for s in sim:

    print("word:%s,similar:%s " %(s[0],s[1]))

我们将上述的代码写在analysis.py，文件analysis.py的代码如下：

import csv,re

import jieba

from gensim import models

# 数据清洗并分词

csv_reader=csv.reader(open('text.csv',encoding='utf-8'))

seg_list = []

for row in csv_reader:

    temp_list = jieba.cut(row[0], cut_all=False)

    results = re.sub('[（）：:？“”；．～?/《》【】，,。！()·、.\d ]+', ' ', ' '.join(temp_list))

    seg_list.append(results)

# 将分词写入文件

f = open('data.txt','w',encoding='utf-8')

f.write(' '.join(seg_list))

f.close()

# 通过word2vec计算相关词列表

# 建模

sentences = models.word2vec.LineSentence('data.txt')

model = models.word2vec.Word2Vec(sentences, size=1000, window=25, min_count=5, workers=4)

# 计算前50个与python相关的词列表

sim = model.wv.most_similar('python', topn=50)

for s in sim:

    print("word:%s,similar:%s " %(s[0],s[1]))

运行analysis.py，输出结果如图所示：

从结果可以看到，要作为一名合格的Python程序员，首先主要掌握Django和scrapy两大框架，selenium是自动化测试技术；数据库以MySql数据库为主，掌握sql语句不在话下；掌握memcached缓存系统，linux操作，计算机TCP协议；最后还要涉猎Java，C和Nodejs等一些目前主流开发语言等。

【转】Python用数据说明程序员需要掌握的技能的更多相关文章

工作了3年的JAVA程序员应该具备什么技能？(zhuan)
http://www.500d.me/article/5441.html **************************************** 来源:五百丁作者:LZ2016-03-18 ...
工作了3年的JAVA程序员应该具备什么技能？(转)
工作了3年的JAVA程序员应该具备什么技能? 因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章.这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发 ...
一名3年工作经验的java程序员应该具备的技能
一名3年工作经验的Java程序员应该具备的技能,这可能是Java程序员们比较关心的内容.我这里要说明一下,以下列举的内容不是都要会的东西—-但是如果你掌握得越多,最终能得到的评价.拿到的薪水势必也越高 ...
4-6年经验左右、优秀的 Java 程序员应该具备的技能
4-6年经验左右.优秀的 Java 程序员应该具备的技能有哪些,按“专业技能”和“项目”两块,包括但不限于以下内容. 专业节能方面基础:JDK 常用类的原理.源码.使用场景. 设计模式:常用几种的原 ...
.NET WEB程序员需要掌握的技能
本来这个是我给我们公司入职的新人做一个参考,由于 @张善友老师在他的微信号转了我的这篇文章<<.Net WEB 程序员需要掌握的技能>>,很多人觉得比较有用,说是看了后知道一 ...
sql数据黑马程序员——SQL入门
最近研究sql数据,稍微总结一下,以后继续补充: ---------------------- ASP.Net+Android+IO开辟S..Net培训.等待与您交流! --------------- ...
【软件测试】Python自动化软件测试算是程序员吗？
今天早上一觉醒来,突然萌生一个念头,[软件测试]软件测试算是程序员吗?左思右想,总感觉哪里不对.做了这么久的软件测试,还真没深究过这个问题. 基于,内事问百度的准则: 结果…… 我刚发 ...
kotlin和python哪个好！程序员怎样优雅度过35岁中年危机？满满干货指导
导语学历永远是横在我们进人大厂的一道门槛,好像无论怎么努力,总能被那些985,211 按在地上摩擦! 不仅要被"他们"看不起,在HR挑选简历,学历这块就直接被刷下去了,连证明自己 ...
「编程羽录」上线，程序员必备的这些技能你能get到嘛？
大家好,我是小羽. 好久不见,给大家带来个好消息,小羽的全新专题「编程羽录」系列正式上新,主要是介绍一些关于面试题和经验总结的文章. 会为大家提供一些技术栈之外,程序员还需要的其他方面硬核知识,做到全 ...

随机推荐

saltstack API(一) 安装并测试
python3 安装api # 首先安装python3 .tgz cd Python- . ./configure make make install mv /usr/bin/python /usr/ ...
网络编程基础【day09】：通过socket实现简单ssh客户端（三）
本节内容 1.概述 2.socket发送中文 3.重复发送和多次接收 4.模拟ssh客户端一.概述本篇博客讲一下,如果socket客户端断了,另外的客户端怎么接入服务端,还有模拟ssh的链接等. ...
使用 boot-repair 对 Windows + Ubuntu 双系统引导修复
问题描述: 由于在windows上进行更新/重装/修改了引导设置以后,windows会“自私”地重写引导,导致Ubuntu系统引导消失而无法选择Ubuntu启动.
HDU 1088(文本处理 **)
题意是对一段文本进行处理,如果读到 <br>,则换行:如果读到 <hr>,若当前行无字符,则输出 80 个 ’-‘ 并换行,否则在下一行输出 80 个 ’-‘ 再换行:如果一行 ...
extern "C" 含义
extern "C" 被 extern 限定的函数或变量是 extern 类型的被 extern "C" 修饰的变量和函数是按照 C 语言方式编译和链接的 e ...
Java SSM框架之MyBatis3（十）MyBatis批量插入数据(MySql)
插入成功后返回自增主键 <insert id="insertRole" parameterType="role" useGeneratedKeys=&qu ...
开源框架.netCore DncZeus学习（一）npm安装
今天看到一个不错的开源项目DncZeus, https://github.com/lampo1024/DncZeus 整个界面挺漂亮,而且权限做到了按钮级别,功能也较容易扩展,刚好学习VUE纯看文章很 ...
【四】Java虚拟机内存区域初识
一.线程独占区 1.程序计数器程序计数器是一块处于线程独占区较小的内存空间,它可以看是当前线程所执行的字节码的行号指示器. 如果线程执行的是Java方法,这个计数器记录的是正在执行的虚拟机字节码 ...
六、文件IO——fcntl 函数和 ioctl 函数
6.1 fcntl 函数 6.1.1 函数介绍 #include <unistd.h> #include <fcntl.h> int fcntl(int fd, int cmd ...
python-文件读写操作
打开文件: f=open('test.txt',mode='r',encoding='utf-8') 参数1 文件名,若非当前路径,需指出具体路径参数2 mode: 文件打开模式 r ...

【转】Python用数据说明程序员需要掌握的技能

【转】Python用数据说明程序员需要掌握的技能的更多相关文章

随机推荐

热门专题