Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel

作为一名Pythoner，相信大家对Python的就业前景或多或少会有一些关注。索性我们就写一个爬虫去获取一些我们需要的信息，今天我们要爬取的是前程无忧！说干就干！进入到前程无忧的官网，输入关键字“Python”，我们会得到下面的页面

我们可以看到这里罗列了"职位名"、"公司名"、"工作地点"、"薪资"、"发布时间"，那么我们就把这些信息爬取下来吧！确定了需求，下一步我们就审查元素找到我们所需信息所在的标签，再写一个正则表达式把元素筛选出来就可以了！

顺理成章得到这样一个正则表达式：

reg = re.compile(r'class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',re.S)
完成这关键的一步，下面写入本地就灰常简单了！还是来段代码吧！

 # -*- coding:utf-8 -*-

 import urllib.request

 import re

 #获取原码

 def get_content(page):

     url ='http://search.51job.com/list/000000,000000,0000,00,9,99,python,2,'+ str(page)+'.html'

     a = urllib.request.urlopen(url)#打开网址

     html = a.read().decode('gbk')#读取源代码并转为unicode

     return html

 def get(html):

     reg = re.compile(r'class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',re.S)#匹配换行符

     items=re.findall(reg,html)

     return items

 #多页处理，下载到文件

 for  j in range(1,10):

     print("正在爬取第"+str(j)+"页数据...")

     html=get_content(j)#调用获取网页原码

     for i in get(html):

         #print(i[0],i[1],i[2],i[3],i[4])

         with open ('51job.txt','a',encoding='utf-8') as f:

             f.write(i[0]+'\t'+i[1]+'\t'+i[2]+'\t'+i[3]+'\t'+i[4]+'\n')

             f.close()

再来一张效果图

看起来效果还不错，要是能够以表格的形式展示出来就更好了，在网上看到有的大佬直接把招聘信息写入excel表格，今天我也来试一下吧！其实也并麻烦，只需要将上面的代码稍加修改就可以了。下面贴一下代码，重要的地方会有注释。

 # -*- coding:utf-8 -*-

 import urllib.request

 import re

 import xlwt#用来创建excel文档并写入数据

 #获取原码

 def get_content(page):

     url ='http://search.51job.com/list/000000,000000,0000,00,9,99,python,2,'+ str(page)+'.html'

     a = urllib.request.urlopen(url)#打开网址

     html = a.read().decode('gbk')#读取源代码并转为unicode

     return html

 def get(html):

     reg = re.compile(r'class="t1 ">.*? <a target="_blank" title="(.*?)".*? <span class="t2"><a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*? <span class="t5">(.*?)</span>',re.S)#匹配换行符

     items = re.findall(reg,html)

     return items

 def excel_write(items,index):

 #爬取到的内容写入excel表格

     for item in items:#职位信息

         for i in range(0,5):

             #print item[i]

             ws.write(index,i,item[i])#行，列，数据

         print(index)

         index+=1

 newTable="test.xls"#表格名称

 wb = xlwt.Workbook(encoding='utf-8')#创建excel文件，声明编码

 ws = wb.add_sheet('sheet1')#创建表格

 headData = ['招聘职位','公司','地址','薪资','日期']#表头部信息

 for colnum in range(0, 5):

     ws.write(0, colnum, headData[colnum], xlwt.easyxf('font: bold on'))  # 行，列

 for each in range(1,10):

     index=(each-1)*50+1

     excel_write(get(get_content(each)),index)

 wb.save(newTable)

最后实现的效果如下图：

至此，我们的工作就已经完成了！有的朋友可能想要爬取其他工作的招聘信息，观察了一下URl可以知道修改一下关键字名称就可以了！可以定义成一个函数只需输入关键字，然后就可以自动爬取该工作的招聘信息！条条大路通罗马，想要实现上面的效果肯定不止这一种方法，以上内容仅供参考，希望可以给有需要的朋友提供一点思路！至于代码就比较粗糙了，而本人也希望有一天能够写得一手风骚代码！还是要重申一遍，本人能力有限，文章中可能会有纰漏或者错误，也欢迎表哥表姐们前来指正！谢谢大家！

Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel的更多相关文章

Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习之爬取全国各省市县级城市邮政编码
实例需求:运用python语言在http://www.ip138.com/post/网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中实例环境:python3.7 requests库 ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
Python爬虫一：爬取上交所上市公司信息
前几天领导让写一个从新闻语料中识别上市公司的方案.上市公司属于组织机构的范畴,组织机构识别属于命名实体识别的范畴.命名实体识别包括人名.地名.组织机构等信息的识别. 要想从新闻语料中识别上市公司就需要 ...
python scrapy爬取前程无忧招聘信息
使用scrapy框架之前,使用以下命令下载库: pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple 1.创建项目文件夹 scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...

随机推荐

Python3.5爬虫统计AcFun所有视频,并按各个类别进行Top100排序展示
前(b)言(b): 前段时间对Python产生了浓厚的兴趣,所以决定入门学习了1个多月,后来某时我需要对tomcat做一个压力测试,于是我想到了用Python写一个压力测试的脚本吧!最后捣鼓出了一个脚 ...
CSAcademy Beta Round #5 Long Journey
题目链接:https://csacademy.com/contest/arhiva/#task/long_journey/ 大意是有一张无向不带权的图,两个人同时从s点出发,分别前往a点和b点,且每个 ...
作死上CODEVS，青铜题
题面:输入一列整数,输出它们的总和.最大值.最小值.并从大到小输出. 先上一波伪代码,认真地做一波数组排序题. #include<stdio.h> #include<math.h&g ...
[ext4]01 磁盘布局 - block分析
ext4文件系统最基本的分配单元是"block"(块). block是由一组连续的sectors来组成,其大小介于1k~4K之间,当然不可能是任意值,只能是2的整数次幂个secto ...
多源最短路Floyd 算法————matlab实现
弗洛伊德(Floyd)算法是一种用于寻找给定的加权图中顶点间最短路径的算法.该算法名称以创始人之一.1978年图灵奖获得者.斯坦福大学计算机科学系教授罗伯特·弗洛伊德命名. 基本思想通过Floyd计 ...
记事本app TOP5（个人观点）
1.为知笔记为知笔记定位于高效率工作笔记,主打工作笔记的移动应用,是目前国内唯一一款"工作笔记"的云笔记类产品.除了常用的笔记功能保存的网页.灵感笔记.重要文档.照片.便签等,为 ...
UI基础控件—UIView
1. 什么是UIView? UIView :代表屏幕上的一个矩形区域,管理界面上的内容; 2. 创建UIview a.开辟空间并初始化视图(初始化时,给出视图位置和大小) b.对视图做一些设置 ...
hdu1068 Girls and Boys 二分匹配
题目链接: 二分匹配的应用求最大独立集最大独立集等于=顶点数-匹配数本体中由于男孩和女孩的学号是不分开的,所以匹配数应是求得的匹配数/2 代码: #include<iostream> ...
吕鑫VC6.0-VS2015 全套C/C++、MFC新手实战入门教程、Linux视频教程最好的基础入门教程没有之一
本课程包括:[1]C语言(1个月)[2]C++语法与数据结构(1个月)) [3]MFC项目开发(1个月)[4]Linux项目开发(1个月)往届的授课视频都已经上传到百度网盘,请同学们按照视频教程提前掌 ...
利用反射来实现获取成员的指定特性(Attribute)信息
在开发过程中,我们经常需要自定义一些特性,来辅助我们完成对对象或者枚举进行管理.我们需要知道如何获取对象使用的特性信息. 以下举个学习用的例子. 我们自定义一个特性类,这个特性设置在一个数据段内是否执 ...

Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel

Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel的更多相关文章

随机推荐

热门专题