一个抓取智联招聘数据并存入表格的python爬虫

　　talk is cheap...show you the code.....

 import requests

 import lxml,time,os

 from bs4 import BeautifulSoup as sb

 from xlwt import *

 import sys

 reload(sys)

 sys.setdefaultencoding('utf-8')

 print sys.getdefaultencoding()

 book = Workbook(encoding = "utf-8")

 table = book.add_sheet("test1")

 table.write(0,0,'number')

 table.write(0,1,'position')

 table.write(0,2,'feedback')

 table.write(0,3,'company')

 table.write(0,4,'salary')

 table.write(0,5,'address ')

 table.write(0,6,"updatetime")

 table.write(0,7,"details")

 headers = {"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36"}

 for num in range(90):

     url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E4%B8%9C%E8%8E%9E&p='+str(num)

     print url

     res = requests.get(url,headers = headers)

     html = sb(res.text,'lxml')

     zwmc = html.find_all('td',class_="zwmc")

     fk_lv = html.find_all('td',class_="fk_lv")

     gsmc = html.find_all('td',class_="gsmc")

     zwyx = html.find_all('td',class_="zwyx")

     gzdd = html.find_all('td',class_="gzdd")

     gxsj = html.find_all('td',class_="gxsj")

     details = html.find_all('li',class_="newlist_deatil_last")

     row = num*len(zwmc)

     for i in range(1,len(zwmc)):

         print zwmc[i].text.strip()+"---"+fk_lv[i].text.strip()+"---"+ gsmc[i].text.strip()+"---"+ zwyx[i].text.strip()+"---"+ gzdd[i].text.strip()+"---"+gxsj[i].text.strip()

         table.write(row+i,0,row+i)

         table.write(row+i,1,zwmc[i].text.strip())

         table.write(row+i,2,fk_lv[i].text.strip())

         table.write(row+i,3,gsmc[i].text.strip())

         table.write(row+i,4,zwyx[i].text.strip())

         table.write(row+i,5,gzdd[i].text.strip())

         table.write(row+i,6,gxsj[i].text.strip())

         table.write(row+i,7,details[i].text.strip())

 book.save('result.xls')

一个抓取智联招聘数据并存入表格的python爬虫的更多相关文章

用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
python3爬虫抓取智联招聘职位信息代码
上代码,有问题欢迎留言指出. # -*- coding: utf-8 -*- """ Created on Tue Aug 7 20:41:09 2018 @author ...
python3 requests_html 爬取智联招聘数据（简易版）
PS重点:我回来了-----我回来了-----我回来了 1. 基础需要: python3 基础 html5 CS3 基础 2.库的选择: 原始库 urllib2 (这个库早些年的用过,后来淡忘了) ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...

随机推荐

Invitation Cards POJ 1511 SPFA || dij + heap
http://poj.org/problem?id=1511 求解从1去其他顶点的最短距离之和. 加上其他顶点到1的最短距离之和. 边是单向的. 第一种很容易,直接一个最短路, 然后第二个,需要把边反 ...
log4j:WARN Please initialize the log4j system properly. 异常解决
log4j:WARN Please initialize the log4j system properly. 这个异常很少遇到,咋一看,原来是没有配置logger4j的配置文件问题解决方法: 传统 ...
关于IE 对 $.get 缓存的记录
最近在IE9中碰到一个问题是, 当我对某个角色进行修改的时候,再点击查询还是修改之前的内容,但是实际数据库已经修改成功,纠结了好一会儿之后,才发现是 $.get请求的问题. 因为 IE对get请求, ...
LN : leetcode 516 Longest Palindromic Subsequence
lc 516 Longest Palindromic Subsequence 516 Longest Palindromic Subsequence Given a string s, find th ...
Spring-bean(一)
配置形式:基于xml文件的方式:基于注解的方式 Bean的配置方式:通过全类名(反射),通过工厂方法(静态工厂方法&实例工厂方法),FactoryBean 依赖注入的方式:属性注入,构造器注入 ...
Java子类与父类方法的隐藏和覆盖
class Base{ int x = 1; static int y = 2; String name(){ return "mother" ...
mysql use index() 优化查询
mysql use index() 优化查询 FORCE INDEX/IGNORE INDEX 的语法: SELECT *** FROM TABLE [{USE|IGNORE|FORCE} INDEX ...
SQL Server数据库锁机制及类型
原文地址:http://blog.csdn.net/zp752963831/article/details/3906477
云原生技术图谱（CNCF Landscape）
转自:https://raw.githubusercontent.com/cncf/landscape/master/landscape/CloudNativeLandscape_latest.jpg
android和IOS长连接区别
http://blog.csdn.net/zhangzeyuaaa/article/details/39028369 首先我们必须知道,所有的推送功能必须有一个客户端和服务器的长连接,因为推送是由服务 ...

一个抓取智联招聘数据并存入表格的python爬虫

一个抓取智联招聘数据并存入表格的python爬虫的更多相关文章

随机推荐

热门专题