爬取拉勾网招聘信息并使用xlwt存入Excel

xlwt 1.3.0

xlwt 文档

xlrd 1.1.0

python操作excel之xlrd

1.Python模块介绍 - xlwt ，什么是xlwt？

Python语言中，写入Excel文件的扩展工具。
相应的有扩展包xlrd，专门用于excel读取。
可以实现指定表单、指定单元格的写入。

2.xlwt使用

导入模块

import xlwt

创建workbook,即创建excel,后来要进行保存

workbook = xlwt.Workbook(encoding = 'utf-8')

创建表

worksheet = workbook.add_sheet('My Worksheet',cell_overwrite_ok=True)  ##第二参数用于确认同一个cell单元是否可以重设值。

往单元格内写入内容

worksheet.write(0, 0, label = 'Row 0, Column 0 Value')

保存

workbook.save('Excel_Workbook.xls')

增加单元格内容

write_merge(x, x + m, y, y + n, string, sytle)

# x表示行，y表示列，m表示跨行个数，n表示跨列个数，string表示要写入的单元格内容，style表示单元格样式。其#中，x，y，w，h，都是以0开始计算的。
#这个和xlrd中的读合并单元格的不太一样。

add_sheet #如果需要创建多个sheet，则只要f.add_sheet即可

注意：

python2.X 版本下，使用xlwt扩展包。

python3.X 版本下，需要更新到xlwt3扩展包。

3.xlwt模块使用实例

#代码来自code.py40.com
import xlwt

def write_excel():
    f = xlwt.Workbook() #创建工作簿

    sheet1 = f.add_sheet(u'sheet1',cell_overwrite_ok=True) #创建sheet
    row0= [u'编号',u'姓名',u'性别',u'生日']

    #生成第0行
    for i in range(0,len(row0)):
        sheet1.write(0,i,row0[i])

    row1 = [u',u'张三',u'男']
    row2 = [u',u'李四',u'女']
    date = '1990-01-04'

    #生成第一行
    for i in range(0,len(row1)):
        sheet1.write(1,i,row1[i])

    #生成第二行
    for i in range(0,len(row2)):
        sheet1.write(2,i,row2[i])

    #写入合并的单元格数据1990-01-04
    sheet1.write_merge(1,2,3,3,date)

    f.save(r'E:\python\learn\demo1.xls') #保存文件

#python写入Excel文档
if __name__ == '__main__':
    #generate_workbook()
    #read_excel()
    write_excel()

4.enumerate()说明

enumerate()是python的内置函数
enumerate在字典上是枚举、列举的意思
对于一个可迭代的（iterable）/可遍历的对象（如列表、字符串），enumerate将其组成一个索引序列，利用它可以同时获得索引和值
enumerate多用于在for循环中得到计数

5.爬取拉勾网招聘信息并通过xlwt存入Excel

1.分析拉勾网网页结构及数据

通过浏览器自带的开发者工具查看是通过Post方式提交的，数据是通过Ajax（异步加载）得到的

查看每个岗位对应的链接

成功找到我们想要抓取的数据

伪造cookie，请求头

代码如下：

#-*- coding:utf-8 -*-
created 2017.9.12

import json
import requests
import xlwt
import time
from lxml import etree

#解决编码的问题
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#获取存储职位信息的json对象，遍历获得公司名、福利待遇、工作地点、学历要求、工作类型、发布时间、职位名称、薪资、工作年限
def get_json(url,datas):

    my_headers = {
        'User-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                      'AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/60.0.3112.90 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Host': 'www.lagou.com',
        'Origin': 'https://www.lagou.com',
        'Referer': 'https://www.lagou.com/jobs/list_python?city=%E4%B8%8A%E6%B5%B7&cl=false&fromSearch=true&labelWords=&suginput=',
    }
    cookies = {
        'Cookie': 'user_trace_token=20170824135842-485287de-8891-11e7-a544-525400f775ce; LGUID=20170824135842-48528e05-8891-11e7-a544-525400f775ce; JSESSIONID=ABAAABAAADEAAFI772FD1B9AABBF0C5553E874B0F860350; _putrc=B95D7C5E94F53DA8; login=true; unick=%E9%83%AD%E5%B2%A9; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=3; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; _gat=1; TG-TRACK-CODE=index_search; SEARCH_ID=f0acbb8b2145433cb8fe7086f23be622; index_location_city=%E5%8C%97%E4%BA%AC; _gid=GA1.2.397092414.1504747009; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504756944,1504761486,1504783443,1504839029; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504839719; _ga=GA1.2.1499897355.1503554319; LGSID=20170908105032-7b45520c-9440-11e7-8aae-525400f775ce; LGRID=20170908110159-14c6e1a8-9442-11e7-8ab1-525400f775ce'
    }
    time.sleep(8)
    content = requests.post(url=url,cookies=cookies,headers=my_headers,data=datas)
    # content.encoding = 'utf-8'
    result = content.json()
    print result
    info = result['content']['positionResult']['result']
    # print info
    info_list = []
    for job in info:
        information = []
        information.append(job['positionId']) #岗位对应ID
        information.append(job['companyFullName']) #公司全名
        information.append(job['companyLabelList']) #福利待遇
        information.append(job['district']) #工作地点
        information.append(job['education']) #学历要求
        information.append(job['firstType']) #工作类型
        information.append(job['formatCreateTime']) #发布时间
        information.append(job['positionName']) #职位名称
        information.append(job['salary']) #薪资
        information.append(job['workYear']) #工作年限
        info_list.append(information)
        #将列表对象进行json格式的编码转换,其中indent参数设置缩进值为2
        print json.dumps(info_list,ensure_ascii=False,indent=2)
        print info_list
    return info_list

def main():
    page = int(raw_input('请输入你要抓取的页码总数：'))
    # kd = raw_input('请输入你要抓取的职位关键字：')
    # city = raw_input('请输入你要抓取的城市：')

    info_result = []
    title = ['岗位id','公司全名','福利待遇','工作地点','学历要求','工作类型','发布时间','职位名称','薪资','工作年限']
    info_result.append(title)
    for x in range(1,page+1):
        url = 'https://www.lagou.com/jobs/positionAjax.json?&needAddtionalResult=false'
        datas = {
            'first': True,
            'pn': x,
            'kd': 'python',
            'city': '上海'
        }
        info = get_json(url,datas)
        info_result = info_result+info
        #创建workbook,即excel
        workbook = xlwt.Workbook(encoding='utf-8')
        #创建表,第二参数用于确认同一个cell单元是否可以重设值
        worksheet = workbook.add_sheet('lagouzp',cell_overwrite_ok=True)
        for i, row in enumerate(info_result):
            # print row
            for j,col in enumerate(row):
                # print col
                worksheet.write(i,j,col)
        workbook.save('lagouzp.xls')

if __name__ == '__main__':
    main()

运行程序

Excel数据展示

爬取拉勾网招聘信息并使用xlwt存入Excel的更多相关文章

Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
python-scrapy爬虫框架爬取拉勾网招聘信息
本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等. 分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字, 在浏览器地址栏 ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字&q ...
python爬虫（三）用request爬取拉勾网职位信息
request.Request类如果想要在请求的时候添加一个请求头(增加请求头的原因是,如果不加请求头,那么在我们爬取得时候,可能会被限制),那么就必须使用request.Request类来实现,比 ...
pyspider爬虫框架webui简介-爬取阿里招聘信息
命令行输入pyspider开启pyspider 浏览器打开http://localhost:5000/ group表示组名,几个项目可以同一个组名,方便管理,当组名修改为delete时,项目会在一天后 ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
爬虫框架之Scrapy——爬取某招聘信息网站
案例1:爬取内容存储为一个文件 1.建立项目 C:\pythonStudy\ScrapyProject>scrapy startproject tenCent New Scrapy projec ...

随机推荐

Android源代码目录组成介绍-android学习之旅（97）
android的主要源代码组成如下: Kernel:Android Linux 内核2.6 bionic:Android 标准C运行支持库 bootloader:内核加载器参考 build:Andro ...
Java中使用C3P0连接池
先看官网给的范例: import java.sql.*; import javax.naming.*; import javax.sql.DataSource; import com.mchange. ...
cookie的增删改查函数
function setCookie(name,value,expires,path,domain){ //设置过期时间 var oDate = new Date(); oDate.setDate(o ...
4 sum
Given an array S of n integers, are there elements a, b, c, and d in S such that a + b + c + d = tar ...
Maximum Subarray(最大子数组)
Find the contiguous subarray within an array (containing at least one number) which has the largest ...
JAVA基础经典面试
[前言] 整理好久,这篇总结写的超级好,很全面.要全部背下来,至于框架应用那块,一定要有针对的,多写项目,照着慕课的对应项目. 链接:http://www.importnew.com/22083.ht ...
Day20 Ajax
Ajax准备知识:json 什么是json? 定义: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式.它基于 ECMAScript (w ...
Django1.10 release notes摘编
一.重点新特性: 1.面向PostgreSQL的全文搜索支持 2.新式风格的middleware 3.用户名Unicode编码的官方支持二.一些可以提的改变: 1.用户名最大长度增加到150 2.不 ...
Bootstrap 4，“未捕获错误：Bootstrap工具提示需要Tether（http://github.hubspot.com/tether/）”
如果出现了这个错误,我想你是没有引用tether文件,这在v4之前不需要单独引入的. https://cdnjs.cloudflare.com/ajax/libs/tether/1.4.0/js/te ...
Redis实际开发中常见问题
首先redis作为缓存,一般作为缓存有2个用途,快速访问和减少IO频率,所谓减少IO频率就是等缓存积累到一定大小然后一次刷入磁盘进行持久化. 一般的设计就是客户端往数据库里更新或者读写数据,redis ...

爬取拉勾网招聘信息并使用xlwt存入Excel

1.Python模块介绍 - xlwt ，什么是xlwt？

2.xlwt使用

3.xlwt模块使用实例

4.enumerate()说明

5.爬取拉勾网招聘信息并通过xlwt存入Excel

爬取拉勾网招聘信息并使用xlwt存入Excel的更多相关文章

随机推荐

热门专题