Python 爬虫实例（15）爬取百度百聘（微信公众号）

今天闲的无聊，爬取了一个网站，百度百聘，仅供学习参考

直接上代码：

#-*-coding:utf-8-*-

from common.contest import *

def spider():

    headers = {

        "Host":"zhaopin.baidu.com",

        "Connection":"keep-alive",

        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36",

        "Accept":"*/*",

        "Referer":"http://zhaopin.baidu.com/qz?query=%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88",

        "Accept-Encoding":"gzip, deflate",

        "Accept-Language":"zh-CN,zh;q=0.8",

        "Cookie":"BAIDUID=F9ED0B117C16BC97A29D64DD28F4CBB9:FG=1; BIDUPSID=F9ED0B117C16BC97A29D64DD28F4CBB9; PSTM=1532340289; locale=zh;
 　　　　　　Hm_lvt_c676f95eebbd4fa8a59418f48090ac4d=1532922582; URLTITLESALARY=%20; Hm_lvt_80a630f2b5c230ad2a5d3f1356e18706=1532938867; 
　　　　　　　　Hm_lpvt_80a630f2b5c230ad2a5d3f1356e18706=1532941545; td_cookie=966486977",

    }

    url = 'http://zhaopin.baidu.com/api/qzasync'

    for page in range(0,11):

        print "正在爬取的页数是:",str(page)

        data = {

            "query":"爬虫工程师",

            "city":"%E5%8C%97%E4%BA%AC",

            "pcmod":"",

            "pn":str(page),

            "rn":"",

        }

        result = session.get(url=url,params=data,headers=headers).json()

        result = result['data']['disp_data']

        for ii in result:

            try:

                ori_size = ii['ori_size']

            except:

                ori_size = ""

            ori_city = ii['ori_city']

            ori_type = ii['ori_type']

            StdStl = ii['StdStl']

            sourcelink = ii['sourcelink']

            _version = ii['_version']

            haswapurl = ii['haswapurl']

            education = ii['education']

            try:

                size = ii['size']

            except:

                size = ""

            format_date = ii['format_date']

            detailidx = ii['detailidx']

            title = ii['title']

            ori_employertype = ii['ori_employertype']

            requirements = ii['requirements']

            company_id = ii['company_id']

            ori_salary = ii['ori_salary']

            source = ii['source']

            location = ii['location']

            provider = ii['provider']

            employertype = ii['employertype']

            lastmod = ii['lastmod']

            _update_time = ii['_update_time']

            ori_education = ii['ori_education']

            try:

                companyaddress = ii['companyaddress']

            except:

                companyaddress = ""

            company = ii['company']

            try:

                commonname = ii['commonname']

            except:

                commonname = ""

            ori_welfare = ii['ori_welfare']

            ori_experience = ii['ori_experience']

            ori_welfare = str(ori_welfare).decode('unicode_escape')

            print "ori_salary",ori_salary

            print "ori_size",ori_size

            print "ori_city",ori_city

            print "ori_type",ori_type

            print "StdStl",StdStl

            print "sourcelink",sourcelink

            print "_version",_version

            print "haswapurl",haswapurl

            print "education",education

            print "id",id

            print "size",size

            print "format_date",format_date

            print "detailidx",detailidx

            print "title",title

            print "ori_employertype",ori_employertype

            print "requirements",requirements

            print "company_id",company_id

            print "ori_salary",ori_salary

            print "ori_salary",ori_salary

            print "source",source

            print "employertype",employertype

            print "location",location

            print "provider",provider

            print "employertype",employertype

            print "lastmod",lastmod

            print "_update_time",_update_time

            print "ori_education",ori_education

            print "companyaddress",companyaddress

            print "company",company

            print "commonname",commonname

            print "ori_welfare",ori_welfare

            print "ori_experience",ori_experience

        time.sleep(5)

spider()

这个网址没有什么难度，只需要简单的请求一下请求接口就能得到数据，注意请求参数 city 需要 URL编码一下就可以，不会的同学请自行百度 URL编码就可以了

Python 爬虫实例（15）爬取百度百聘（微信公众号）的更多相关文章

Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章
借助搜索微信搜索引擎进行抓取抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...
Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...
【python爬虫】之爬取百度首页
刚开始学习爬虫,照着教程手打了一遍,还是蛮有成就感的.使用版本:python2.7 注意:python2的默认编码是ASCII编码而python3默认编码是utf-8 import urllib2 u ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...

随机推荐

XAML中特殊符号书写
XAML中特殊符号书写表示换行. 表示空格.
015-Go 数据库操作注意事项
1.Query.Exec(1)Exec(update.insert.delete等无结果集返回的操作)调用完后会自动释放连接:(2)Query(返回sql.Rows)则不会释放连接,调用完后仍然占有连 ...
APP注册邀请码
小火箭:MrZOpba685OMLSpanBKFtkxcQf5eGOY 文章来源:刘俊涛的博客欢迎关注,有问题一起学习欢迎留言.评论
HTML拾遗
一:标签 1:强调 <strong>加醋.<em>斜体 2:单独样式 <span>如果不加样式,那它包围的文字就是普通文字,可以在span中增加样式,就所包围的内容 ...
java Map常用方法封装
java Map常用方法封装 CreationTime--2018年7月16日15点59分 Author:Marydon 1.准备工作 import java.util.HashMap; impo ...
java 如何对由json对象构成的数组形式的字符串进行遍历？
1.情景展示现在已知字符串为: [{"name":"微微笑","img":"http://zos.alipayobjects ...
django之异常错误3(Student matching query does not exist.)
错误提示: DoesNotExist at /blog/test2/ Student matching query does not exist. 说明:错误提示说明错误在test2中,查找数据库的表 ...
OSWorkFlow 学习
1.OSWorkFlow基本概念在商用和开源世界里,OSWorkflow 都不同于这些已有的工作流系统.最大不同在于 OSWorkflow 有着非常优秀的灵活性.在开始接触 OSWorkflow ...
Cecos国内集成系统基于rhel6.5
整体上,secos对云.虚拟化.等整体的解决方案(一键打包),很不错.做出了有益的探索.... 本次测试基于版本测试,不得说官方文档也是挺全的,很好!!!! CecOS-1.4.2-Final-170 ...
关于UDP-读这篇就够了（疑难杂症和使用）
本文为转载文章原文链接:https://www.qcloud.com/community/article/848077001486437077 版权归原文所有关于UDP 面向报文的传输方式决定了U ...

Python 爬虫实例（15） 爬取 百度百聘（微信公众号）

Python 爬虫实例（15） 爬取 百度百聘（微信公众号）的更多相关文章

随机推荐

热门专题

Python 爬虫实例（15）爬取百度百聘（微信公众号）

Python 爬虫实例（15）爬取百度百聘（微信公众号）的更多相关文章