爬虫_拉勾网(解析ajax)

拉勾网反爬虫做的比较严，请求头多添加几个参数才能不被网站识别

找到真正的请求网址，返回的是一个json串，解析这个json串即可，而且注意是post传值

通过改变data中pn的值来控制翻页

job_name读取的结果是一个列表 ['JAVA高级工程师、爬虫工程师'] ，而我只想得到里面的字符串，在用job_name[0]的时候，爬取过程中会报下标错误，不知道怎么回事，都看了一遍没问题啊，只能不处理这个列表了

 import requests

 from lxml import etree

 import time

 import re

 headers = {

     'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36',

     'Cookie': '_ga=GA1.2.438907938.1533109215; user_trace_token=20180801154015-21630e48-955e-11e8-ac93-525400f775ce; LGUID=20180801154015-216316d6-955e-11e8-ac93-525400f775ce; WEBTJ-ID=08122018%2C193417-1652dea595ec0a-0ca5deb5d1dcb9-172f1503-2073600-1652dea595f51f; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1533109214,1534073658; LGSID=20180812193418-a61634a5-9e23-11e8-bae9-525400f775ce; PRE_UTM=m_cf_cpt_baidu_pc; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Fs%3Fie%3Dutf-8%26f%3D8%26rsv_bp%3D0%26rsv_idx%3D1%26tn%3Dbaidu%26wd%3Dlagou%2520wang%2520%26rsv_pq%3D8f8c8d4500066afd%26rsv_t%3Deaa21Vp5dXD8YMkjoybb0H4UW4n0ReZfxSBiBne14tXfDsN5XKFydx2jVnA%26rqlang%3Dcn%26rsv_enter%3D1%26rsv_sug3%3D12%26rsv_sug1%3D2%26rsv_sug7%3D101%26rsv_sug2%3D0%26inputT%3D1970%26rsv_sug4%3D3064; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Flp%2Fhtml%2Fcommon.html%3Futm_source%3Dm_cf_cpt_baidu_pc; _gid=GA1.2.849726101.1534073658; X_HTTP_TOKEN=0d3a98743216c83f14e092a5154d2327; LG_LOGIN_USER_ID=5f3d6b41f24b2423bae0a956753632482a2ecabcb36ef97074ff9fdec683ae51; _putrc=3A0548631F844F3C123F89F2B170EADC; JSESSIONID=ABAAABAAAIAACBI302EB6DF4BD54C909C01751F65D4311D; login=true; unick=%E5%88%98%E4%BA%9A%E6%96%8C; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=0; gate_login_token=c6678499c0aaeb807c1e37249f90d483317ec272762e7060fa18175f49d9c806; index_location_city=%E5%85%A8%E5%9B%BD; TG-TRACK-CODE=search_code; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1534074635; LGRID=20180812195035-ec87e3ce-9e25-11e8-a37b-5254005c3644; SEARCH_ID=85704a0c1aaf43d4b9f07489311f0707',

     'Referer': 'https://www.lagou.com/jobs/list_%E7%88%AC%E8%99%AB?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=sug&suginput=pachong',

     'Origin': 'https://www.lagou.com'

 }

 data = {

     'first': 'false',

     'pn': 1,

     'kd': '爬虫'

 }

 def get_list_page(page_num):

     url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

     data['pn'] = page_num

     response = requests.post(url, headers=headers, data=data)

     result = response.json()

     positions = result['content']['positionResult']['result']

     for position in positions:

         positionId = position['positionId']

         position_url = 'https://www.lagou.com/jobs/%s.html' %positionId

         parse_detail_page(position_url)

         # break

 def parse_detail_page(url):

     job_information = {}

     response = requests.get(url, headers=headers)

     # response.raise_for_status()

     html = response.text

     html_element = etree.HTML(html)

     job_name = html_element.xpath('//div[@class="job-name"]/@title')

     job_description = html_element.xpath('//dd[@class="job_bt"]//p//text()')

     for index, i in enumerate(job_description):

         job_description[index] = re.sub('\xa0', '', i)

     job_address = html_element.xpath('//div[@class="work_addr"]/a/text()')

     job_salary = html_element.xpath('//span[@class="salary"]/text()')

     # 字符串处理去掉不必要的信息

     for index, i in enumerate(job_address):

         job_address[index] = re.sub('查看地图', '', i)

     while '' in job_address:

         job_address.remove('')

     # job_address_detail = html_element.xpath('//div[@class="work_addr"]/a[-2]/text()')

     # print(job_address_detail)

     job_information['job_name'] = job_name

     job_information['job_description'] = job_description

     job_information['job_address'] = job_address

     job_information['job_salary'] = job_salary

     print(job_information)

 def main():

     for i in range(1, 31):

         get_list_page(i)

         print('='*30 + '第%s页'%i + '='*30)

 if __name__ == '__main__':

     main()

运行结果

爬虫_拉勾网(解析ajax)的更多相关文章

爬虫_拉勾网(selenium)
使用selenium进行翻页获取职位链接,再对链接进行解析会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 from selenium import webdrive ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
笔记-爬虫-js代码解析
笔记-爬虫-js代码解析 1. js代码解析 1.1. 前言在爬取网站时经常会有js生成关键信息,而且js代码是混淆过的. 以瓜子二手车为例,直接请求https://www.guaz ...
jQuery解析AJAX返回的html数据时碰到的问题与解决
$.ajax({ type : "post", url : "<%=request.getContextPath()%>/ce/articledetail/m ...
python爬虫---爬虫的数据解析的流程和解析数据的几种方式
python爬虫---爬虫的数据解析的流程和解析数据的几种方式一丶爬虫数据解析概念:将一整张页面中的局部数据进行提取/解析作用:用来实现聚焦爬虫的吧实现方式: 正则 (针对字符串) bs4 x ...
20170717_python_爬虫_网页数据解析_BeautifulSoup_数据保存_pymysql
上午废了老大劲成功登陆后,下午看了下BeautifulSoup和pymysql,晚上记录一下自己电脑装的sublime,字体颜色竟然拷贝不下来 - - 写的过程中遇到了很多问题: 1.模拟登陆部分 ...
python爬虫_简单使用百度OCR解析验证码
百度技术文档首先要注册百度云账号: 在首页,找到图像识别,创建应用,选择相应的功能,创建安装接口模块: pip install baidu-aip 简单识别一: 简单图形验证码: 图片: from ...
【Python3爬虫】拉勾网爬虫
一.思路分析: 在之前写拉勾网的爬虫的时候,总是得到下面这个结果(真是头疼),当你看到下面这个结果的时候,也就意味着被反爬了,因为一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访 ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...

随机推荐

matplotlib 入门之Sample plots in Matplotlib
文章目录 Line Plot One figure, a set of subplots Image 展示图片展示二元正态分布 A sample image Interpolating images ...
js总结：对于字符串的切割截取和合并
1.函数:split() 功能:使用一个指定的分隔符把一个字符串分割存储到数组例子: str=”jpg|bmp|gif|ico|png”; arr=str.split(”|”); //arr是一个包 ...
【问题解决方案】之 jmeter启动报错：Not able to find Java executable or version. Please check your Java installation
故事发生在云计算实验课上-- ** 故事发生在云计算实验课上-- Step 1 在Xshell中登录自己的cloud虚拟机后,<sudo su ->切换到root用户 Step 2 < ...
C#如何调用C++的dll
背景一个项目,算法部分使用C++的openCV库编写图像处理程序,编译成dll,用户界面采用C#编写,去调用该dll暴露的接口. C#编写的是托管代码,编译生成微软中间语言,而普通C++代码则编译 ...
MyBatis映射文件2(不支持自增的数据库解决方案/参数处理[单参、多参、命名参数])
针对Oracle不支持自增的解决方案 Oracle不支持自增,但是它使用序列来模拟自增,每次插入数据的主键是从序列中拿到的值,那么如何获取这个值呢? <insert id="addEm ...
Sublime Text3配置
{ "default_encoding": "UTF-8", "font_size": 16.0, "tab_size" ...
Linux基础学习笔记5-软件管理
包管理器二进制应用程序的组成部分: 二进制文件.库文件.配置文件.帮助文件程序包管理器: debian:deb文件.dpkg包管理器 redhat:rpm文件.rpm包管理器 rpm:Redhat ...
WPF通过DynamicResource实现给界面动态更换皮肤
在我们的程序中有时候需要去实现动态更换皮肤的效果,从而完成一些个性化的设置,那么我们究竟怎样去实现动态换皮肤的效果呢?那么我们经常用到的就是设置不同的Style,并且在主程序的xaml文件中通过Dyn ...
前端框架framework和库library的一点区别和记录
本篇纯文字,无关代码,只是一点概念的记录关于所谓前端首先学的是HTML5.CSS3.JavaScript这三个之后接触了一下UI框架,如layui和bootstrap 目前是打算去学VUE和an ...
ECharts在柱状图的柱子上方显示数量的方法
在setOption()方法中的series配置中加上itemStyle配置如下: series: [{ name: '人数', type: 'bar', data: [], //x轴对应列的值 i ...

爬虫_拉勾网(解析ajax)

爬虫_拉勾网(解析ajax)的更多相关文章

随机推荐

热门专题