Python爬虫入门——使用requests爬取python岗位招聘数据

爬虫目的

使用requests库和BeautifulSoup4库来爬取拉勾网Python相关岗位数据

爬虫工具

使用Requests库发送http请求，然后用BeautifulSoup库解析HTML文档对象，并提取职位信息。

爬取过程

1.请求地址

https://www.lagou.com/zhaopin/Python/

2.需要爬取的内容

（1）岗位名称

（2）薪资

（3）公司所在地

3.查看html

使用FireFox浏览器，登陆拉勾网，按F12可以进入开发者工具页面：

这时候会看到该页面的html网页源码。

接下来需要寻找岗位信息对应的源码，比如岗位名称：

在开发者工具页面左上角有个箭头标志，点击它，然后再点击岗位名称，就能看到对应的源码。

知道对应的源码后，还需要知道请求头：

点击“网络”，之后点击“get”，在最下方User-Agent中的内容就是请求头

(如果是使用Chrome浏览器或者其它浏览器方法会有所不同)

完成上述操作后就可以利用BeautifulSoup4提取里面的文本。

利用requests发出数据请求

import requests

import io

import sys

from bs4 import BeautifulSoup

sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

headers = {

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',}

r = requests.get('https://www.lagou.com/zhaopin/Python/',headers=headers)　　#设置请求头

r.encoding=r.apparent_encoding

result=r.text

bs=BeautifulSoup(result,'html.parser')　　#创建一个BeautifulSoup对象

利用BeautifulSoup提取网页数据

b=[]　　#创建空列表用来存储爬取的数据

a=[]

d=[]

name = bs.find_all('h3')　　#获取所有包含'h3'标签的内容
’

for h3 in name:

    b.append(h3.string)

money = bs.find_all('span',attrs={'class':'money'})

for span in money:

    a.append(span.string)　　#获取字符串形式的数据

ltd=bs.find_all('em')

for em in ltd:

    d.append(em.string)

i=0

print("职业:","           薪资:","    地点:")

try:

    while True:

        print(b[i],a[i],d[i])

        i+=1

except IndexError:

    print()

Python爬虫入门——使用requests爬取python岗位招聘数据的更多相关文章

Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分
1. 儿歌多多APP简单分析今天是手机APP数据爬取的第一篇案例博客,我找到了一个儿歌多多APP,没有加固,没有加壳,没有加密参数,对新手来说,比较友好,咱就拿它练练手,熟悉一下Fiddler和夜神 ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
Python 爬虫入门实例（爬取小米应用商店的top应用apk）
一,爬虫是什么? 爬虫就是获取网络上各种资源,数据的一种工具.具体的可以自行百度. 二,如何写简单爬虫 1,获取网页内容可以通过 Python(3.x) 自带的 urllib,来实现网页内容的下载. ...
Python爬虫之简单的爬取百度贴吧数据
首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包之后我们定义一个名叫BaiduSpider类用来爬取信息属性有 url: ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...

随机推荐

使用ReadtheDocs托管技术文档
ReadtheDocs Read the Docs非常适合写软件文档以及编写一些教程.电子书之类.对于一些一两篇文章就能写清楚的可以记笔记或写博客, 但是如果要写成一个系列的,不如写成一本书的形式,更 ...
ThreadLocal源代码3
public class ThreadLocal1<T> { //当创建了一个 ThreadLocal 的实例后,它的散列值就已经确定了, //threadLocal实例的hashCode ...
MQTT的Res接口发布消息
MQTT(这里采用的V2版本)发布消息的常见方法: 1.通过MQTT客户端连接MQTT服务器,建立长连接,通过接口发布消息最常见的客户端: <dependency> <groupI ...
MySQL8 全部数据类型
数字类型日期类型字符串类型 CHAR和VARCHAR 表列数和行大小限制 MySQL每个表的硬限制为4096列,但对于给定的表,有效最大值可能更小.确切的列限制取决于几个因素: 表的最大行大小限制 ...
【数据结构】6.java源码ArrayList
关于ArrayList的源码关注点 1.从底层数据结构,扩容策略2.ArrayList的增删改查3.特殊处理重点关注4.遍历的速度,随机访问和iterator访问效率对比 1.从底层数据结构,扩容策略 ...
全栈项目|小书架|服务器端-NodeJS+Koa2 实现搜索功能
搜索功能会包含:热搜.搜索列表. 热搜功能在电商的搜索中经常看到,热搜数据的来源有两种用户真实的搜索数据,根据算法进行排序人为推送的数据想想微博热搜是可以买的就知道热搜功能多么重要了. 我采用第 ...
Django之创建超级用户
本文链接来自:https://blog.csdn.net/HuaCode/article/details/79721673 首选创建一个新用户,用来登录Django管理网站,进入manage.py目录 ...
2019 超级老板APPjava面试笔试题（含面试题解析）
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.超级老板等公司offer,岗位是Java后端开发,因为发展原因最终选择去了超级老板,入职一年时间了,也成为了面 ...
2019 唯品会java面试笔试题（含面试题解析）
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.唯品会等公司offer,岗位是Java后端开发,因为发展原因最终选择去了唯品会,入职一年时间了,也成为了面试官 ...
ThreadLocal简解
ThreadLocal特点 ThreadLocal实现了线程间数据隔离,ThreadLocal的实例代表了一个线程局部的变量,每条线程都只能看到自己的值,并不会意识到其它的线程中也存在该变量.简单来说 ...

Python爬虫入门——使用requests爬取python岗位招聘数据

Python爬虫入门——使用requests爬取python岗位招聘数据的更多相关文章

随机推荐

热门专题