python3 爬取boss直聘职业分类数据(未完成)

import re
import urllib.request

# 爬取boss直聘职业分类数据
def subRule(fileName):
    result = re.findall(r'<p class="menu-article">[\u4e00-\u9fa5]+</p>',fileName);
    return result;

def subRule1(fileName):
    result = re.findall(r'<h4>[\u4e00-\u9fa5]+</h4>',fileName);
    return result;

def subRule2(fileName):
    # [a-zA-Z]{0,10}|[A-Z]{0,10}[A-Za-z]{0,10}[/]{0,1}[\u4e00-\u9fa5]+[a-z]{0,10}|[A-Z]{0,10}
    # 未匹配class="cur"的情况
    result = re.findall(r'p[0-9]+/">.+</a>',fileName);
    return result;

bossHtml = getHtml('https://www.zhipin.com/?ka=header-home');
print(bossHtml);

ruleResult = subRule(bossHtml.decode('utf-8'));
#print(ruleResult);
for i in ruleResult:
    print(i);

ruleResult1 = subRule1(bossHtml.decode('utf-8'));
#print(ruleResult1);
for i in ruleResult1:
    print(i);

ruleResult2 = subRule2(bossHtml.decode('utf-8'));
#print(ruleResult2);
for i in ruleResult2:
    print(i);

python3 爬取boss直聘职业分类数据(未完成)的更多相关文章

Scrapy 爬取BOSS直聘关于Python招聘岗位
年前的时候想看下招聘Python的岗位有多少,当时考虑目前比较流行的招聘网站就属于boss直聘,所以使用Scrapy来爬取下boss直聘的Python岗位. 1.首先我们创建一个Scrapy 工程 s ...
Python的scrapy之爬取boss直聘网站
在我们的项目中,单单分析一个51job网站的工作职位可能爬取结果不太理想,所以我又爬取了boss直聘网的工作,不过boss直聘的网站一次只能展示300个职位,所以我们一次也只能爬取300个职位. jo ...
用BeautifulSoup简单爬取BOSS直聘网岗位
用BeautifulSoup简单爬取BOSS直聘网岗位爬取python招聘 import requests from bs4 import BeautifulSoup def fun(path): ...
打造IP代理池，Python爬取Boss直聘，帮你获取全国各类职业薪酬榜
爬虫面临的问题不再是单纯的数据一把抓多数的网站还是请求来了,一把将所有数据塞进去返回,但现在更多的网站使用数据的异步加载,爬虫不再像之前那么方便很多人说js异步加载与数据解析,爬虫可以做到啊,恩 ...
Python爬取Boss直聘，帮你获取全国各类职业薪酬榜
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 王翔清风Python PS:如有需要Python学习资料的小伙伴 ...
scrapy爬取boss直聘实习生数据
这个..是我最近想找实习单位..结果发现boss上很多实习单位名字就叫‘实习生’.......太不讲究了 == 难怪一直搜不到..咳,其实是我自己水平有限,有些简历根本就投不出去 == 所以就想爬下b ...
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...
python3 爬取汽车之家所有车型数据操作步骤（更新版）
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
scrapy——7 scrapy-redis分布式爬虫，用药助手实战，Boss直聘实战，阿布云代理设置
scrapy——7 什么是scrapy-redis 怎么安装scrapy-redis scrapy-redis常用配置文件 scrapy-redis键名介绍实战-利用scrapy-redis分布式爬 ...

随机推荐

tomcat7支持https配置
基本环境:centos7.0 jdk1.8 tomcat7 1.下载tomcat,解压到指定目录例如:/home/test/apache-tomcat-7.0.81 2.生成证书首先进入J ...
对图片进行索引，存入数据库sqlite3中，实现快速搜索打开
对图片进行索引,存入数据库中,实现快速搜索打开这个任务分为两步: 第一步:建立索引 import os import shutil import sqlite3 # 扫描函数,需扫描路径目录处 ...
【SQL】面面俱到 | 在SQL中使用CUBE和ROLLUP实现数据多维汇总
偶然在网上看到一篇文章,讲到数据汇总,提到了CUBE,感觉有些晦涩,想试着自己表述一下.同时,个人也认为CUBE还是很有用的,对SQL或数据分析感兴趣的小伙伴不妨了解一下,或许有用呢! 先设定个需求, ...
Java语言编程 - 搭建Java开发环境
2.1 JDK.JRE和JVM关系要弄清楚JDK.JRE和JVM这三者之间的关系,先看如下图,有个感性的认识: JDK:Java Development ToolKit(Java开发工具包).JDK ...
spring boot sharding-jdbc实现分佈式读写分离和分库分表的实现
分布式读写分离和分库分表采用sharding-jdbc实现. sharding-jdbc是当当网推出的一款读写分离实现插件,其他的还有mycat,或者纯粹的Aop代码控制实现. 接下面用spring ...
Unity 用ml-agents机器学习造个游戏AI吧(1)(Windows环境配置)
前言:以前觉得机器学习要应用于游戏AI,还远得很. 最近看到一些资料后,突发兴致试着玩了玩Unity机器学习,才发觉机器学习占领游戏AI的可能性和趋势. Unity训练可爱柯基犬Puppo 机器学习训 ...
什么是TensorBoard？
前言只有光头才能变强. 文本已收录至我的GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3y 回顾前面: 从零开始学TensorFlow[01-搭 ...
SAP MM Storage Location Missing in MD04 Result?
SAP MM Storage Location Missing in MD04 Result? Today I received a ticket from business team, a user ...
第一章渲染调度来龙去脉——插入自己的shader
总有人会问,这个或者那个功能怎么弄,或者看到别人做了什么酷炫的效果也想仿造.其实,功能的实现无非两种: 1.调用Cesium现有的API组合实现:往往照猫画虎,还存在性能不过关的问题,绕了半天其实终究 ...
openlayers4 入门开发系列之地图标绘篇（附源码下载）
前言 openlayers4 官网的 api 文档介绍地址 openlayers4 api,里面详细的介绍 openlayers4 各个类的介绍,还有就是在线例子:openlayers4 官网在线例子 ...

python3 爬取boss直聘职业分类数据(未完成)

python3 爬取boss直聘职业分类数据(未完成)的更多相关文章

随机推荐

热门专题