Python_爬虫项目

1、爬虫——智联招聘信息搜集原文链接

  1 #-*- coding: utf-8 -*-

  2 import re

  3 import csv

  4 import requests

  5 from tqdm import tqdm

  6 from urllib.parse import urlencode

  7 from requests.exceptions import RequestException

  8

  9 def get_one_page(city, keyword, region, page):

 10     '''

 11     获取网页html内容并返回

 12     '''

 13     paras = {

 14         'jl': city,         # 搜索城市

 15         'kw': keyword,      # 搜索关键词

 16         'isadv': 0,         # 是否打开更详细搜索选项

 17         'isfilter': 1,      # 是否对结果过滤

 18         'p': page,          # 页数

 19         're': region        # region的缩写，地区，2005代表海淀

 20     }

 21

 22     headers = {

 23         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

 24         'Host': 'sou.zhaopin.com',

 25         'Referer': 'https://www.zhaopin.com/',

 26         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

 27         'Accept-Encoding': 'gzip, deflate, br',

 28         'Accept-Language': 'zh-CN,zh;q=0.9'

 29     }

 30

 31     url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' + urlencode(paras)

 32     try:

 33         # 获取网页内容，返回html数据

 34         response = requests.get(url, headers=headers)

 35         # 通过状态码判断是否获取成功

 36         if response.status_code == 200:

 37             return response.text

 38         return None

 39     except RequestException as e:

 40         return None

 41

 42 def parse_one_page(html):

 43     '''

 44     解析HTML代码，提取有用信息并返回

 45     '''

 46     # 正则表达式进行解析

 47     pattern = re.compile('<a style=.*? target="_blank">(.*?)</a>.*?'        # 匹配职位信息

 48         '<td class="gsmc"><a href="(.*?)" target="_blank">(.*?)</a>.*?'     # 匹配公司网址和公司名称

 49         '<td class="zwyx">(.*?)</td>', re.S)                                # 匹配月薪

 50

 51     # 匹配所有符合条件的内容

 52     items = re.findall(pattern, html)

 53

 54     for item in items:

 55         job_name = item[0]

 56         job_name = job_name.replace('<b>', '')

 57         job_name = job_name.replace('</b>', '')

 58         yield {

 59             'job': job_name,

 60             'website': item[1],

 61             'company': item[2],

 62             'salary': item[3]

 63         }

 64

 65 def write_csv_file(path, headers, rows):

 66     '''

 67     将表头和行写入csv文件

 68     '''

 69     # 加入encoding防止中文写入报错

 70     # newline参数防止每写入一行都多一个空行

 71     with open(path, 'a', encoding='gb18030', newline='') as f:

 72         f_csv = csv.DictWriter(f, headers)

 73         f_csv.writeheader()

 74         f_csv.writerows(rows)

 75

 76 def write_csv_headers(path, headers):

 77     '''

 78     写入表头

 79     '''

 80     with open(path, 'a', encoding='gb18030', newline='') as f:

 81         f_csv = csv.DictWriter(f, headers)

 82         f_csv.writeheader()

 83

 84 def write_csv_rows(path, headers, rows):

 85     '''

 86     写入行

 87     '''

 88     with open(path, 'a', encoding='gb18030', newline='') as f:

 89         f_csv = csv.DictWriter(f, headers)

 90         f_csv.writerows(rows)

 91

 92 def main(city, keyword, region, pages):

 93     '''

 94     主函数

 95     '''

 96     filename = 'zl_' + city + '_' + keyword + '.csv'

 97     headers = ['job', 'website', 'company', 'salary']

 98     write_csv_headers(filename, headers)

 99     for i in tqdm(range(pages)):

100         '''

101         获取该页中所有职位信息，写入csv文件

102         '''

103         jobs = []

104         html = get_one_page(city, keyword, region, i)

105         items = parse_one_page(html)

106         for item in items:

107             jobs.append(item)

108         write_csv_rows(filename, headers, jobs)

109

110 if __name__ == '__main__':

111     main('北京', 'python',2005  , 10)

智联招聘Python岗位信息搜集

Python_爬虫项目的更多相关文章

基于webmagic的爬虫项目经验小结
大概在1个月前,利用webmagic做了一个爬虫项目,下面是该项目的一些个人心得,贴在这里备份: 一.为什么选择webmagic? 说实话,开源的爬虫框架已经很多了,有各种语言(比如:python.j ...
实用的开源百度云分享爬虫项目yunshare - 安装篇
今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare. 百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫 ...
推荐几个优秀的java爬虫项目
java爬虫项目大型的: Nutch apache/nutch · GitHub 适合做搜索引擎,分布式爬虫是其中一个功能. Heritrix internetarchive/heritrix3 ...
Python即时网络爬虫项目启动说明
作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作 ...
在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
C语言Linix服务器网络爬虫项目（二）项目设计和通过一个http请求抓取网页的简单实现
我们通过上一篇了解了爬虫具体要实现的工作之后,我们分析得出的网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出 ...
C语言Linix服务器网络爬虫项目（一）项目初衷和网络爬虫概述
一.项目初衷和爬虫概述 1.项目初衷本人的大学毕设就是linux上用c写的一个爬虫,现在我想把它完善起来,让他像一个企业级别的项目.为了重复发明轮子来学习轮子的原理,我们不使用第三方框架(这里是说的 ...

随机推荐

composer慢设置阿里云镜像
composer config -g repo.packagist composer https://mirrors.aliyun.com/composer
手写Redux-Saga源码
上一篇文章我们分析了Redux-Thunk的源码,可以看到他的代码非常简单,只是让dispatch可以处理函数类型的action,其作者也承认对于复杂场景,Redux-Thunk并不适用,还推荐了Re ...
StringUtils工具类(Apache lang3 )
引入依赖 <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons- ...
在Vue中使用Echart图表库。【全网最简单】
使用npm安装echart npm install echarts --save 然后在使用的页面上直接import import echarts from "echarts"; ...
Django( 学习第四部 Django的views视)
目录视图层 JsonResponse对象 form表单之文件上传 request方法及属性 FBV与CBV JsonResponse对象前端序列化 JSON.stringify() json.du ...
[分享] 通过修改CSS自定义chrome滚动条样式
首先得说一句我不懂CSS的写法之类的这段CSS也是在网上找的所以有更先进的需求的话我肯定不能满足你们了不好意思效果图在10楼有人上了我这边不管怎么弄上传图片都卡在96% 而且不翻wall ...
文件中pe到内存中pe
前言学pe的时候被困扰了很久,终于在某处给我找到了,打算打出来读一读代码这边我们是从文件中的pe转到运行中的pe,然后再缩小存储到文件的pe 这边我们需要知道内存中对齐是0x1000,文件对齐是0 ...
java关键字之super
1.在子类的构造方法的第一条语句处调用其父类的构造方法: 如果父类提供了构造方法,并且父类不拥有无参构造方法,则要求子类拥有相同结构的构造方法.即,子类构造方法的参数个数和类型必须和父类的构造方法一致 ...
签到功能，用 MySQL 还是 Redis ？
现在的网站和app开发中,签到是一个很常见的功能,如微博签到送积分,签到排行榜. 如移动app ,签到送流量等活动. 用户签到是提高用户粘性的有效手段,用的好能事半功倍! 下面我们从技术方面看看常 ...
4g数据无线传输终端dtu
将串口数据转换为IP数据或将IP数据转换为串口数据并且进行传输的过程被称为数据透明传输,利用4G网络进行数据透明传输的设备被称为4G网络无线数据双向透明传输终端,也可以称为4G DTU,现在市面上大多 ...

Python_爬虫项目

Python_爬虫项目的更多相关文章

随机推荐

热门专题