利用python在windows环境下爬取赶集网工作信息。

主要用到了多进程和多线程的知识，最后结果保存成csv文件格式，如有需要可改成数据库版本。

对用到的库做下简要介绍，具体请参考官方文档：

xpinyin.Pinyin：将输入的中文转成拼音
concurrent.futures.ProcessPoolExecutor:多进程
concurrent.futures.ThreadPoolExecutor：多线程

# -*- coding: utf-8 -*-

# @Author: Studog

# @Date: 2017/5/24 9:27

import requests

import lxml.html as HTML

import csv

from xpinyin import Pinyin

import os

import concurrent.futures

class GanjiSpider(object):

    def __init__(self):

        self.city = input("请输入城市名:\n")

        p = Pinyin()

        city_name = p.get_initials(self.city, '').lower()

        self.url = 'http://{0}.ganji.com/v/zhaopinxinxi/p1/'.format(city_name)

        self.save_path = r'E:\data\ganji.csv'

        file_dir = os.path.split(self.save_path)[0]

        if not os.path.isdir(file_dir):

            os.makedirs(file_dir)

        if not os.path.exists(self.save_path):

            os.system(r'echo >  %s' % self.save_path)

    def get_job(self):

        flag = True

        with open(self.save_path, 'w', newline='') as f:

            writer = csv.writer(f)

            writer.writerow(['职位名称', '月薪', '最低学历', '工作经验', '年龄', '招聘人数','工作地点'])

        while flag:

            html = HTML.fromstring(requests.get(self.url).text)

            content = html.xpath("//li[@class='fieldulli']/a/@href")

            next_page = html.xpath("//li/a[@class='next']/@href")

            with concurrent.futures.ProcessPoolExecutor() as executor:

                executor.map(self.get_url, content)

            if next_page:

                self.url = next_page[0]

            else:

                flag = False

    def get_url(self, html_page):

        html = HTML.fromstring(requests.get(html_page).text)

        job_list = html.xpath("//dl[@class='job-list clearfix']/dt/a/@href")

        with concurrent.futures.ThreadPoolExecutor() as executor:

            executor.map(self.get_info, job_list)

    def get_info(self, job_url):

            html = HTML.fromstring(requests.get(job_url).text)

            name = html.xpath("//li[@class='fl']/em/a/text()")

            info = html.xpath("//li[@class='fl']/em/text()")[1:]

            address = html.xpath(("//li[@class='fl w-auto']/em//text()"))

            if name and len(info) == 5 and address:

                info[2] = info[2].strip()

                address[2] = address[2].strip()

                address = ''.join(address)

                info.append(address)

                name.extend(info)

                print(name)

                with open(self.save_path, 'a', newline='') as f:

                    writer = csv.writer(f)

                    writer.writerow(name)

if __name__ == '__main__':

    gj = GanjiSpider()

    gj.get_job()

利用python在windows环境下爬取赶集网工作信息。的更多相关文章

Python 爬取赶集网租房信息
代码已久,有可能需要调整 #coding:utf-8 from bs4 import BeautifulSoup #有这个bs4不用正则也可以定位要爬取的内容了 from urlparse impor ...
Python爬虫基础--分布式爬取贝壳网房屋信息(Client)
1. client_code01 2. client_code02 3. 这个时候运行多个client就可以分布式进行数据爬取.
Python爬虫基础--分布式爬取贝壳网房屋信息(Server)
1. server_code01 2. server_code02 3. server_code03
利用Python编写Windows恶意代码！自娱自乐！勿用于非法用途！
本文主要展示的是通过使用python和PyInstaller来构建恶意软件的一些poc. 利用Python编写Windows恶意代码!自娱自乐!勿用于非法用途!众所周知的,恶意软件如果影响到了他人的生 ...
如何利用Xpath抓取京东网商品信息
前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~ HTML文件其实就是由一组尖括号构成的 ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
python 基于windows环境的ftp功能
描述: 1.基于备份服务器部署的py程序,将需要备份主机目录下的内容下载至备份服务器(服务端和远端都是windows server 2008) 2.py程序部署在windows服务器,后台运行,基于b ...
python添加Windows环境变量
1.cmd中添加方式 SET PATH=%PATH%;c:\Program Files (x86)\Wireshark 注:如上代码添加c:\Program Files (x86)\Wireshark ...

随机推荐

[PHP]对象数组和普通数组总结
1.碰到前台将JSON格式数据传递到服务器后台,经php的json_decode函数转换成的数组由于为对象数组,php程序无法对数据进行正常处理的情况,为此需要开发一个PHP回调函数(objarray ...
& 和nohup使用
" & "的使用将工作丢到背景(这里指的背景并非是系统的背景,指的是在终端模式下,可以避免ctrl+c中断的一个情景)中去执行(但是如果终端关闭时,程序也就退出了,这时 ...
php-fpm 进程在云服务器cpu分配不均匀
8核的云服务器,开了200个php-fpm进程,用top命令查看大部分进程都在cpu 0 上跑着,导致其他cpu 负载很低,cpu分配不均匀: 使用shell 解决问题: 列出所有php-fpm ...
乐蜂网SALES倒计时原码展示
这是一个基于jquey写的倒计时.当然代码有点小改动,只是改了一下展示效果. 在静态页添加显示倒计时的容器,并引用下面脚本,代入时间参数即可使用. timeoutDate——到期时间,时间格式为201 ...
maven课程项目管理利器-maven 3-3 maven中的坐标和仓库
本节主要讲了两大方面: 1 maven坐标 1.0 构件定义任何依赖,插件,项目构建输出都称之为构件. 1.1 maven坐标概念 groupid 公司或组织的域名倒序+当前项目名称 artif ...
jQuery的下拉框应用
jQuery的下拉框应用 jQuery的下拉框左右选择应用直接上代码 <!DOCTYPE html> <html> <head> <meta charset ...
[原创]在Debian9上配置NAS
序言此教程安装的都是最新版本的.由于是当NAS让它非常稳定的运行,所以能不安装的软件尽量不要安装. 一.准备工作 1. 更新系统没啥,就他喵想用个最新的. apt update && ...
zabbix web端有数据但是没有图形
zabbix web端有数据但是没有图形我遇到的情况是,在配置 zabbix 网站目录时,修改了zabbix 目录的所有者和所属组,以使得 zabbix/conf/zabbix.conf.php 文 ...
压力测试工具ab的使用
ab是Apache自带的HTTP压力测试工具,全称是ApacheBench 路径为\Apache\bin\ab.exe 参数文档: http://httpd.apache.org/docs/2.2/p ...
Linux学习_按时间顺序解压多个文件，搜索文件中的内容
ls的结果按时间数据先排序,再取末尾5个文件,再调用tar命令 ls -1 | sort -u | tail -5 |xargs -n1 tar xzvf 利用grep命令从文件中搜索. grep - ...

利用python在windows环境下爬取赶集网工作信息。

利用python在windows环境下爬取赶集网工作信息。的更多相关文章

随机推荐

热门专题