Python 2.7 爬取51job 全国java岗位

一页有50条数据一共2000页分页是get分页

#!/usr/bin/python

# encoding: utf-8

import requests

import threading

from lxml import etree

import sys

import os

import datetime

import re

import random

import time

reload(sys)

sys.setdefaultencoding('utf-8')

# 定义写入日志的方法

def log(context):

    txtName = "./log/log.txt"

    f=file(txtName, "a+")

    f.writelines(context+"\n") 

    f.close()

def xin():

        # 请求头

        header = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

            'Accept-Encoding': 'gzip, deflate, br',

            'Accept-Language': 'zh-CN,zh;q=0.9'

        }

        count=1

           # 一共2000页

        while (count < 2000):

            url="https://search.51job.com/list/000000,000000,0000,00,9,99,java,2,"+str(count)+".html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="

            response=requests.get(url,headers=header)

            html=response.content.decode("gbk")

            print(html)

            selector=etree.HTML(html)

            contents = selector.xpath('//div[@class="dw_table"]/div[@class="el"]')

            log("第"+str(count)+"页了--"+str(len(contents))+"条数据")

            for eachlink in contents:

                    company = eachlink.xpath('span[@class="t2"]/a/text()')[0]

                    url= eachlink.xpath('p/span/a/@href')[0]

                    name= eachlink.xpath('p/span/a/text()')[0]

                    city= eachlink.xpath('span[@class="t3"]/text()')[0]

                    # 工资有的是没有的

                    key=""

                    if len(eachlink.xpath('span[@class="t4"]/text()'))<1:

                        key=""

                    else:

                        key= eachlink.xpath('span[@class="t4"]/text()')[0]

                    # 把空格去掉

                    company=company.replace(' ','')

                    name=name.replace(' ','')

                    city=city.replace(' ','')

                    zhi=name+"============="+company+"============="+city+"============="+str(key)+"============="+url

                    txtName = "./file/java.txt"

                    f=file(txtName, "a+")

                    f.write(zhi)

                    f.close()

            sui=random.randint(1,5)

            log("休眠"+str(sui))

            time.sleep(sui)

            count=count+1     

if __name__=="__main__":

    xin()

日志文件

爬去的数据

但是爬去的速度有点慢,

于是乎采用了多线程爬去,

但是51job 立刻就把IP段给封掉了,

于是用户4台服务器,每台爬取500条数据,最后再结合一起加到数据库中

人生苦短,我用Python!!!

Python 2.7 爬取51job 全国java岗位的更多相关文章

Python的scrapy之爬取51job网站的职位
今天老师讲解了Python中的爬虫框架--scrapy,然后带领我们做了一个小爬虫--爬取51job网的职位信息,并且保存到数据库中用的是Python3.6 pycharm编辑器爬虫主体: im ...
Python爬取51job实例
用Python爬取51job里面python相关职业.工作地址和薪资. 51job上的信息程序代码 from bs4 import BeautifulSoup from urllib.request ...
Java 爬取 51job 数据 WebMagic实现
Java 爬取 51job 数据一.项目Maven环境配置相关依赖 jar 包配置 <parent> <groupId>org.springframework.boot&l ...
Python 招聘信息爬取及可视化
自学python的大四狗发现校招招python的屈指可数,全是C++.Java.PHP,但看了下社招岗位还是有的.于是为了更加确定有多少可能找到工作,就用python写了个爬虫爬取招聘信息,数据处理, ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...

随机推荐

orientdb 图数据库docker 安装试用
1. 镜像 docker pull orientdb 2. 启动 docker run -d --name orientdb -p 2424:2424 -p 2480:2480 -e ORIENTDB ...
TCP/IP概念简述
这里所说的是广义上的TCP/IP协议群,而不是特指TCP和IP这两种具体的协议.既然是协议群,那么都有哪些协议呢?我们先不着急回答这个问题,因为要弄清楚这个问题,首先得了解另两件事,就是为啥要有这个协 ...
Sql Server 2012 存储过程的调试
[一]Sql Server 关于存储过程调试SQL2000是在查询分析器中的对象浏览器中选中需要调试的存储过程,右键----调试---输入参数开始调试.sqlserver2008中则完全不同,变成了必 ...
配置Jar包及相关依赖Jar包的本地存放路径
配置Jar包及相关依赖Jar包的本地存放路径用 maven2 ,pom.xml中设置了依赖,会帮你下载所有依赖的.jar到 M2_REPO 指向的目录. M2_REPO是一个用来定义 maven 2 ...
hdu 1576 A/B（拓展欧几里得）
A/B Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submiss ...
解决jenkins产生的日志过大以及一些衍生问题
jenkins使用一段时间后,会导致出现比较大的日志问题,经常占满硬盘空间(因为我们使用的硬盘大小20G,无额外存储要求).在硬盘空间占满之后,会导致一些基本的命令都无法使用,譬如tab都 ...
Lamp 安装教程
Ubuntu 14.04 麒麟版安装:Apache+php5+mysql+phpmyadmin. LAMP是Linux web服务器组合套装的缩写,分别是Linux+Apache+MySQL+PHP. ...
node中express的中间件之methodOverride
methodOverride中间件必须结合bodyParser中间件一起使用,为bodyParser中间件提供伪HTTP方法支持. index.html代码: <!DOCTYPE html> ...
【洛谷】P2904 [USACO08MAR]跨河River Crossing（dp）
题目描述 Farmer John is herding his N cows (1 <= N <= 2,500) across the expanses of his farm when ...
Error: listen EACCES 0.0.0.0:8080 错误解决记录
live-server -- 热加载利器实现本地服务器,可及时刷新. 1.通过npm install -g live-server进行安装 2.npm init 初始化项目3.在所需要的文件夹内运行 ...

Python 2.7 爬取51job 全国java岗位

Python 2.7 爬取51job 全国java岗位的更多相关文章

随机推荐

热门专题