Python 2.7 爬取51job 全国java岗位

一页有50条数据一共2000页分页是get分页

#!/usr/bin/python

# encoding: utf-8

import requests

import threading

from lxml import etree

import sys

import os

import datetime

import re

import random

import time

reload(sys)

sys.setdefaultencoding('utf-8')

# 定义写入日志的方法

def log(context):

    txtName = "./log/log.txt"

    f=file(txtName, "a+")

    f.writelines(context+"\n") 

    f.close()

def xin():

        # 请求头

        header = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

            'Accept-Encoding': 'gzip, deflate, br',

            'Accept-Language': 'zh-CN,zh;q=0.9'

        }

        count=1

           # 一共2000页

        while (count < 2000):

            url="https://search.51job.com/list/000000,000000,0000,00,9,99,java,2,"+str(count)+".html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="

            response=requests.get(url,headers=header)

            html=response.content.decode("gbk")

            print(html)

            selector=etree.HTML(html)

            contents = selector.xpath('//div[@class="dw_table"]/div[@class="el"]')

            log("第"+str(count)+"页了--"+str(len(contents))+"条数据")

            for eachlink in contents:

                    company = eachlink.xpath('span[@class="t2"]/a/text()')[0]

                    url= eachlink.xpath('p/span/a/@href')[0]

                    name= eachlink.xpath('p/span/a/text()')[0]

                    city= eachlink.xpath('span[@class="t3"]/text()')[0]

                    # 工资有的是没有的

                    key=""

                    if len(eachlink.xpath('span[@class="t4"]/text()'))<1:

                        key=""

                    else:

                        key= eachlink.xpath('span[@class="t4"]/text()')[0]

                    # 把空格去掉

                    company=company.replace(' ','')

                    name=name.replace(' ','')

                    city=city.replace(' ','')

                    zhi=name+"============="+company+"============="+city+"============="+str(key)+"============="+url

                    txtName = "./file/java.txt"

                    f=file(txtName, "a+")

                    f.write(zhi)

                    f.close()

            sui=random.randint(1,5)

            log("休眠"+str(sui))

            time.sleep(sui)

            count=count+1     

if __name__=="__main__":

    xin()

日志文件

爬去的数据

但是爬去的速度有点慢,

于是乎采用了多线程爬去,

但是51job 立刻就把IP段给封掉了,

于是用户4台服务器,每台爬取500条数据,最后再结合一起加到数据库中

人生苦短,我用Python!!!

Python 2.7 爬取51job 全国java岗位的更多相关文章

Python的scrapy之爬取51job网站的职位
今天老师讲解了Python中的爬虫框架--scrapy,然后带领我们做了一个小爬虫--爬取51job网的职位信息,并且保存到数据库中用的是Python3.6 pycharm编辑器爬虫主体: im ...
Python爬取51job实例
用Python爬取51job里面python相关职业.工作地址和薪资. 51job上的信息程序代码 from bs4 import BeautifulSoup from urllib.request ...
Java 爬取 51job 数据 WebMagic实现
Java 爬取 51job 数据一.项目Maven环境配置相关依赖 jar 包配置 <parent> <groupId>org.springframework.boot&l ...
Python 招聘信息爬取及可视化
自学python的大四狗发现校招招python的屈指可数,全是C++.Java.PHP,但看了下社招岗位还是有的.于是为了更加确定有多少可能找到工作,就用python写了个爬虫爬取招聘信息,数据处理, ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...

随机推荐

最最基本的SQL常用命令
2015-12-01 18:08:52 1.启动/关闭mysql 开始菜单搜索cmd,右击,以管理员身份运行,输入net start mysql启动mysql,输入net stop mysql关闭my ...
选择排序算法-python实现
#-*- coding: UTF-8 -*- import numpy as np def SelectSort(a): for i in xrange(0,a.size): min = a[i] p ...
简单服务端缓存API设计
Want 我们希望设计一套缓存API,适应不同的缓存产品,并且基于Spring框架完美集成应用开发. 本文旨在针对缓存产品定义一个轻量级的客户端访问框架,目标支持多种缓存产品,面向接口编程,目前支持简 ...
java代码---I/O文件内容复制
总结:主要是弄清输入流,输出流输入流和输出流都是针对程序而言,把文件内容读取到程序是输入流从程序把内容写入文件是输出流 package com.a.b; import java.io.*; imp ...
ActiveMQ之一--ActiveMQ入门
MQ的消费-生产者模型的一个典型的代表,一端往消息队列中不断的写入消息,而另一端则可以读取或者订阅队列中的消息.MQ和JMS类似,但不同的是JMS是SUN JAVA消息中间件服务的一个标准和API定义 ...
Linux route命令
route 命令 route命令用于显示和操作IP路由表.要实现两个不同的子网之间的通信,需要一台连接两个网络的路由器,或者同时位于两个网络的网关来实现.在Linux系统中,设置路由通常是为了解决以 ...
hsqldb简单使用总结
hsqldb数据库是一款纯Java实现的开源免费数据库,相对其他数据库来说,体积非常小,使用方便,非常利于在测试环境中使用,无需复杂的数据库配置. hsqldb数据库引擎有几种服务器模式:Se ...
5月17日上课笔记-js面向对象
二.js面向对象 js创建对象: var 对象名称 = new Object(); person.name = "小明"; //姓名 person.age = 18; person ...
关于v$BH
关于v$bh的相关字段值FILE# NUMBER Datafile identifier number (to find the filename, query DBA_DATA_FILES or V ...
Python2.x与Python3.x同时安装时，切换使用方法
Windows环境下允许同时安装Python2.x与Python3.x 一.在命令提示符下使用python2.x或者python3.x可以使用如下方法: 1.找到python的安装目录 2.重命名应用 ...

Python 2.7 爬取51job 全国java岗位

Python 2.7 爬取51job 全国java岗位的更多相关文章

随机推荐

热门专题