爬虫实现51job谁看过我的简历多条记录功能

默认情况下51job只能看到最近一条记录，查看更多记录需要付费。

本文利用爬虫定时抓取记录，并追加写入到文本的方式获取完整的记录信息。

import requests

from bs4 import BeautifulSoup

class www_51job_com(object):

    def __init__(self):

        self.url = "https://i.51job.com/userset/resume_browsed.php?lang=c"

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"

        }

        self.cookies = "替换你的cookie"

    def get_url(self,url):

        cookies_dict = {}

        for i in self.cookies.split("; "):

            cookies_dict[i.split("=")[0]] = i.split("=")[1]

        response = requests.get(url=url,headers=self.headers,cookies=cookies_dict)

        return response.content.decode('gbk')

    def soup(self,data):

        soup_data = BeautifulSoup(data,'lxml')

        company = soup_data.select("body > div.content > div.exrt > div.lmsg > div.e > div.txt > div.li.l1 > p > a")[0].get_text()

        care_time = soup_data.select("body > div.content > div.exrt > div.lmsg > div.e > div.txt > div.li.l3 > div.f12 > span")[0].get_text()

        return company +' '+ care_time

    def save_file(self,company_caretime):

        with open('www_51job_com.txt','a+',encoding='utf-8') as f:

            f.seek(0)

            lines = f.readlines()

            try:

                if lines[-1] != company_caretime+'\n':

                    f.write(company_caretime + '\n')

            except IndexError:

                    f.write(company_caretime+'\n')

    def run(self):

        response = self.get_url(self.url)

        result = self.soup(response)

        self.save_file(result)

if __name__ == '__main__':

    personal_center = www_51job_com()

    personal_center.run()

爬虫实现51job谁看过我的简历多条记录功能的更多相关文章

萝卜招聘网 http://www.it9s.com 可以发布免费下载简历求职，免费！免费！全部免费！找工作看过来免费下载简历 !
萝卜招聘网 http://www.it9s.com 可以发布免费下载简历求职 ,免费!免费!全部免费!找工作看过来免费下载简历 !萝卜招聘网 http://www.it9s.com 可以发布 ...
第三百六十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能
第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...
CSDN日报20170328——《你看那个人他像一条狗》
[程序人生]你看那个人他像一条狗作者:清纯的微笑今年三十了,到了传说中程序猿最应该迷茫的年龄了,那么我迷茫吗,没的说,依照华为34岁就要劝退的要求,我还有4年的程序生涯. [微信小程序]重磅!个人 ...
体验了把做HR的感觉，上午看了40份简历，说说感受
原文链接:http://huachichi.info/2013/06/26/experience-of-being-a-hr/ 这两天准备从IBM离职,不要问我为什么要在这么bug的时间离职,总之 ...
python爬虫-《笔趣看》网小说《悟空看私聊》
小编是个爱看小说的人,哈哈 # -*- coding:UTF-8 -*- ''' 类说明:下载<笔趣看>网小说<悟空看私聊> ''' from bs4 import Beaut ...
【Python3爬虫】网络小说更好看？十四万条书籍信息告诉你
一.前言简述因为最近微信读书出了网页版,加上自己也在闲暇的时候看了两本书,不禁好奇什么样的书更受欢迎,哪位作者又更受读者喜欢呢?话不多说,爬一下就能有个了解了. 二.页面分析首先打开微信读书:ht ...
看完知乎上500条答案，我为大家整理了这21个B站学习类UP主
原文之前发在我的知乎,转载请注明出处. 虽然,今天算法文章还没更新┏(゜ロ゜;)┛,但还是溜过来跑个题~ 之前看到了博客上有小伙伴在分享自己的B站资源,才突然意识到自己其实也积攒了很多优秀UP的资 ...
清空网站浏览记录就行啦？看Python如何实时监控网站浏览记录
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 需求: (1) 获取你对象chrome前一天的浏览记录中的所有网址(url ...
打开黑盒：从 MySQL架构设计出发，看它是如何执行一条 SQL语句的
1.把MySQL当个黑盒子一样执行SQL语句我们的系统采用数据库连接池的方式去并发访问数据库,然后数据库自己其实也会维护一个连接池,其中管理了各种系统跟这台数据库服务器建立的所有连接当我们的系统只 ...

随机推荐

vulkan asynchronous compute
https://www.youtube.com/watch?v=XOGIDMJThto https://www.khronos.org/assets/uploads/developers/librar ...
mybatis中foreach使用方法
作者:学无先后达者为先作者:偶尔记一下 foreach一共有三种类型,分别为List,[](array),Map三种. 下面表格是我总结的各个属性的用途和注意点. foreach属性属性描述 ...
Mysql数据库多对多关系未建新表
原则上,多对多关系是要新建一个关系表的,当遇到没有新建表的情况下如何查询多对多的SQL呢? FIND_IN_SET(str,strlist) 官网:http://dev.mysql.com/doc/r ...
SpringBoot 测试类 @RunWith & @SpringBootTest
@RunWith(SpringRunner.class) @SpringBootTest public class RabbitMqTest { @Autowired RabbitMqSender r ...
Multiism四阶巴特沃兹低通滤波器的仿真实现
因为4阶巴特沃兹低通滤波器比较简单,所以省略设计过程和思路以及不必要的废话. 设计的滤波器的性能:截止频率大约是500HKZ,Rs = Rl = 32 欧姆. 预估滤波器大致的幅频特性曲线如下: 最初 ...
c 判断一个字符是否为字母数字
#include <stdio.h> #include <wctype.h> int main () { int i; wchar_t str[] = L"c3po. ...
PHP反序列化学习
在理解这个漏洞前,你需要先搞清楚php中serialize(),unserialize()这两个函数. 序列化serialize() 序列化说通俗点就是把一个对象变成可以传输的字符串,比如下面是一个对 ...
HDU2795线段树入门简单查询和修改
http://acm.hdu.edu.cn/showproblem.php?pid=2795 #include<iostream> using namespace std; ; int h ...
mysql表的模糊查询
查询库下所有的表名 SELECT table_name FROM information_schema.tables WHERE table_schema='库名' 模糊表名查询 SELECT tab ...
Failed to execute aapt
Failed to execute aapt 没错,看到这个表示你的资源出错了.不用想别的. 比如: Failed to execute aapt com.android.ide.common.pro ...

爬虫实现51job谁看过我的简历多条记录功能

爬虫实现51job谁看过我的简历多条记录功能的更多相关文章

随机推荐

热门专题