#!/user/bin/env python3
# -*- coding: utf-8 -*-
import requests
from lxml import etree
from math import ceil
from mongodb_config import mongo_info

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 '
                  'Safari/537.36'}

# 获取岗位页数
def getJobPage(url):
    res = requests.get(url, headers=header)
    html = etree.HTML(res.text)
    total = html.xpath('//div[@class="left"]/span/text()')[0]
    job_page = ceil(int(total) / 10)
    return job_page

# 获取详情页职位描述
def getJobOrder(url):
    # url = 'https://hr.tencent.com/position_detail.php?id=49256&keywords=&tid=0&lid=0'
    res = requests.get(url, headers=header)
    html = etree.HTML(res.text)
    detail_info = html.xpath('//table[@class="tablelist textl"]')
    for item in detail_info:
        # 工作职责
        job_request = item.xpath('tr[3]//ul[@class="squareli"]/li/text()')
        # 工作要求
        job_order = item.xpath('tr[4]/td/ul[@class="squareli"]/li/text()')
        # print(job_request)
        # print(job_order)
        list_data = [job_request, job_order]
        return list_data

# 获取列表页岗位信息
def getJobInfo(url):
    res = requests.get(url, headers=header)
    html = etree.HTML(res.text)
    job_list = html.xpath('//tr[@class="even" or @class="odd"]')
    list_data = []
    href = 'https://hr.tencent.com/'
    for list_job in job_list:
        dict_item = {}
        # print(etree.tostring(list_job, encoding='utf-8').decode('utf-8'))
        detail_url = href + list_job.xpath('.//a/@href')[0]
        job_name = list_job.xpath('.//td[1]/a/text()')[0]
        job_type = list_job.xpath('.//td[2]/text()')[0]
        job_people = list_job.xpath('.//td[3]/text()')[0]
        job_addre = list_job.xpath('.//td[4]/text()')[0]
        job_time = list_job.xpath('.//td[5]/text()')[0]
        # 工作职责
        job_request = getJobOrder(detail_url)[0]
        # 工作要求
        job_order = getJobOrder(detail_url)[1]

        dict_item['detail_url'] = detail_url
        dict_item['job_name'] = job_name
        dict_item['job_type'] = job_type
        dict_item['job_people'] = job_people
        dict_item['job_addre'] = job_addre
        dict_item['job_time'] = job_time
        dict_item['job_request'] = job_request
        dict_item['job_order'] = job_order
        list_data.append(dict_item)
    mongo_info.update_tencent(list_data)
    print(list_data)

if __name__ == '__main__':
    mainurl = 'https://hr.tencent.com/position.php?&start=0#a'
    jobPage = getJobPage(mainurl)
    for page in range(jobPage):
        pageUrl = 'https://hr.tencent.com/position.php?&start=' + str(page * 10) + '#a'
        print("第" + str(page + 1) + "页")
        getJobInfo(pageUrl)
    # getJobOrder()
#!/user/bin/env python3
# -*- coding: utf-8 -*-
from pymongo import MongoClient

class Connect_mongo(object):
    def __init__(self):
        # 无密码认证使用该代码
        # self.client = MongoClient(host='127.0.0.1', port=27017)
        # self.client = MongoClient(host='192.168.1.191', port=27017)
        # 有密码认证使用该代码
        self.client = MongoClient(host='127.0.0.1', port=27017)
        # self.client = MongoClient(host='192.168.1.193', port=27017)
        # 数据库名loan
        self.database = self.client.loan
        self.tencent_database = self.client.tencent
        # 认证用户密码
        self.dbinfo = self.database.authenticate('xxx', 'xxxx')
        self.tencent_dbinfo = self.tencent_database.authenticate('xxx', 'xxx')

    # 无密码认证
    # 查询全部产品名
    def find_all_name(self):
        _database = self.client.loan
        _collection = _database.loan_datase_sums
        loan_name = _collection.find({}, {'_id': 0, 'loan_name': 1})
        return loan_name

    # 去重查询
    def find_distinct_name(self):
        _database = self.client.loan
        _collection = _database.loan_datase_sums
        loan_name = _collection.distinct('loan_name')
        return loan_name

    def update_data(self, document):
        _client = self.client
        _database = self.database
        self.dbinfo
        _collection = _database.loan_datase_sums
        for res in document:
            result = _collection.update_many({'loan_name': res['loan_name']}, {'$set': res}, upsert=True)
        return result

    def update_rong360(self, document):
        _client = self.client
        _database = self.database
        self.dbinfo
        _collection = _database.rong360
        for res in document:
            result = _collection.update_many({'loan_name': res['loan_name']}, {'$set': res}, upsert=True)
        return result

    def update_tencent(self, document):
        _client = self.client
        _database = self.tencent_database
        self.tencent_dbinfo
        _collection = _database.advertise_datase
        for res in document:
            result = _collection.update_many({'job_name': res['job_name']}, {'$set': res}, upsert=True)
        return result

mongo_info = Connect_mongo()

腾讯招聘网数据爬取存入mongodb的更多相关文章

  1. Scrapy实现腾讯招聘网信息爬取【Python】

    一.腾讯招聘网 二.代码实现 1.spider爬虫 # -*- coding: utf-8 -*- import scrapy from Tencent.items import TencentIte ...

  2. Python爬虫入门教程 3-100 美空网数据爬取

    美空网数据----简介 从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...

  3. 人人贷网的数据爬取(利用python包selenium)

    记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合网上各种相关资料,改善一下别人代码,并能实现数据代码爬取,具体请看我之前的博客:http://www.cnblogs.com/Yiutto/p/5 ...

  4. 爬虫1.5-ajax数据爬取

    目录 爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码 爬虫-ajax数据爬取 ...

  5. 基于 PHP 的数据爬取(QueryList)

    基于PHP的数据爬取 官方网站站点 简单. 灵活.强大的PHP采集工具,让采集更简单一点. 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式:QueryList具有j ...

  6. 移动端数据爬取和Scrapy框架

    移动端数据爬取 注:抓包工具:青花瓷 1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port a. Fiddler设置 打开Fiddler软 ...

  7. 小爬爬5:重点回顾&&移动端数据爬取1

    1. ()什么是selenium - 基于浏览器自动化的一个模块 ()在爬虫中为什么使用selenium及其和爬虫之间的关联 - 可以便捷的获取动态加载的数据 - 实现模拟登陆 ()列举常见的sele ...

  8. Web Scraper——轻量数据爬取利器

    日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据. 当我们着手准备收集数据时,面对低效的复制黏贴工作,一 ...

  9. python实现人人网用户数据爬取及简单分析

    这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据( ...

随机推荐

  1. django-1-应用开发基本套路

    Django 开发基本流程 创建项目 创建应用 修改配置文件 设计数据模型 后台管理注册 编写业务视图 编写模板文件 设置URL 访问测试/调试 部署上线 创建项目 django-admin star ...

  2. mysql 5.7版本如何修改密码

    这是官方截图,mysql5.7安装后,会有一个默认密码,保存在mysql.log里面,找的他,并更改 官方文档地址 https://dev.mysql.com/doc/refman/5.7/en/li ...

  3. Sendip 命令行发包工具,支持IP、TCP、UDP等

    Sendip是一个linux平台的命令行发数据包工具,目前(2018年2月)支持的协议有ipv4.ipv6.icmp.tcp.udp.bgp.rip.ntp,作者表示其他协议将会后面支持,当他有空写的 ...

  4. linux虚拟机最优测试环境搭建

    目标:创建一个最优的linux虚拟机环境 环境:vmware12.0 系统:centos6.5 (* 以下配置是建立在配置完成基础网络环境后创建的,用static静态IP地址) 1.关闭selinux ...

  5. matlab中换行

    若在命令窗口中,如果一条语句已经写完,需要换行,可以用"Shift+Enter", 如果一条语句没写完就想换行,可以使用"...+Enter".

  6. mysql数据库 BETWEEN 语法的用法和边界值解析

    between用法: 用于where表达式中,选取两个值之间的数据,如: SELECT id FROM user WHERE id BETWEEN value1 AND value2; 当betwee ...

  7. URI和URL有什么区别

    URI 是从虚拟根路径开始的URL是整个链接如URL http://zhidao.baidu.com/question/68016373.html URI 是/question/68016373.ht ...

  8. MySQL30条规范解读

    转载自:https://mp.weixin.qq.com/s?__biz=MjM5ODYxMDA5OQ==&mid=2651959906&idx=1&sn=2cbdc66cfb ...

  9. Codeforces Round #431 (Div. 2)

    A. Odds and Ends Where do odds begin, and where do they end? Where does hope emerge, and will they e ...

  10. react开发环境准备

    使用reactjs,我们有两种方式 一种是通过script标签引入reactjs,这是一种比较古老的编码方式了, 如果我们的项目比较大,你会对项目js进行拆分,然后页面就会通过script标签加载很多 ...