python爬虫实战之爬取智联职位信息和博客文章信息

1.python爬取招聘信息

简单爬取智联招聘职位信息

# ！/usr/bin/env python

# -*-coding:utf-8-*-

"""

@Author  : xiaofeng

@Time    : 2018/12/18 16:31

@Desc : Less interests,More interest. (爬取智联招聘职位数据)

@Project : python_appliction

@FileName: zhilianzhaopin.py

@Software: PyCharm

@Blog    ：https://blog.csdn.net/zwx19921215

"""

import pymysql as db

import requests

# mysql配置信息

mysql_config = {

    'host': '101.0.2.110',

    'user': 'test',

    'password': 'test',

    'database': 'xiaofeng',

    'charset': 'utf8'

}

# url

url = 'https://data.highpin.cn/api/JobSearch/Search'

"""

爬取智联招聘职位数据

@:param page 页码

@:param position 职位关键字

"""

def zhilian(page, position):

    # 封装头信息

    headers = {

        'Referer': 'https://www.highpin.cn/zhiwei/',

        'Origin': 'https://www.highpin.cn',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

        'Accept': 'application/json, text/javascript, * / *; q=0.01',

    }

    # 表单信息

    datas = {

        'Q': position,

        'pageIndex': page

    }

    resp = requests.post(url, data=datas, headers=headers)

    result = resp.json()

    return result

"""

控制台输出

"""

def print_data(result):

    body = result['body']['JobList']

    print(body)

"""

数据入库

"""

def insert(result):

    print("insert......")

    database = db.connect(**mysql_config)

    for item in result:

        print(item)

        sql = "INSERT INTO zhilian(JobID,JobTitle,ReferrerType,CompanyName,AnnualSalaryMin," \

              "AnnualSalaryMax,JobLactionStr,JobLactionID,JobTags\

        ,JobDegree,JobDegreeId,WorkExperience,WorkExperienceID,CompanyIndustry,CompanyIndustryID," \

              "CompanyType,CompanyTypeID,PublishDate,CompanyScale,SalaryWhite) \

              VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"

        # list convert to str

        JobLactionID = str(item['JobLactionID'])

        CompanyIndustryID = str(item['CompanyIndustryID'])

        if 'JobTags' in item:

            JobTags = str(item['JobTags'])

        else:

            JobTags = ''

        cursor = database.cursor()

        cursor.execute(sql, (

            item['JobID'], item['JobTitle'], item['ReferrerType'], item['CompanyName'], item['AnnualSalaryMin'],

            item['AnnualSalaryMax'],

            item['JobLactionStr'], JobLactionID, JobTags, item['JobDegree'], item['JobDegreeId'],

            item['WorkExperience'],

            item['WorkExperienceID'], item['CompanyIndustry'], CompanyIndustryID, item['CompanyType'],

            item['CompanyTypeID'], item['PublishDate'], item['CompanyScale'], item['SalaryWhite']))

        database.commit()

        cursor.close()

    database.close()

def main(position):

    result = zhilian(1, position)

    page_count = result['body']['PageCount']

    print("---------------共", page_count, "页-------------")

    page = 1

    while page <= page_count:

        print('----------------第', page, '页-----------------')

        result = zhilian(page, position)

        # print_data(result)

        body = result['body']['JobList']

        insert(body)

        page = page + 1

if __name__ == '__main__':

    main('java')

控制台输出信息

入库数据

2.python爬取csdn博客文章

python简单爬取csdn博客文章列表（仅供学习）

步骤：

1.分页获取博客url

2.解析html 获取指定信息

# ！/usr/bin/env python

# -*-coding:utf-8-*-

"""

@Author  : xiaofeng

@Time    : 2018/12/20 11:30

@Desc : Less interests,More interest.（爬取csdn博客文章列表）

@Project : python_appliction

@FileName: csdn.py

@Software: PyCharm

@Blog    ：https://blog.csdn.net/zwx19921215

"""

import requests

from lxml import html

# 声明头信息

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

}

"""

解析html，获取相关数据

@:param url 网页路径

"""

def parse_html(url):

    response = requests.get(url=url, headers=headers)

    text = html.fromstring(response.text)

    hrefs = text.xpath('//h4/a/@href')

    title = text.xpath('//h4/a/text()')

    """

    文章摘要、发布日期、阅读数、评论数等其余属性自行按需获取即可

    """

    # 移出第一个元素链接，不知道为啥 csdn 博客默认都多了一条数据，也就多了一个链接

    hrefs.pop(0)

    titles = []

    # 格式化标题

    for item in title:

        st = str(item).replace('\n', '').strip()

        if st != '':

            titles.append(st)

    # 组合输出

    # 移出第一个元素，不知道为啥 csdn 博客默认都多了一条数据 “帝都的凛冬”

    titles.pop(0)

    i = 0

    for item in titles:

        results = {

            '标题': titles[i],

            '链接': hrefs[i]

        }

        i = i + 1

        print(results)

"""

自动判断页数

@:param page_url 页面路径

@:param page 页号

"""

def get_page(page_url, page):

    url = page_url + str(page)

    print('url=', url)

    response = requests.get(url=url, headers=headers)

    text = html.fromstring(response.text)

    next_page = text.xpath(

        '//div[@class="ui-paging-container"]/ul/li[@class="js-page-next js-page-action ui-pager"]/text()')

    if next_page:

        parse_html(url)

        page = page + 1

        get_page(page_url, page)

    else:

        return -1

"""

分页爬取相关数据

@:param page_url 页面路径

@:param page 页号

"""

def get_page2(page_url, page):

    url = page_url + str(page)

    while page <= 10:

        print('\n')

        print("----------------------第", page, "页--------------------")

        print('url=', url)

        print('\n')

        parse_html(url)

        page = page + 1

        url = page_url + str(page)

if __name__ == '__main__':

    page_url = 'https://blog.csdn.net/zwx19921215/article/list/'

    get_page2(page_url, 1)

希望能帮到你们，最后分享一些小福利

链接：https://pan.baidu.com/s/1sMxwTn7P2lhvzvWRwBjFrQ

提取码：kt2v

链接容易被举报过期，如果失效了就在这里领取吧

python爬虫实战之爬取智联职位信息和博客文章信息的更多相关文章

Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
python爬虫实战（五）--------智联招聘网
前些天帮同事爬取一些智联招聘网上的关于数据分析的职位信息,他说要做一些数据分析看看,现在已经帮他爬完了.我本来想用Scrapy来爬的,但是不知道为什么爬取的数据和真实搜到的数据不太一样,比如:搜索到的 ...
Python爬虫实战：爬取腾讯视频的评论
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...
原创:Python爬虫实战之爬取美女照片
这个素材是出自小甲鱼的python教程,但源码全部是我原创的,所以,猥琐的不是我注:没有用header(总会报错),暂时不会正则表达式(马上要学了),以下代码可能些许混乱,不过效果还是可以的. 爬虫 ...

随机推荐

Synchronized锁机制和ReentrantLock
Synchronized Java中的每个对象都可以作为锁. 普通同步方法,锁是当前实例对象. 静态同步方法,锁是当前类的class对象. 同步代码块,锁是括号中的对象. 锁的内部机制一般锁有4种状 ...
ES6规范及语法基础
var的特点函数作用域 let的特点没有变量提升,必须先声明.再调用同一个作用域下不可以重复定义同一个名称块级作用域 function fun(){ let a = 10 if(true){ ...
Linux（Ubuntu）与windows实现文件共享
步骤:1.从网上下载VMware和Ubuntu的镜像文件 2.在虚拟机上安装Ubuntu系统 3.在安装好的系统中安装VMware tools 实现文件共享 4.在VMware中设置与windo ...
Codeforces Round #629 (Div. 3)
A. Divisibility Problem time limit per test 1 second memory limit per test 256 megabytes input stand ...
1519: 【USACO】超级书架
1519: [USACO]超级书架时间限制: 1 Sec 内存限制: 64 MB 提交: 1735 解决: 891 [提交] [状态] [讨论版] [命题人:外部导入] 题目描述 Farmer Jo ...
VUE一款适用于pc平台的简单toast
新项目要求用typescript+vue+elementui的模式来搭建pc项目,最初踩了好多坑.产品说提示不想用element-ui的提示. 打算用toast的形式.所以就自己写了一个pc的toas ...
MTK Android 读取SIM卡参数，获取sim卡运营商信息
android 获取sim卡运营商信息(转) TelephonyManager tm = (TelephonyManager)Context.getSystemService(Context.TE ...
Flask 入门（十二）
Blueprint ,听说过么? 那必须的啊!但它是干嗒的?也不难理解! 如果你的项目是一个公司,Blueprint就是治理你的公司的没有Blueprint,你的公司除了老板就是员公有了Bluep ...
Python 1基础语法四(数字类型、输入输出汇总和命令行参数)
一.数字(Number)类型 python中数字有四种类型:整数.布尔型.浮点数和复数. int (整数), 如 1, 只有一种整数类型 int,表示为长整型,没有 python2 中的 Long. ...
Python爬虫系列（四）：Beautiful Soup解析HTML之把HTML转成Python对象
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页.今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析. (牛小妹在学校折腾了好几天,也没把h ...

python爬虫实战之爬取智联职位信息和博客文章信息

1.python爬取招聘信息

2.python爬取csdn博客文章

python爬虫实战之爬取智联职位信息和博客文章信息的更多相关文章

随机推荐

热门专题