爬取前尘无忧python职位信息并保存到mongo数据库

１．re实现

 import re,os

 import requests

 from requests.exceptions import RequestException

 MAX_PAGE = 10 #最大页数

 KEYWORD = 'python'

 headers = {

     'User-Agent':

         'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

 }

 file_name = 're_job51_python.txt'

 # 获取网页源码

 def getHtml(page):

     try:

         url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,{0},2,{1}.html?'.format(KEYWORD,page)

         response = requests.get(url,headers=headers)

         response.encoding = response.apparent_encoding

         return response.text

     except RequestException:

         print('请求出错')

         return None

 # 解析网页源码，得到目标信息

 def getTarget(html):

     reg = re.compile(

         r'class="t1 ">.*? <a target="_blank" '

         'title="(.*?)".*? <span class="t2"><a target="_blank" '

         'title="(.*?)".*?<span '

         'class="t3">(.*?)</span>.*?<span '

         'class="t4">(.*?)</span>.*? <span '

         'class="t5">(.*?)</span>',

         re.S)  # 匹配换行符

     target = re.findall(reg,html)

     return target

 # 保存到文本中

 def save_to_txt(item):

     with open(file_name,'a',newline='') as f:  # newline参数防止两行之间有空行

         for i in range(len(item)):

             # 最后一个元素换行，非最后则以＇,'隔开

             if i == len(item)-1:

                 f.write(item[i])

                 f.write('\n')

             else:

                 f.write(item[i]+',')

 def main():

     # 每次执行前检查文件是否存在，存在则删除

     if os.path.exists(file_name):

         os.remove(file_name)

     # 分页爬取

     for page in range(MAX_PAGE+1):

         html = getHtml(page)

         content = getTarget(html)

         for item in content:

             save_to_txt(item)

 if __name__ == '__main__':

     main()

２．xpath实现

 import os

 import requests

 from requests.exceptions import RequestException

 from lxml import etree

 import pymongo

 from spiders.前程无忧.mongo_config import *

 # mongo数据库设置

 client = pymongo.MongoClient(MONGO_URL)

 db = client[MONGO_DB]

 MAX_PAGE = 5

 KEYWORD = 'python'

 headers = {

     'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '\

     'Chrome/63.0.3239.132 Safari/537.36'

 }

 file_name = 'xpath_job51_python.txt'

 # 获取网页

 def get_html(page):

     try:

         url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,{},2,{}.html?'.format(KEYWORD,page)

         response = requests.get(url,headers=headers)

         response.encoding = response.apparent_encoding

         return response.text

     except RequestException:

         return None

 # 解析网页

 def parse_html(html):

     # 构造xpath解析对象，可自动修整HTML文本

     html = etree.HTML(html)

     # 获取文本 /text()

     # 获取属性　／@href

     # 获取第i个标签　／tar_name[i]  从1开始

     # normalize-space－－＞去空格换行符

     # position_name = html.xpath('normalize-space(//div[@class="el"]/p/span/a/text())')

     # 职位名称，

     position_names = []

     for name in html.xpath('//div[@class="el"]/p/span/a/text()'):

         position_name = name.strip()

         position_names.append(position_name)

     # 职位地址

     position_urls = html.xpath('//div[@class="el"]/p/span/a/@href')

     # 公司名称

     company_names = html.xpath('//div[@class="el"]/span[1]/a/text()')

     # 公司地址

     company_urls = html.xpath('//div[@class="el"]/span[1]/a/@href')

     # 位置

     locations = html.xpath('//div[@class="el"]/span[@class="t3"]/text()')

     # 薪资

     salarys = html.xpath('//div[@class="el"]/span[@class="t4"]/text()')

     # 发布时间

     release_dates = html.xpath('//div[@class="el"]/span[4]/text()')

     result = zip(position_names,position_urls,company_names,company_urls,locations,salarys,release_dates)

     return result

 def save_to_txt(element):

     with open(file_name,'a',newline='') as f:

         for i in range(len(element)):

             # data = ','.join(element[i])

             if i == len(element)-1:

                 f.write(element[i])

                 f.write('\n')

             else:

                 f.write(element[i]+',')

 def save_to_mongo(element):

     keys = ['position_name','position_url','company_name',

             'company_url','location','salary','release_date']

     result = dict(zip(keys,list(element)))

     if db[MONGO_TABLE_XPATH].insert(result):

         print('数据成功存储到mongo数据库中')

         return True

     return False

     # 遍历字典元素

     # for k,v in result.items():

     #     print(k,':',v)

     for key in result:

         print(key,':',result[key])

 def main():

     if os.path.exists(file_name):

         os.remove(file_name)

     for page in range(1,MAX_PAGE+1):

         html = get_html(page)

         elements = parse_html(html)

         if elements:

             for element in elements:

                 save_to_txt(element)

                 save_to_mongo(element)

 if __name__ == '__main__':

     main()

爬取前尘无忧python职位信息并保存到mongo数据库的更多相关文章

python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
爬取网贷之家平台数据保存到mysql数据库
# coding utf-8 import requests import json import datetime import pymysql user_agent = 'User-Agent: ...
Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
爬取拉勾网所有python职位并保存到excel表格对象方式
# 1.把之间案例,使用bs4,正则,xpath,进行数据提取. # 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json ...
scrapy 第一个案例（爬取腾讯招聘职位信息）
import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字,唯一 name = 'tzc' # 起始地址 start_u ...
简单抓取安居客房产数据，并保存到Oracle数据库
思路和上一篇差不多,先获取网站html文件,使用BeautifulSoup进行解析,将对应属性取出,逐一处理,最后把整理出的记录保存到oracle中,持久化储存. '''Created on 2017 ...
多线程爬取猫眼电影TOP100并保存到mongo数据库中
import requests import re import json from requests.exceptions import RequestException from multipro ...

随机推荐

Java基础---Java 开发工具IntelliJ IDEA 快捷操作
IDE中快捷编写函数的方法 public static void main(String[] args) ===> psvm System.out.println(); ====> sou ...
Python基础运算符（算数、比较、赋值、逻辑、成员）
Python运算符有(算数运算符.比较运算符.赋值运算符.逻辑运算符.位运算符.成员运算符.身份运算符): 本程序包含算数.比较.赋值.逻辑.成员运算符. 1.运算符测试 #!/usr/bin/pyt ...
VUE创建项目
Vue Cli项目搭建 vue项目需要自建服务器:node 什么是node: 用C++语言编写,用来运行JavaScript语言 node可以为前端项目提供server (包含了socket) ...
glib系列2 APP编译
编译命令 gcc main.c `pkg-config --cflags glib-2.0 --libs glib-2.0` 头文件 $ ls /usr/local/include/glib-2.0/ ...
SAS学习笔记12 SAS数据清洗和加工
set语句纵向合并我们把a1和b1进行合并,并区分是来自哪个数据集,会用到in=选项 in=a是产生临时变量a,由于它是a1的选项,所以a的值=1(来自a1)或者=0(不来自a1) in=b是产生临 ...
SVM的概率输出（Platt scaling）
SVM的概率输出(Platt scaling) 2015-10-22 10:38:19 闲渔Love吉他阅读数 8121 文章标签: Platt Scaling Calibr 更多分类专栏: 计算 ...
.netcore 和.netFrameWork
netcore 是一个流程,可以调用,netcore 框架下,选择netFrameWork.可以使用netFrameWork的库,比如画图等.只是管道是netcore的.
springboot启动流程（七）ioc容器refresh过程（上篇）
所有文章 https://www.cnblogs.com/lay2017/p/11478237.html 正文在前面的几篇文章中,我们看到Environment创建.application配置文件的 ...
charles 的安装和手机配置（我用的win7系统，和 iphone8 的配置）
2018/12/17 由于想抓一下某个手机上app的数据,然后就装了charles,纯记录一下,便于以后不用再查资料.个人参考的网址:https://blog.csdn.net/weixin_4233 ...
jQuery动画速成
引入下面css中样式,然后在需要使用的元素中类上添加相应的效果就可以了例如 animated固定要添加的类,不然会没有效果,bounceIn是你想要的动画效果,fight是你自己定义的类名,可以写样 ...

爬取前尘无忧python职位信息并保存到mongo数据库

爬取前尘无忧python职位信息并保存到mongo数据库的更多相关文章

随机推荐

热门专题