爬取前尘无忧python职位信息并保存到mongo数据库

１．re实现

 import re,os

 import requests

 from requests.exceptions import RequestException

 MAX_PAGE = 10 #最大页数

 KEYWORD = 'python'

 headers = {

     'User-Agent':

         'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

 }

 file_name = 're_job51_python.txt'

 # 获取网页源码

 def getHtml(page):

     try:

         url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,{0},2,{1}.html?'.format(KEYWORD,page)

         response = requests.get(url,headers=headers)

         response.encoding = response.apparent_encoding

         return response.text

     except RequestException:

         print('请求出错')

         return None

 # 解析网页源码，得到目标信息

 def getTarget(html):

     reg = re.compile(

         r'class="t1 ">.*? <a target="_blank" '

         'title="(.*?)".*? <span class="t2"><a target="_blank" '

         'title="(.*?)".*?<span '

         'class="t3">(.*?)</span>.*?<span '

         'class="t4">(.*?)</span>.*? <span '

         'class="t5">(.*?)</span>',

         re.S)  # 匹配换行符

     target = re.findall(reg,html)

     return target

 # 保存到文本中

 def save_to_txt(item):

     with open(file_name,'a',newline='') as f:  # newline参数防止两行之间有空行

         for i in range(len(item)):

             # 最后一个元素换行，非最后则以＇,'隔开

             if i == len(item)-1:

                 f.write(item[i])

                 f.write('\n')

             else:

                 f.write(item[i]+',')

 def main():

     # 每次执行前检查文件是否存在，存在则删除

     if os.path.exists(file_name):

         os.remove(file_name)

     # 分页爬取

     for page in range(MAX_PAGE+1):

         html = getHtml(page)

         content = getTarget(html)

         for item in content:

             save_to_txt(item)

 if __name__ == '__main__':

     main()

２．xpath实现

 import os

 import requests

 from requests.exceptions import RequestException

 from lxml import etree

 import pymongo

 from spiders.前程无忧.mongo_config import *

 # mongo数据库设置

 client = pymongo.MongoClient(MONGO_URL)

 db = client[MONGO_DB]

 MAX_PAGE = 5

 KEYWORD = 'python'

 headers = {

     'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '\

     'Chrome/63.0.3239.132 Safari/537.36'

 }

 file_name = 'xpath_job51_python.txt'

 # 获取网页

 def get_html(page):

     try:

         url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,{},2,{}.html?'.format(KEYWORD,page)

         response = requests.get(url,headers=headers)

         response.encoding = response.apparent_encoding

         return response.text

     except RequestException:

         return None

 # 解析网页

 def parse_html(html):

     # 构造xpath解析对象，可自动修整HTML文本

     html = etree.HTML(html)

     # 获取文本 /text()

     # 获取属性　／@href

     # 获取第i个标签　／tar_name[i]  从1开始

     # normalize-space－－＞去空格换行符

     # position_name = html.xpath('normalize-space(//div[@class="el"]/p/span/a/text())')

     # 职位名称，

     position_names = []

     for name in html.xpath('//div[@class="el"]/p/span/a/text()'):

         position_name = name.strip()

         position_names.append(position_name)

     # 职位地址

     position_urls = html.xpath('//div[@class="el"]/p/span/a/@href')

     # 公司名称

     company_names = html.xpath('//div[@class="el"]/span[1]/a/text()')

     # 公司地址

     company_urls = html.xpath('//div[@class="el"]/span[1]/a/@href')

     # 位置

     locations = html.xpath('//div[@class="el"]/span[@class="t3"]/text()')

     # 薪资

     salarys = html.xpath('//div[@class="el"]/span[@class="t4"]/text()')

     # 发布时间

     release_dates = html.xpath('//div[@class="el"]/span[4]/text()')

     result = zip(position_names,position_urls,company_names,company_urls,locations,salarys,release_dates)

     return result

 def save_to_txt(element):

     with open(file_name,'a',newline='') as f:

         for i in range(len(element)):

             # data = ','.join(element[i])

             if i == len(element)-1:

                 f.write(element[i])

                 f.write('\n')

             else:

                 f.write(element[i]+',')

 def save_to_mongo(element):

     keys = ['position_name','position_url','company_name',

             'company_url','location','salary','release_date']

     result = dict(zip(keys,list(element)))

     if db[MONGO_TABLE_XPATH].insert(result):

         print('数据成功存储到mongo数据库中')

         return True

     return False

     # 遍历字典元素

     # for k,v in result.items():

     #     print(k,':',v)

     for key in result:

         print(key,':',result[key])

 def main():

     if os.path.exists(file_name):

         os.remove(file_name)

     for page in range(1,MAX_PAGE+1):

         html = get_html(page)

         elements = parse_html(html)

         if elements:

             for element in elements:

                 save_to_txt(element)

                 save_to_mongo(element)

 if __name__ == '__main__':

     main()

爬取前尘无忧python职位信息并保存到mongo数据库的更多相关文章

python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
爬取网贷之家平台数据保存到mysql数据库
# coding utf-8 import requests import json import datetime import pymysql user_agent = 'User-Agent: ...
Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
爬取拉勾网所有python职位并保存到excel表格对象方式
# 1.把之间案例,使用bs4,正则,xpath,进行数据提取. # 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json ...
scrapy 第一个案例（爬取腾讯招聘职位信息）
import scrapy import json class TzcSpider(scrapy.Spider): # spider的名字,唯一 name = 'tzc' # 起始地址 start_u ...
简单抓取安居客房产数据，并保存到Oracle数据库
思路和上一篇差不多,先获取网站html文件,使用BeautifulSoup进行解析,将对应属性取出,逐一处理,最后把整理出的记录保存到oracle中,持久化储存. '''Created on 2017 ...
多线程爬取猫眼电影TOP100并保存到mongo数据库中
import requests import re import json from requests.exceptions import RequestException from multipro ...

随机推荐

模块 json 和 pickle
目录序列化 json 和 pickle 模块序列化序列:字符串序列化:将其它数据类型转换成字符串的过程. 反序列化:字符串转成其它数据类型. 序列化的目的 1:以某种存储形式使用自定义对象持久 ...
MVC——三层架构笔记、1
三层架构MVC笔记1. DAL——数据访问层:(专门与数据库交互,增删查改的方法都在这:需引用MODEL层) BLL——业务逻辑层:(页面与数据库之间的桥梁:需引用DAL.MODEL层) MODEL— ...
Hibernate的入门Curd用法
今天分享的是hibernate关系映射框架的入门用法一:Hibernate简介 Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,它将POJO与数据库表建 ...
Layui连接mysql操作CRUD案例
今天分享的是一个新前端框架Layui,用它来链接数据库实现一下crud的操作. 一:layui简历 layui,是一款采用自身模块规范编写的前端 UI 框架,遵循原生 HTML/CSS/JS 的书写与 ...
ASP.NET Core分布式项目-2.oauth密码模式identity server4实现
源码下载这里根据<ASP.NET Core分布式项目-1.IdentityServer4登录中心>的代码来继续更新oauth密码模式,这里的密码模式比上次的客户端模式更安全在WebAp ...
Mariadb/Mysql 主从复制（1）
一.原理 mysql的主从数据同步是一个异步复制过程,需要master开启bin-log日志功能,bin-log记录了master库中的增.删.修改.更新操作的sql语句,整个过程需要开启3个线程,分 ...
威联通212 http 在密码正确的情况下无法登录问题解决
*现象: 1.putty 可以正常登录 2.smb可以正常登录 3.http 提示密码错误或无效 *解决办法: 1.通过putty ssh登录到设备 2.执行以下代码 [~] # cp /etc/ ...
stm32 按键操作
抖动时间的长短由按键的机械特性决定,一般为5ms-10ms void key() { static u8 flag = 1; if(flag == 1 && KEY_UP == 1) ...
spring-security2配置精讲（转载）
本文转载自牛人downpour的帖子: http://www.iteye.com/topic/319965 Spring 论坛上看了不少Spring Security的相关文章.这些文章基本上都还是基 ...
Viewer.js的inline模式
开始前几天接到一个小的支持,要做一个有图像预览和操作功能的demo,并且给出了参照的模板.刚开始简单的看了一下给的模板,一个是boxImg.js,另一个是Viewer.js. 问题其实图片预览的插 ...

爬取前尘无忧python职位信息并保存到mongo数据库

爬取前尘无忧python职位信息并保存到mongo数据库的更多相关文章

随机推荐

热门专题