简介

用爬虫获取目标网站数据后可能会遇见时间为处理刚刚,分钟,小时,天前等时间格式,如图

解决问题:

写了一个工具类来处理该问题,其中封装了两个函数

1. 将时间中的中文数字转换成阿拉伯数字

    def exchange_num(date):
'''
将输入字符串中的中文数字转换成阿拉伯数字
'''
zh_num = '零一二三四五六七八九'
for num in range(len(zh_num)):
date = date.replace(zh_num[num], str(num))
return date

2.将时间按照刚刚,分钟,小时,天前等时间格式进行判定跟转换对应时间

    def deal_time(zh_time):
'''
对时间进行分类处理,对不同情况进行判断
'''
zh_time = exchange_num(zh_time.strip())
time_list = [
"小时前",
"分钟前",
"刚刚",
"天前"
]
now_time = datetime.strftime(datetime.today(), '%Y-%m-%d')
time_key_dict = {}
[time_key_dict.update({key: operator.contains(zh_time, key)}) for key in time_list]
if time_key_dict['刚刚'] or time_key_dict['分钟前']:
return now_time
elif time_key_dict['小时前']:
now_hour = datetime.strftime(datetime.today(), "%H")
pattern = re.search(r"(\d+)", zh_time)
if pattern.group(1) <= now_hour:
# 小于24小时转换成当日时间
return now_time
else:
return datetime.strftime(datetime.today() + timedelta(days=-1), '%Y-%m-%d') # 获取前1天日期 elif time_key_dict['天前']:
try:
pattern = re.search(r"(\d+)", zh_time)
zh_time = datetime.strftime(datetime.today() + timedelta(days=(int(pattern.group(1))) * -1),'%Y-%m-%d')
return zh_time
except Exception:
return f"转换失败 当前时间{now_time},网站中的时间{zh_time}"
else:
return zh_time

完整代码如下

import operator
from datetime import datetime, timedelta
import re class DealTime:
'''
处理刚刚,分钟,小时,天前等时间
''' def exchange_num(self, date):
'''
将输入字符串中的中文数字转换成阿拉伯数字
'''
zh_num = '零一二三四五六七八九'
for num in range(len(zh_num)):
date = date.replace(zh_num[num], str(num))
return date def deal_time(self, zh_time):
'''
对时间进行分类处理,对不同情况进行判断
'''
zh_time = self.exchange_num(zh_time.strip())
time_list = [
"小时前",
"分钟前",
"刚刚",
"天前"
]
now_time = datetime.strftime(datetime.today(), '%Y-%m-%d')
time_key_dict = {}
[time_key_dict.update({key: operator.contains(zh_time, key)}) for key in time_list]
if time_key_dict['刚刚'] or time_key_dict['分钟前']:
return now_time
elif time_key_dict['小时前']:
now_hour = datetime.strftime(datetime.today(), "%H")
pattern = re.search(r"(\d+)", zh_time)
if pattern.group(1) <= now_hour:
# 小于24小时转换成当日时间
return now_time
else:
return datetime.strftime(datetime.today() + timedelta(days=-1), '%Y-%m-%d') # 获取前1天日期 elif time_key_dict['天前']:
try:
pattern = re.search(r"(\d+)", zh_time)
zh_time = datetime.strftime(datetime.today() + timedelta(days=(int(pattern.group(1))) * -1), '%Y-%m-%d')
return zh_time
except Exception:
return f"转换失败 当前时间{now_time},网站中的时间{zh_time}"
else:
return zh_time if __name__ == '__main__':
print(DealTime().deal_time("刚刚"))
print(DealTime().deal_time("一天前"))
print(DealTime().deal_time("1天前"))
print(DealTime().deal_time("5分钟前"))

Python处理刚刚,分钟,小时,天前等时间的更多相关文章

  1. Golang 和Python 几个小时前 几分钟 几天前的处理

    在用golang爬虫的时候 总会遇到 10天前 10分钟前 刚刚这种很影响我们爬取正常事件 所以我写了个方法 来格式化这种事件 golang 版本 package utils import ( &qu ...

  2. iOS-OC根据时间戳获取距离现在的状态(刚刚,分钟前,今天,昨天)

     iOS-OC根据时间戳获取距离现在的状态(刚刚,分钟前,今天,昨天) 获取时间戳 - (NSString *)distanceTimeWithBeforeTime:(double)beTime { ...

  3. Oracle中获取当前时间半小时前的时间

    最近项目中有个要根据半个小时前的数据情况判断某一栏位的值,但是一直没想到怎样获取当前时间的半小时前的时间,今天突然想到可以通过sysdate做差来获取,比如sysdate-1这样的,刚开始没有对结果进 ...

  4. 一个Python小白5个小时爬虫经历

    前言 最近业余在做一个基于.NET Core的搜索项目,奈何基层代码写好了,没有看起来很华丽的数据供测试.很巧的也是博客搜索,于是乎想到了博客园.C#也能做做页面数据抓取的,不过在博客园看到的大部分都 ...

  5. JavaScript Date学习实例:获取3分钟前的时间“hhmmss”格式

    上一篇博客分享了Date对象的理论知识,今天正好看到一段相关的代码,可以继续深化,通过实例加强复习Date 题目:获取3分钟前的时间,并且显示格式是hhmmss 以下是看到的代码 var time=n ...

  6. [Java]某日期时间加上若干分钟得到新的日期时间

    使用Java自带类库实现日期时间增减还是比自己人工拆分编写要牢靠,代码也简洁多了. 下面代码实现了在原有日期时间上加上一些分钟得到新的日期时间的功能,稍加改造还可以实现逆向运算. 代码: packag ...

  7. js 获取据当前时间n天前的时间

    <script type="text/javascript"> function getLastDate() { var date = new Date(); ; va ...

  8. JS如何设置计算几天前的时间?

    计算多少天前的具体时间.比如今天是9月5日,那7天前正常就是8月29了. 之前曾经直接用时间进行加减,吃了大亏,后来脑残到直接写了一个很复杂的计算闰年,闰月,30.31.28的月份 现在分享一下. f ...

  9. Java 求n天前的时间或者n月前的时间

    时间格式化 public static String DEFAULT_FORMATDATE = "yyyy-MM-dd"; 1.n天前的日期 /** * luyanlong * 默 ...

随机推荐

  1. 持久化-DLL劫持

    持久化-DLL劫持 原理 通过篡改.替换和代理原dll文件来达到劫持. 原理演示 假定演练流程 假定我们要劫持的目标是 c:\temp\legit.dll 获取 c:\temp\legit.dll 所 ...

  2. Homework6

    1.问:阅读和了解什么是形式化方法? 答:形式化方法在逻辑科学中是指分析.研究思维形式结构的方法.是把各种具有不同内容的思维形式(主要是命题和推理)加以比较,找出各个部分相互联结的方式,抽取出共同的形 ...

  3. KingbaseESV8R6临时表和全局临时表

    临时表概述 临时表用于存放只存在于事务或会话期间的数据.临时表中的数据对会话是私有的,每个会话只能看到和修改自己会话的数据. 您可以创建全局(global)临时表或本地(locall)临时表. 下表列 ...

  4. 通过IIS部署Flask项目

      本文主要介绍在Windows Server 2012R2上通过IIS部署Flask项目的过程,以及对TTFB延迟大问题的思考.关于如何申请云服务器,注册(子)域名,备案,开放云服务器端口,获取SS ...

  5. 日志:Redo Log 和 Undo Log

    本篇文章主要介绍 Redo Log 和 Undo Log: 利用 Redo Log 和 Undo Log 实现本地事务的原子性.持久性 Redo Log 的写回策略 Redo Log Buffer 的 ...

  6. MAC Golang环境搭建

    1. 下载golang 下载地址:https://golang.google.cn/dl/ 根据MAC左上角苹果图标->关于本机,即可查看芯片类型 2. 安装golang 在 下载 中双击 下载 ...

  7. Windows Server Backup保留副本数量的问题

    在配置Windows Server Backup的时候可以配置备份时间点和备份存放位置,但是无法配置保留备份的数量.作为微软提供的一个基本的备份工具,做简单的备份还是可以的.但是对于同一备份任务,反复 ...

  8. selenium爬取图片

    一.https/http开头的图片 1.我们以百度为例,下载百度图片到本地. 2.定位到该元素的img标签 from selenium import webdriver from selenium.w ...

  9. .Net7 内容汇总(1)

    .Net7 RC1发布 在9月14号,.Net7 RC1正式发布了. 按照微软的说法 This is the first of two release candidates (RC) for .NET ...

  10. 尝试阅读理解一份linux shell脚本

    以下内容为本人的学习笔记,如需要转载,请声明原文链接微信公众号「englyf」https://www.cnblogs.com/englyf/p/16721350.html 从头一二去阅读语法和命令说明 ...