01 引言

大家好!蜡笔小曦有个朋友是做能源相关工作的,她想要有一个工具以天为单位持续地采集百度资讯中能源相关的文章进行留存和使用。

其中有个需求点是说能够自定义采集的开始日期和结束日期,这样更加灵活,保证在后续增量文章的采集上时间可控(因为关键词有200个左右)

大家也都知道,百度资讯文章列表页显示的发布时间不都是标准格式,其中包含x分钟前、x小时前、今天、昨天、x天前等格式(见下图),所以我们优先要实现基于给定的的开始日期和结束日期构建一个有效发布标识列表

02 实现过程

通过分析梳理,百度资讯列表页展示的发布时间规则如下:

接下来就是把上表的规则用Python代码实现,定义一个函数 available_date_list,输入开始日期start_date和结束日期end_date2个参数,最后返回一个有效发布标识列表 available_date_list。

  • 导入相关库
from datetime import datetime
import pandas as pd
  • 将传入的2个字符参数转化为日期格式
start_date = datetime.strptime(start_date, '%Y-%m-%d')
end_date = datetime.strptime(end_date, '%Y-%m-%d')
  • 生成当前日期时间并计算当前年份
today_date = datetime.now()
current_year = str(today_date.year) + '年'
  • 利用Pandas生成2个日期之间每天的日期列表,并使用Python的列表推导式按照百度资讯页面展示的格式对日期进行处理
date_list = pd.date_range(start=start_date, end=today_date, freq='D').strftime('%Y年%m月%d日').tolist()
date_list = [each_date.replace('年0', '年').replace('月0', '月').replace(current_year, '') for each_date in date_list]
  • 基于百度资讯列表页展示的发布时间规则构造正序列表
nearly_10_days_list = ['10天前', '9天前', '8天前', '7天前', '6天前', '5天前', '4天前', '3天前', '前天', '昨天', '今天']
  • 以上2个日期列表进行合并,nearly_10_days_list 替换 date_list 中后11个元素
available_date_list = date_list[:-11] + nearly_10_days_list
  • 计算开始日期和结束日期之间的天数间隔并返回所需的有效发布标识列表
start_vs_end_dif = (end_date - start_date).days
return available_date_list[:start_vs_end_dif + 1

大功告成!

03 知识点总结

以上过程中,核心有2个知识点:

利用Pandas快速构建日期列表

通过列表推导式对日期进行处理

完整源代码请关注公众号蜡笔小曦爱学习,在消息框回复关键词20230313获取

Python批量采集百度资讯文章,如何自定义采集日期范围的更多相关文章

  1. 用 Python 批量下载百度图片

    ​ 为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...

  2. 【亲测好用!】shell批量采集百度下拉框关键词

    [亲测好用!]shell批量采集百度下拉框关键词 SEO工具  方法  11个月前 (11-18)  2153浏览 3条评论 百度已收录 一直想写一篇用shell采集百度下拉框关键词的教程,个人感觉用 ...

  3. python批量添加hexo文章封面

    ❝ 本文需要工具: 「excel」 「python3.x」 ❞ 今天突然觉得,我的博客的文章更新这么多了竟然还没有一个封面,觉得首页相当低调了- 首页 正好皮肤带有文章封面功能,所以我觉得要将文章批量 ...

  4. Python + MySQL 批量查询百度收录

    做SEO的同学,经常会遇到几百或几千个站点,然后对于收录情况去做分析的情况 那么多余常用的一些工具在面对几千个站点需要去做收录分析的时候,那么就显得不是很合适. 在此特意分享给大家一个批量查询百度收录 ...

  5. Python多线程采集百度相关搜索关键词

    百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 #百度相关搜索关键词抓取,读取txt关键词,导出txt关键词   # -*- coding=utf-8 -*- import request ...

  6. 如何用python批量生成真实的手机号码

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Python测试社区 1目 标 场 景 平时在工作过程中,偶尔会需要大 ...

  7. 办公利器!用Python批量识别发票并录入到Excel表格

    辰哥今天来分享一篇办公干货文章:用Python批量识别发票并录入到Excel表格.对于财务专业等学生或者公司财务人员来说,将报账发票等汇总到excel简直就是一个折磨. 尤其是到年底的时候,公司的财务 ...

  8. 用python批量下载贴吧图片 附源代码

    环境:windows 7 64位:python2.7:IDE pycharm2016.1 功能: 批量下载百度贴吧某吧某页的所有帖子中的所有图片 使用方法: 1.安装python2.7,安装re模块, ...

  9. python批量处理压缩文件

    python批量处理压缩文件 博客小序:在数据的处理中,下载的数据很有可能是许多个压缩文件,自己一个一个解压较为麻烦,最近几日自己在处理一次下载的数据时,遇到大量的压缩数据需要处理,于是利用pytho ...

  10. Python爬虫之小试牛刀——使用Python抓取百度街景图像

    之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...

随机推荐

  1. 运用TextSuite和TestRunner运行测试脚本

    运用TextSuite和TestRunner运行测试脚本 import app.testcase.loginUI import unittest # mysuite = unittest.TestSu ...

  2. Cxf框架中@WebService注解的使用

    最近工作中总是不可避免的使用WebService来对接功能,经过自己一番摸索,总结出了一些使用方法,做一下记录: 记录了两个SpringBoot版本使用WebService的一些问题和用法,Sprin ...

  3. echo 操作

    echo打印制表符到文件: MAP_PATH=/path/for i in `cat sp.list`; do echo -e "${MAP_PATH}/${i}.${i}/${i}.fin ...

  4. MongoDB 副本集(Replica Set)

    副本集(Replica Set) 副本集概念 此集群拥有一个主节点(Master)和多个从节点(Slave),与主从复制模式类似,但是副本集与主从复制的区别在于:当集群中主节点发生故障时,副本集可以自 ...

  5. SQLite 帮助类

    public static class SqliteHelper { /// <summary> /// 获得连接对象 /// </summary> /// <retur ...

  6. uniapp+uView搜索列表变颜色

    首先看一下页面效果: <template> <view class="page"> <b-nav-bar title="公司多维图" ...

  7. [CQOI2014]通配符匹配 题解

    第一眼:什么鬼东西ヾ(。`Д´。) 第二眼:显然,这道题要分段处理 类似[TJOI2018]碱基序列\ (建议做一做也是Hash+DP)\ 那你怎么第一眼没看出来 Hash处理+DP==AC 直接上代 ...

  8. mysql索引的面试常问问题

  9. python——numpy

    NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库. import numpy a = num ...

  10. hdu:最大点权(强连通分量kosaraju)

    Problem Description给定一个有向图,每个点ii有点权a_ia​i​​,请对于每个点ii,找到ii能到达的点中点权的最大值(包括ii点). Input第一行包含一个正整数T(1\leq ...