一、爬取目标

大家好，我是 @马哥python说，一枚10年程序猿。

今天分享一期python爬虫案例，爬取目标是新浪微博的微博签到数据，字段包含：

页码,微博id,微博bid,微博作者,发布时间,微博内容,签到地点,转发数,评论数,点赞数

经过分析调研，发现微博有3种访问方式，分别是：

PC端网页：https://weibo.com/
移动端：https://weibo.cn/
手机端：https://m.weibo.cn/

最终决定，通过手机端爬取。

这里，给大家分享一个爬虫小技巧。

当目标网站既存在PC网页端，又有手机移动端，建议爬取移动端，原因是：移动端一般网页结构简单，并且反爬能力较弱，更方便爬虫爬取。

二、展示爬取结果

通过爬虫代码，爬取了“环球影城”这个关键字下的前100页微博，部分数据如下：

一共翻页了100页，大概1000条左右微博。

三、讲解代码

首先，导入需要用到的库：

import os  # 判断文件存在

import re  # 正则表达式提取文本

import requests  # 发送请求

import pandas as pd  # 存取csv文件

import datetime  # 转换时间用

然后，定义一个转换时间字符串的函数，因为爬取到的时间戳是GMT格式（类似这种：Fri Jun 17 22:21:48 +0800 2022）的，需要转换成标准格式：

def trans_time(v_str):

    """转换GMT时间为标准格式"""

    GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'

    timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)

    ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")

    return ret_time

定义一个请求头，后面发送请求的时候带上它，防止反爬：

# 请求头

headers = {

    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",

    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",

    "accept-encoding": "gzip, deflate, br",

}

打开chrome浏览器，在m端网址搜索"环球影城"，选择地点，选择第一条搜索结果"北京环球影城"，如下：

获取地点对应的containerid，后面会用到，爬虫代码如下：

def get_containerid(v_loc):

    """

    获取地点对应的containerid

    :param v_loc: 地点

    :return: containerid

    """

    url = 'https://m.weibo.cn/api/container/getIndex'

    # 请求参数

    params = {

        "containerid": "100103type=92&q={}&t=".format(v_loc),

        "page_type": "searchall",

    }

    r = requests.get(url, headers=headers, params=params)

    cards = r.json()["data"]["cards"]

    scheme = cards[0]['card_group'][0]['scheme']  # 取第一个

    containerid = re.findall(r'containerid=(.*?)&', scheme)[0]

    print('[{}]对应的containerid是：{}'.format(v_loc, containerid))

    return containerid

点击第一个地点"北京环球影城"，跳转到它对应的微博签到页面：

首先打开开发者模式，然后往下翻页，多翻几次，观察XHR页面的网络请求：

根据分析结果，编写请求代码：

# 请求地址

url = 'https://m.weibo.cn/api/container/getIndex'

# 请求参数

params = {

    "containerid": containerid,

    "luicode": "10000011",

    "lcardid": "frompoi",

    "extparam": "frompoi",

    "lfid": "100103type=92&q={}".format(v_keyword),

    "since_id": page,

}

其中，since_id每次翻页+1，相当于页码数值。

请求参数，可以在Payload页面获取：

下面开始发送请求并解析数据：

# 发送请求

r = requests.get(url, headers=headers, params=params)

print(r.status_code)  # 查看响应码

# 解析json数据

try:

    card_group = r.json()["data"]["cards"][0]['card_group']

except:

    card_group = []

定义一些空列表，用于后续保存数据：

time_list = []  # 创建时间

author_list = []  # 微博作者

id_list = []  # 微博id

bid_list = []  # 微博bid

text_list = []  # 博文

text2_list = []  # 博文2

loc_list = []  # 签到地点

reposts_count_list = []  # 转发数

comments_count_list = []  # 评论数

attitudes_count_list = []  # 点赞数

以"微博博文"为例，展示代码，其他字段同理，不再赘述。

# 微博博文

text = card['mblog']['text']

text_list.append(text)

把所有数据保存到Dataframe里面：

# 把列表数据保存成DataFrame数据

df = pd.DataFrame(

    {

        '页码': page,

        '微博id': id_list,

        '微博bid': bid_list,

        '微博作者': author_list,

        '发布时间': time_list,

        '微博内容': text2_list,

        '签到地点': loc_list,

        '转发数': reposts_count_list,

        '评论数': comments_count_list,

        '点赞数': attitudes_count_list,

    }

)

最终，把所有数据保存到csv文件：

# 表头

if os.path.exists(v_weibo_file):

    header = False

else:

    header = True

# 保存到csv文件

df.to_csv(v_weibo_file, mode='a+', index=False, header=header, encoding='utf_8_sig')

print('csv保存成功:{}'.format(v_weibo_file)))

说明一下，由于每次保存csv都是追加模式（mode='a+'），所以加上if判断逻辑：

如果csv存在，说明不是第一次保存csv，不加表头；
如果csv不存在，说明是第一次保存csv，加上表头。

如此，可避免写入多次表头的尴尬局面。

整个代码中，还含有：正则表达式提取博文、爬取展开全文、从博文中提取签到地点、数据清洗（删除空数据、去重复）等功能，详细请见原始代码。

四、同步视频

代码演示视频：https://www.bilibili.com/video/BV1Pj411K7Xr

五、附完整源码

完整源码：公众号"老男孩的平凡之路"后台回复"爬微博签到"即可获取。

【python爬虫案例】爬了上千条m端微博签到数据

【2023微博签到爬虫】用python爬上千条m端微博签到数据的更多相关文章

XE中FMX操作ListBox，添加上千条记录（含图片）
我之前是想在ListBox的每个Item上添加一个图片,Item上所有的内容都是放在Object里赋值,结果发现加载一百条记录耗时四五秒: procedure TMainForm.AddItem; v ...
Python爬取10000条“爆款剧”——《三十而已》热评，并做可视化
前言继<隐秘的角落>后,又一部“爆款剧”——<三十而已>获得了口碑收视双丰收,王漫妮.顾佳.钟晓芹三个女主角的故事线频频登上微博热搜.该剧于2020年7月17日在东方卫视首播 ...
用Python爬取《王者荣耀》英雄皮肤数据并可视化分析，用图说话
大家好,我是辰哥~ 今天辰哥带大家分析一波当前热门手游<王者荣耀>英雄皮肤,比如皮肤上线时间.皮肤类型(勇者:史诗:传说等).价格. 1.获取数据数据来源于<王者荣耀官方网站> ...
Python 爬取热词并进行分类数据分析-[拓扑数据]
日期:2020.01.29 博客期:137 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
python脚本实现接口自动化轻松搞定上千条接口用例
接口自动化目前是测试圈主流的一个话题,我也在网上搜索了很多关于自动化的关键词,大多数博主分享的python做接口自动化都是以开源的框架,比如:pytest.unittest+ddt(数据驱动) 最常见 ...
Python爬取猪肉价格网并获取Json数据
场景猪肉价格网站: http://zhujia.zhuwang.cc/ 注: 博客: https://blog.csdn.net/badao_liumang_qizhi 关注公众号霸道的程序猿获 ...
python爬取千库网
url:https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/ 有水印但是点进去就没了这里先来测试是否有反爬虫 import requests ...
python爬取post请求Reque Payload的json数据
import requests,json url = "https://www.yijiupi.com/v31/Product/ListProduct" headers = { ' ...
将Excel上千条数据写入到数据库中
简要说明:因工作需要,需要一张Excel表格中的所有数据导入到数据库中.如下表,当然这只是一部分,一共一千多条. 前期处理: 首先要保证上图中的Excel表格中的数据不能为空,如果有为空的数据,可以稍 ...
四步法分析定位生产环境下MySQL上千条SQL中的问题所在
第一步:通过以下两种方式之一来打开慢查询功能 (1)方式一:通过修改mysql的my.cnf文件如果是5.0或5.1等版本需要增加以下选项: log-slow-queries="mysql ...

随机推荐

搭建Spring Cloud父工程
1.首先创建一个maven项目删除src目录,当做一级目录用来管理第三方jar版本控制. 2.配置pom文件. SpringCloud.SpringCloudAlibaba.SpringBoot版本 ...
Python flask框架 request.json和request.form的区别
一.fetch请求时,request.json能获取到数据,request.form获取不到数据 1 var data = {'name':'test'}; 2 3 fetch('http://loc ...
Linux服务器定时器
网络程序需要处理的第三类事件是定时事件,比如定期检测一个客户连接的活动状态.服务器程序通常管理着众多定时事件,因此有效地组织这些定时事件,使之能在预期的时间点被触发且不影响服务器的主要逻辑,对于服务器 ...
在Mac系统上使用Qt调用摄像头不出图解决方法
需求:在Mac系统上,调用摄像头,实现旋转.缩放.处理视频帧等功能问题:使用获取视频帧的方法,在Mac上调不起来摄像头解决方法: 将视频窗口(QVideoWidget)和视频帧(QVideoFra ...
WCHAR 字符串拼接
LPCWSTR GetIniPath() { WCHAR buffer[MAX_PATH]; BOOL result = SHGetSpecialFolderPath(0, buffer, CSIDL ...
CentOS6.5安装与配置JDK-7
系统环境:centos-6.5 安装方式:rpm安装软件:jdk-7-linux-i586.rpm 下载地址:http://www.oracle.com/technetwork/java/javas ...
k8s架构与原理介绍
K8s概述目录 K8s概述 1.什么是K8s 2.K8s 设计架构 3. k8s重要节点描述 4. 过程原理: 5. k8s的核心功能 6. k8s的历史 7. k8s的安装方式 8. k8s的应用 ...
探索Kimi智能助手：如何用超长文本解锁高效信息处理新境界
目前,Kimi备受瞩目,不仅在社交平台上引起了广泛关注,而且在解决我们的实际问题方面也显示出了巨大潜力.其支持超长文本的特性使得我们能够更加灵活地配置信息,避免了频繁与向量数据库进行交互以及编写提示词 ...
JavaWeb技术JSP连接数据库操作
"感谢您阅读本篇博客!如果您觉得本文对您有所帮助或启发,请不吝点赞和分享给更多的朋友.您的支持是我持续创作的动力,也欢迎留言交流,让我们一起探讨技术,共同成长!谢谢!" 0X01 ...
Oracle 查询超级慢之buffer sort
查询超级慢之buffer sort 在视图中增加了一个临时表作为一个数据源进行id和名称的转换,没加的时候一秒不到,加了以后14秒,感觉有点问题,于是打开了解释计划看了下,发现这个buffer sor ...

【2023微博签到爬虫】用python爬上千条m端微博签到数据