微博爬虫，python微博用户主页小姐姐图片内容采集爬虫

python爬虫，微博爬虫，需要知晓微博用户id号，能够通过抓取微博用户主页内容来获取用户发表的内容，时间，点赞数，转发数等数据，当然以上都是本渣渣结合网上代码抄抄改改获取的！

要抓取的微博地址：https://weibo.com/u/5118612601

BUT，我们实际应用的抓取地址：https://m.weibo.cn/u/5118612601（移动端的微博地址）

LSP的最爱，各种小姐姐，随你任意爬取，快收藏起来啊！

通过浏览器抓包，我们可以获悉几个比较重要的参数：

type: uid
value: 5118612601
containerid: 1005055118612601

其实还有一个比较重要的参数，那就是翻页：'page':page！

还有一个SSL错误问题，大家可以自行处理！

import logging
logging.captureWarnings(True)
# 屏蔽warning信息
requests.packages.urllib3.disable_warnings()
html=requests.get(self.url,headers=self.headers,params=params,timeout=5,verify=False).content.decode('utf-8')

几个关键点

获取 containerid 参数

def get_containerid(self):
url = f'https://m.weibo.cn/api/container/getIndex?type=uid&value={self.uid}'
data = requests.get(url,headers=self.headers,timeout=5,verify=False).content.decode('utf-8')
content = json.loads(data).get('data')
for data in content.get('tabsInfo').get('tabs'):
if (data.get('tab_type') == 'weibo'):
containerid = data.get('containerid')
self.containerid=containerid

获取微博用户发表数据

def get_content(self,i):
params={
'type': 'uid',
'value': self.uid,
'containerid': self.containerid,
'page':i,
}
html=requests.get(self.url,headers=self.headers,params=params,timeout=5,verify=False).content.decode('utf-8')
data=json.loads(html)['data']
cards=data['cards']
#print(cards)
j = 1
for card in cards:
if "mblog" in str(card):
mblog = card['mblog']
raw_text = mblog['raw_text'] # 文本内容
print(raw_text)
scheme=card['scheme'] #微博链接
attitudes_count = mblog.get('attitudes_count') #点赞数
comments_count = mblog.get('comments_count') #评论数
created_at = mblog.get('created_at') #发布时间
reposts_count = mblog.get('reposts_count') #转发数
print(scheme)
img_path=f'{self.path}{i}/{j}'
os.makedirs(f'{img_path}/',exist_ok=True)
with open(f'{img_path}/{j}.txt', 'a', encoding='utf-8') as f:
f.write(f'{raw_text}')
img_urls=[]
if mblog.get('pics') != None:
img_datas=mblog['pics']
for img_data in img_datas:
img_url=img_data['large']['url']
img_urls.append(img_url)
print(img_urls)
#多线程下载图片
self.get_imgs(img_urls,img_path)
#多进程下载图片
#self.get_pimgs(img_urls)
with open(f'{self.uid}/{self.uid}.txt', 'a', encoding='utf-8') as fh:
fh.write("----第" + str(i) + "页，第" + str(j) + "条微博----" + "\n")
fh.write(f"微博地址： {str(scheme)}\n微博内容：{raw_text}\n"
f"发布时间：{str(created_at)}\n转发数：{str(reposts_count)}\n"
f"点赞数：{str(attitudes_count)}\n评论数：{str(comments_count)}\n\n")
j=j+1
time.sleep(2)

多线程下载图片

#多线程下载图片
def get_imgs(self,img_urls,img_path):
threadings = []
for img_url in img_urls:
t = threading.Thread(target=self.get_img, args=(img_url,img_path))
threadings.append(t)
t.start()
for x in threadings:
x.join()
print("多线程下载图片完成")
def get_img(self, img_url,img_path):
img_name = img_url.split('/')[-1]
print(f'>> 正在下载图片：{img_name} ..')
r = requests.get(img_url, timeout=8, headers=self.headers,verify=False)
with open(f'{img_path}/{img_name}', 'wb') as f:
f.write(r.content)
print(f'>> 图片：{img_name} 下载完成！')

本来还想搞个多进程，结果翻车了，报错各种头秃，那就不搞了！！

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

想要获取更多Python学习资料可以加QQ:2955637827私聊或加Q群630390733大家一起来学习讨论吧！

微博爬虫，python微博用户主页小姐姐图片内容采集爬虫的更多相关文章

APP爬虫（2）把小姐姐的图片down下来
APP爬虫(1)想学新语言,又没有动力,怎么办? 书接上文.使用appium在帖子列表界面模拟上划动作,捕捉不到列表的规律.上划结束后,列表只能获取到屏幕呈现的部分,而且下标还是从0开始的. 根据酸奶 ...
用Python做个海量小姐姐素描图
素描作为一种近乎完美的表现手法有其独特的魅力,随着数字技术的发展,素描早已不再是专业绘画师的专利,今天这篇文章就来讲一讲如何使用python批量获取小姐姐素描画像.文章共分两部分: 第一部分介绍两种使 ...
python爬取快手小姐姐视频
流程分析一.导入需要的三方库 import re #正则表表达式文字匹配 import requests #指定url,获取网页数据 import json #转化json格式 import os ...
Python爬虫：爬取美拍小姐姐视频
最近在写一个应用,需要收集微博上一些热门的视频,像这些小视频一般都来自秒拍,微拍,美拍和新浪视频,而且没有下载的选项,所以只能动脑想想办法了. 第一步分析网页源码. 例如:http://video. ...
Python 抖音机器人，论如何在抖音上找到漂亮小姐姐？
只有想不到,没有做不到,最近抖音风靡好友圈,马上就有技术宅本着“代码改变世界”的理念开始了搞事之路. 需要注意的事,漂亮不漂亮没有明确的界限,每个人都有每个人的审美,只有外表而没有心灵的美也是空洞的. ...
[Python]小百合十大爬虫
国庆几天在家看了几篇关于使用Python来编写网络爬虫的博客,想来自己断断续续学习Python也有几个月了,但一个像样的程序都没有写过,编程能力并没有得到提高,愧对自己花费的时间.很多时候虽然知道什么 ...
用python爬取之后发现果然如此，都说知乎的小姐姐漂亮
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
要不是真的喜欢学技术，谁会来用Python爬小姐姐啊
养成习惯,先赞后看!!!不用于任何商业价值,只是自己娱乐.否则爬虫爬的好,牢饭吃到饱.这是我们这次爬取的网址:https://www.vmgirls.com/ 很多人学习python,不知道从何学起 ...
Python爬虫学习第一记 (翻译小助手)
1 # Python爬虫学习第一记 8.24 (代码有点小,请放大看吧) 2 3 #实现有道翻译,模块一: $fanyi.py 4 5 import urllib.request 6 import u ...

随机推荐

JVM(二)-内存区域之线程私有区
概述: 对于从事C.C++开发的程序员来说,在内存管理领域,他们既是拥有最高权力的"皇帝",又是从事最基础工作的劳动人民--既拥有每个对象的"所有权", 又担负 ...
01-01.单一职责原则(Single Responsibility)
1.基本介绍对于类来说的,就是一个类,应该只负责一项职责(一个类只管一件事). 如类A负责两个不同职责:职责1,职责2. 当职责1需求变更而改变A时,可能造成职责2执行错误,所以需要将类A的粒度分解 ...
【CF607B】Zuma——区间dp（记忆化搜索/递推）
以下是从中文翻译成人话的题面: 给定一个长度小于等于500的序列,每个数字代表一个颜色,每次可以消掉一个回文串,问最多消几次可以消完? (7.16) 这个题从洛谷pend回来以后显示有103个测试点( ...
【P1972】HH的项链——树状数组+询问离线
(题面摘自luogu) 题目背景无题目描述 HH 有一串由各种漂亮的贝壳组成的项链.HH 相信不同的贝壳会带来好运,所以每次散步完后,他都会随意取出一段贝壳,思考它们所表达的含义.HH 不断地收集 ...
【2014广州市选day1】JZOJ2020年9月12日提高B组T3 消除游戏
[2014广州市选day1]JZOJ2020年9月12日提高B组T3 消除游戏题目 Description 相信大家玩过很多网络上的消除类型的游戏,一般来说就是在一个大拼图内找出相同的部分进行最大程 ...
后端程序员必备的 Linux 基础知识
1. 从认识操作系统开始正式开始 Linux 之前,简单花一点点篇幅科普一下操作系统相关的内容. 1.1. 操作系统简介我通过以下四点介绍什么是操作系统: 操作系统(Operating Syste ...
PyQt（Python+Qt）学习随笔：QDateEdit日期编辑部件和QTimeEdit时间编辑部件
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用专栏:PyQt入门学习老猿Python博文目录老猿学5G博文目录 Designer输入部件中,Date Edit和T ...
Python中判断字符串是否为数字的三个方法isdecimal 、isdigit、isnumeric的差别
isdecimal .isdigit.isnumeric这三个字符串方法都用于判断字符串是否为数字,为什么用三个方法呢?他们的差别是什么内? isdecimal:是否为十进制数字符,包括Unicode ...
BUUOJ 杂项MISC（1）
爱因斯坦下载之后解压打开是一张爱因斯坦的图片,看来是图片隐写题使用binwalk -e misc2.jpg 获得一个有flag.txt的压缩包,但是需要密码才能打开,猜想密码在图片里面,把图片丢进 ...
定位方式及CSS高级技巧
定位 background-position 背景位置浮动,在一个浮字上面,我们的定位,在一个位上.CSS离不开定位,特别是后面的JS特效,天天和定位打交道. 为什么要使用定位? 元素的定位属性元 ...

微博爬虫，python微博用户主页小姐姐图片内容采集爬虫

几个关键点

微博爬虫，python微博用户主页小姐姐图片内容采集爬虫的更多相关文章

随机推荐

热门专题