本文讲述爬取抖音APP视频数据(本文未完,后面还有很多地方优化总结)

公众号回复:抖音

即可获取源码

1、APP抓包教程,需要用到fiddler

fiddler配置和使用查看>>王者荣耀盒子APP抓包配置方法

2、寻找返回用户aweme_count和uid数据的接口

进入我关注的抖音用户主页,找到用户的抖音号并记录下来,该抖音号为unique_id(unique_id区别于uid)

用户主页有如下数据:如图所示

注:该页面并没有返回我们需要的uid数据,需要通过如下方式搜索,在另外一个页面抓包才能获取

抖音主页点击搜索图标

输入用户主页获取到的unique_id值,并点击搜索

进入该页面,切换到用户栏,该页面会返回我们需要的数据和接口

fiddler抓包,该接口返回我们需要的两个参数,作品数aweme_count和用户uid

上代码,input输入的为用户主页的unique_id,传入下面的方法中

拿到unique_id,我们请求接口,提取我们需要的数据aweme_count和uid,并打印成功,这一步结束

注:本网站为HTTPS加密,需要加verify=False参数,并要加headers

3、接下来寻找视频播放页面接口

手机切换到用户主页,会出现我们需要抓包的接口,因为用户主页有视频,自然接口在这里面

抓包,成功抓到下面图中所示的share_url接口,该接口需要我们传2个参数,就是上一步我们获取到的aweme_count和uid

注:share_url并不是最终我们真正下载视频的接口,需要对share_url返回的数据进一步提取,才能找到真正的视频接口

上代码,但该接口测试一些发现有些不方便用,经查阅网上一些资料,发现需要用到抖音之前的老接口,如代码中所示

这里获取得到的video_urls是一个假的视频接口,需要进一步提取真的视频接口

将video_urls传进下载视频的方法中,中间我调用了get_download_url方法,进一步提取真正的视频接口

提取真正视频接口,通过get请求假接口,在返回的一大坨响应中通过正则匹配提取

这里简单截图了两个视频接口的区别,这幅图是假的视频接口,虽然也有视频,但并不是真正的

下面这个才是我们真正的视频接口,整个页面只有一个视频,直接下载视频数据

至此,抖音爬取告一段落,还遗留两个问题,尚未完全搞出来

1、如何获取所有用户的抖音unique_id,而不必手动每次去查看后输入

2、如何去水印

这两个问题也已经尝试,没有那么容易,有兴趣的同学欢迎测试,有思路欢迎探讨

欢迎添加好友学习探讨,备注(CSDN)

---------------------
作者:python爬虫人工智能大数据
来源:CSDN
原文:https://blog.csdn.net/weixin_41666747/article/details/80501923
版权声明:本文为博主原创文章,转载请附上博文链接!

python爬取抖音APP视频教程的更多相关文章

  1. 教你用python爬取抖音app视频

    记录一下如何用python爬取app数据,本文以爬取抖音视频app为例. 编程工具:pycharm app抓包工具:mitmproxy app自动化工具:appium 运行环境:windows10 思 ...

  2. from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

    使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

  3. 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

    抖音很火,楼主使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,楼主决定试试水,纯属技术爱好,分享给大家.. 1.楼主首先使用Fiddler4来抓取手机抖音app这 ...

  4. 一篇文章教会你用Python抓取抖音app热点数据

    今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一 ...

  5. Python爬取抖音视频

    最近在研究Python爬虫,顺便爬了一下抖音上的视频,找到了哥们喜欢的小姐姐居多,咱们给他爬下来吧. 最终爬取结果 好了废话补多说了,上代码! #https://www.iesdouyin.com/a ...

  6. Python爬虫---爬取抖音短视频

    目录 前言 抖音爬虫制作 选定网页 分析网页 提取id构造网址 拼接数据包链接 获取视频地址 下载视频 全部代码 实现结果 待解决的问题 前言 最近一直想要写一个抖音爬虫来批量下载抖音的短视频,但是经 ...

  7. Python爬取抖音高颜值小视频

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 有趣的python PS:如有需要Python学习资料的小伙伴可以加 ...

  8. appium 爬取抖音

    1.MongoDB.py import pymongo from pymongo.collection import Collection client = pymongo.MongoClient(h ...

  9. python+fiddler 抓取抖音数据包并下载抖音视频

    这个我们要下载视频,那么肯定首先去找抖音视频的url地址,那么这个地址肯定在json格式的数据包中,所以我们就去专门查看json格式数据包 这个怎么找我就不用了,直接看结果吧 你找json包,可以选大 ...

随机推荐

  1. JavaWeb_静态导入、自动拆箱/装箱

    静态导入用于简化程序对类静态属性和方法的调用. 语法 import static 包名.类名.静态属性|静态方法|* 例如 import static java.lang.System.out imp ...

  2. 小小c#算法题 - 12 - Joseph Circle(约瑟夫环)

    约瑟夫环是一个数学的应用问题:已知n个人(以编号1,2,3...n分别表示)围坐在一张圆桌周围.从编号为k的人开始报数(从1开始报数),数到m的那个人出列:他的下一个人又从1开始报数,数到m的那个人又 ...

  3. [译]Javascript 参数(arguments)对象

    本文翻译youtube上的up主kudvenkat的javascript tutorial播放单 源地址在此: https://www.youtube.com/watch?v=PMsVM7rjupU& ...

  4. [raspberry pi3] raspberry 充当time machine

    之前是用硬盘直接当timemachine的,看到有人用raspberry+硬盘充当timemachine的 自己的也搞了下,还是蛮方便的,下面是具体的步骤 1.安装必要的服务 sudo apt-get ...

  5. sql删除语句几种方法说明

    delete from 'tableName: DELETE 语句每次删除一行,并在事务日志中为所删除的每行记录一项.(相当于把房子里家具全丢了,但为了纪念原先的家具,所以原先放家具的那块地以后不再放 ...

  6. DjVu、PDF中的隐藏文本

    作者:马健邮箱:stronghorse_mj@hotmail.com发布:2012.06.11 目录一.背景二.DjVu中的隐藏文本三.PDF中的隐藏文本 一.背景 目前对于扫描电子文档,网上比较流行 ...

  7. C#泛型理解(一)

    一.什么是泛型 泛型是C#语言和公共语言运行库(CLR)中的一个新功能,它将类型参数的概念引入.NET Framework.类型参数使得设计某些类和方法成为可能,例如,通过使用泛型类型参数T,可以大大 ...

  8. java 获取url及url参数解析

    java  获取url及url参数解析 一.url编码:URLEncoder.encode(userName); 二.url解码: URLDecoder.decode(userName);

  9. javascript 获取标签内的内容

    js 获取标签内的内容 参考:这篇博客给了我很大的启发. http://www.cnblogs.com/breakdown/archive/2012/10/09/2716221.html 我遇到的问题 ...

  10. java java web及tomcat的使用

     java web及tomcat的使用 一.什么是java web: 参考百度百科: http://baike.baidu.com/link?url=HnaWXFD7wFfPAlFMW02GV6r5p ...