python 爬取头条视频
知识点总结
1. 利用webdriver 模拟浏览器访问
from selenium import webdriver
2.import requests
3. from bs4 import BeautifulSoup
简单小例
import requests
from selenium import webdriver
from urllib.parse import urlencode
from bs4 import BeautifulSoup def get_one_page():
# headers = {
#
# 'Referer': 'https://www.365yg.com/',
# 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36",
# }
da = {
'min_behot_time': '0',
'category': 'video_new',
'utm_source': 'toutiao',
'widen': '1',
'tadrequire': 'true',
'as': 'A1654C1827C2B37',
'cp': '5C87724B93A76E1',
'_signature': ' o54nnxAd.ygc6NZ537gIfKOeJ4'
}
url = 'https://www.365yg.com/?'+urlencode(da) opetions = webdriver.ChromeOptions()
browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
# cookie={
#
# 'name': 'tt_webid',
# 'value': '6671039337541174792;',
# }
# browser.add_cookie(cookie) #browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
browser.get(url)
data=browser.page_source
dass=BeautifulSoup(data,"lxml")
lists=dass.select('ul[infinite-scroll-distance="80"]')
#所有的A标签的list dict={}
for i in lists:
for j in i.find_all('div',class_="title-box"):
href=j.find_all("a", class_="link")
for v in href: dict.update({v.text:v['href']})
#href.update(dic)
#href.append(v['href'])
#print(dict)
req_url(dict) #a.append(href)
#print(a)
# for i in a:
# print(i)
#for i in li: def req_url(dict):
vido={}
# dict={
# '江苏爆炸救治伤员640人 负责人被抓': '/group/6671032572195111437/',
# '儿媳没工作,却每天大鱼大肉,婆婆疑惑跟踪过去,结局让人感动': '/group/6660699394188247559/',
# '赵文卓演的《中南海保镖》, 感觉和李连杰那版有的一拼, 都没看过': '/group/6671090090191618573/',
# '新年就快到来,是时候换个发型了': '/group/6651463804318122508/',
# '150万买226斤新疆和田玉,老汉害怕推来鉴宝,专家见后脸色大变': '/group/6669675946359915016/',
# '声音的抉择:钱正昊改编《遇见》开口跪!这个00后小伙不简单': '/group/6669760801097646600/',
# '金灿荣:美国曾整趴五个老二国家,而中国有一个他们都没有的优点': '/group/6670396349554360846/'
# }
url="http://www.365yg.com"
headers = {
'Referer': 'https://www.365yg.com/',
'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36",
}
#tt_video_c94c3
for i in dict: urls=url + dict[i]
resfsdaf=requests.get(urls,headers=headers) if resfsdaf.status_code == 200:
opetions = webdriver.ChromeOptions()
browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
browser.get(urls)
data = browser.page_source dass = BeautifulSoup(data, "lxml")
dafdasfa=dass.select('video[mediatype="video"]')
browser.quit()
for src_i in dafdasfa:
vido.update({i:src_i['src']})
# 解析视频 # print(vido)
url_ursl(vido) # parame={
# '江苏爆炸救治伤员640人 负责人被抓': '//v11-default.ixigua.com/c339099c91d2a0c39b3a9200debe69a7/5c94bd76/video/m/220f7561952529b4afb9cef2b40af5dd0c51161a67c40000b9c386f1dc51/?rc=amZocHZoM2Q3bDMzZTczM0ApQHRAbzQ6Njg8MzQzMzc3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDZqMi9oZGI2Xl8tLWMtMHNzLW8jbyMvMzQuMS4tLi80NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '儿媳没工作,却每天大鱼大肉,婆婆疑惑跟踪过去,结局让人感动': '//v9-default.ixigua.com/7e61514e57d41846ed863d168a0361ce/5c94bd5b/video/m/2207ca36d5a9cf848e1aa4a7d4dd075ea711161aa4050000665b3ffb9a63/?rc=M3JwOTh0eDhyazMzZTczM0ApQHRAbzw0Njw1MzQzMzg3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDFvL2pfNnNra18tLTQtL3NzLW8jbyMzLzEtMS4tLjI0NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '赵文卓演的《中南海保镖》, 感觉和李连杰那版有的一拼, 都没看过': '//v9-default.ixigua.com/b127db8ae33afc9b4b014ffb95d232e3/5c94be87/video/m/220ab9e47974bca495591b5b225f7f8fc5b1161a641b0000793976a0813a/?rc=amk6ZXI6eDQ6bDMzZjczM0ApQHRAbzY6Njw8MzUzMzM3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QHAtaGhpam1mXl8tLS8tL3NzLW8jbyM1My0tMDAtLjI1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '新年就快到来,是时候换个发型了': '//v6-default.ixigua.com/cda31fdec095cdabe314ecabf54cfac8/5c94bd90/video/m/2203341eb294d084664887ba8ae7610a72d11615851000001009ee6f2ad5/?rc=M3VodHg8anFlazMzMzczM0ApQHRAbzM5NjU3MzUzMzQ3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QG9wMjJjYS9wNF8tLTYtL3NzLW8jbyMxMzYtNC0tLjU1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '150万买226斤新疆和田玉,老汉害怕推来鉴宝,专家见后脸色大变': '//v1-default.ixigua.com/f907f4793a7ac1798df4abb05350e1c7/5c94be73/video/m/2206ae1f1a9023d4f2dae60429d94e3363e1161a4c0c0000123747a41c8b/?rc=M3VqeHlqO3VxbDMzNzczM0ApQHRAbzk4NTQ8MzQzMzU3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QC1ecWhiaGkwNF8tLV8tMHNzLW8jbyMxLzYvMjYtLjY1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '声音的抉择:钱正昊改编《遇见》开口跪!这个00后小伙不简单': '//v11-default.ixigua.com/905afd5062cb03ee969d80a7b14d7c78/5c94be61/video/m/220846a029f3c7b44ccbe5d499db86f723111619ad0e0000b41407fdc7ed/?rc=M3J4dHVuOmRwbDMzNDczM0ApQHRAbzw0NjY2MzQzMzc3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QGIvZHNjLWdjNF8tLTMtMHNzLW8jbyMyNDMuLy0tLi41NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '金灿荣:美国曾整趴五个老二国家,而中国有一个他们都没有的优点': '//v6-default.ixigua.com/09c71fd5a249e775b9c74b1dbc8a652e/5c94c322/video/m/2206eb1feaeca2e4bcea36dab3c5b603e071161a502b00007cfe73398e5b/?rc=MzU7dmk1ODQzbDMzNzczM0ApQHRAbzczNTY6MzQzMzM3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDIwa25iY2kxNl8tLV8tMHNzLW8jbyMwMC0tLzEtLjU2NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer'
# } def url_ursl(parame):
for i in parame:
with open(str(i)+".mp4", "wb") as f:
f.write(requests.get("http:"+parame[i]).content) if __name__ == '__main__':
get_one_page() # #req_url()
# #pageOne = get_one_page()
# # print(pageOne)
# url_ursl(parame) 有时间在优化优化
python 爬取头条视频的更多相关文章
- python爬取豆瓣视频信息代码
目录 一:代码 二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
- python爬取快手视频 多线程下载
就是为了兴趣才搞的这个,ok 废话不多说 直接开始. 环境: python 2.7 + win10 工具:fiddler postman 安卓模拟器 首先,打开fiddler,fiddler作为htt ...
- python爬取百思不得姐视频
# _*_ coding:utf-8 _*_ from Tkinter import * from ScrolledText import ScrolledText import urllib #im ...
- python爬取youtube视频 多线程 非中文自动翻译
声明:我写的所有文章都是发在博客园的,我看到其他复制粘贴过去的 连个出处也不写,直接打上自己的水印...真是没的说了. 前言:前段时间搞了一些爬视频的项目,代码都写好了,这里写文章那就在来重新分析一遍 ...
- python 爬取bilibili 视频信息
抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的 ...
- python 爬取bilibili 视频弹幕
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/09 下午 4:50 # 爬取弹幕 import requests import j ...
- python爬取网站视频保存到本地
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Woo_home PS:如有需要Python学习资料的小伙伴可以加点 ...
- 2019-02-09 python爬取mooc视频项目初级简单版
今天花了一下午时间来做这东西,之前没有自己写过代码,50几行的代码还是查了很多东西啊,果然学起来和自己动起手来完全是两码事. 方案:requests库+正则表达式提取视频下载链接+urlretriev ...
- 没有内涵段子可以刷了,利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
随机推荐
- vue部分问题
[color=#00b050]学 vue 的看过来,vue-cli 挺好用的,但是遇到具体情况还得做一部分调整和配置默认你已经成功启动 vue-cli 1.使用 scsscnpm i node-sas ...
- 原生js和jquery
$(document).ready(function() {//jquery的写法 }); (function () { //原生js的写法 })();
- linux基础知识-目录结构
linux的目录结构/bin:是Binary的缩写,这个目录存放着系统必备执行命令 /boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文 件,自己的安装别放这里 /d ...
- kubernetes使用kubeadm升级集群
升级前准本 官网: https://kubernetes.io/docs/reference/setup-tools/kubeadm/kubeadm-upgrade/查看可升级的组件 [root@h ...
- HTML 文档流,设置元素浮动,导致父元素高度无法自适应的解决方法(高度欺骗)
元素浮动定义 float 属性定义元素在哪个方向浮动.以往这个属性总应用于图像,使文本围绕在图像周围,不过在 CSS 中,任何元素都可以浮动.浮动元素会生成一个块级框,而不论它本身是何种元素. 如果浮 ...
- cs224d 作业 problem set3 (一) 实现Recursive Nerual Net Work 递归神经网络
1.Recursive Nerual Networks能够更好地体现每个词与词之间语法上的联系这里我们选取的损失函数仍然是交叉熵函数 2.整个网络的结构如下图所示: 每个参数的更新时的梯队值如何计算, ...
- upc组队赛7 Star in Parentheses
Star in Parentheses 题目描述 You are given a string S, which is balanced parentheses with a star symbol ...
- Java方法覆盖教程
重新定义来自超类(父类)继承的类中的实例方法称为方法覆盖. 示例 现在来看看,类A和类B的以下声明,覆盖了 print() 方法 : 1 2 3 4 5 6 7 8 9 10 11 public cl ...
- Java构造函数(构造器)
构造函数是用于在对象创建后立即初始化对象的代码块.构造函数的结构看起来类似于一个方法. 声明构造函数 构造函数声明的一般语法是: 1 2 3 <Modifiers> <Constru ...
- Git操作思维导图
转自:https://blog.csdn.net/mynameishuangshuai/article/details/51657324