python 爬取头条视频

知识点总结

1. 利用webdriver 模拟浏览器访问

from selenium import webdriver

2.import requests

3. from bs4 import BeautifulSoup

简单小例

import requests
from selenium import  webdriver
from urllib.parse import urlencode
from bs4 import BeautifulSoup

def get_one_page():
    # headers = {
    #
    #     'Referer': 'https://www.365yg.com/',
    #     'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36",
    # }
    da = {
      'min_behot_time': '0',
      'category': 'video_new',
      'utm_source': 'toutiao',
      'widen': '1',
      'tadrequire': 'true',
      'as': 'A1654C1827C2B37',
      'cp': '5C87724B93A76E1',
      '_signature': ' o54nnxAd.ygc6NZ537gIfKOeJ4'
   }
    url = 'https://www.365yg.com/?'+urlencode(da)

    opetions = webdriver.ChromeOptions()
    browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
    # cookie={
    #
    #     'name': 'tt_webid',
    #     'value': '6671039337541174792;',
    # }
    # browser.add_cookie(cookie)

    #browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
    browser.get(url)
    data=browser.page_source
    dass=BeautifulSoup(data,"lxml")
    lists=dass.select('ul[infinite-scroll-distance="80"]')
    #所有的A标签的list

    dict={}
    for i in lists:
        for j in i.find_all('div',class_="title-box"):
            href=j.find_all("a", class_="link")
            for v in href:

                 dict.update({v.text:v['href']})
                #href.update(dic)
                #href.append(v['href'])
    #print(dict)
    req_url(dict)

            #a.append(href)
    #print(a)
    # for i in a:
    #     print(i)
    #for i in li:

def req_url(dict):
   vido={}
   # dict={
   #      '江苏爆炸救治伤员640人 负责人被抓': '/group/6671032572195111437/',
   #      '儿媳没工作，却每天大鱼大肉，婆婆疑惑跟踪过去，结局让人感动': '/group/6660699394188247559/',
   #       '赵文卓演的《中南海保镖》, 感觉和李连杰那版有的一拼, 都没看过': '/group/6671090090191618573/',
   #      '新年就快到来，是时候换个发型了': '/group/6651463804318122508/',
   #      '150万买226斤新疆和田玉，老汉害怕推来鉴宝，专家见后脸色大变': '/group/6669675946359915016/',
   #      '声音的抉择：钱正昊改编《遇见》开口跪！这个00后小伙不简单': '/group/6669760801097646600/',
   #      '金灿荣：美国曾整趴五个老二国家，而中国有一个他们都没有的优点': '/group/6670396349554360846/'
   #     }
   url="http://www.365yg.com"
   headers = {
       'Referer': 'https://www.365yg.com/',
       'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36",
   }
   #tt_video_c94c3
   for i in dict:

       urls=url + dict[i]
       resfsdaf=requests.get(urls,headers=headers)

       if resfsdaf.status_code == 200:
           opetions = webdriver.ChromeOptions()
           browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
           browser.get(urls)
           data = browser.page_source

           dass = BeautifulSoup(data, "lxml")
           dafdasfa=dass.select('video[mediatype="video"]')
           browser.quit()
           for src_i in dafdasfa:
               vido.update({i:src_i['src']})
   # 解析视频  #

   print(vido)
   url_ursl(vido)

# parame={
#     '江苏爆炸救治伤员640人 负责人被抓': '//v11-default.ixigua.com/c339099c91d2a0c39b3a9200debe69a7/5c94bd76/video/m/220f7561952529b4afb9cef2b40af5dd0c51161a67c40000b9c386f1dc51/?rc=amZocHZoM2Q3bDMzZTczM0ApQHRAbzQ6Njg8MzQzMzc3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDZqMi9oZGI2Xl8tLWMtMHNzLW8jbyMvMzQuMS4tLi80NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
#     '儿媳没工作，却每天大鱼大肉，婆婆疑惑跟踪过去，结局让人感动': '//v9-default.ixigua.com/7e61514e57d41846ed863d168a0361ce/5c94bd5b/video/m/2207ca36d5a9cf848e1aa4a7d4dd075ea711161aa4050000665b3ffb9a63/?rc=M3JwOTh0eDhyazMzZTczM0ApQHRAbzw0Njw1MzQzMzg3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDFvL2pfNnNra18tLTQtL3NzLW8jbyMzLzEtMS4tLjI0NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
#     '赵文卓演的《中南海保镖》, 感觉和李连杰那版有的一拼, 都没看过': '//v9-default.ixigua.com/b127db8ae33afc9b4b014ffb95d232e3/5c94be87/video/m/220ab9e47974bca495591b5b225f7f8fc5b1161a641b0000793976a0813a/?rc=amk6ZXI6eDQ6bDMzZjczM0ApQHRAbzY6Njw8MzUzMzM3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QHAtaGhpam1mXl8tLS8tL3NzLW8jbyM1My0tMDAtLjI1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
#     '新年就快到来，是时候换个发型了': '//v6-default.ixigua.com/cda31fdec095cdabe314ecabf54cfac8/5c94bd90/video/m/2203341eb294d084664887ba8ae7610a72d11615851000001009ee6f2ad5/?rc=M3VodHg8anFlazMzMzczM0ApQHRAbzM5NjU3MzUzMzQ3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QG9wMjJjYS9wNF8tLTYtL3NzLW8jbyMxMzYtNC0tLjU1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
#     '150万买226斤新疆和田玉，老汉害怕推来鉴宝，专家见后脸色大变': '//v1-default.ixigua.com/f907f4793a7ac1798df4abb05350e1c7/5c94be73/video/m/2206ae1f1a9023d4f2dae60429d94e3363e1161a4c0c0000123747a41c8b/?rc=M3VqeHlqO3VxbDMzNzczM0ApQHRAbzk4NTQ8MzQzMzU3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QC1ecWhiaGkwNF8tLV8tMHNzLW8jbyMxLzYvMjYtLjY1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
#     '声音的抉择：钱正昊改编《遇见》开口跪！这个00后小伙不简单': '//v11-default.ixigua.com/905afd5062cb03ee969d80a7b14d7c78/5c94be61/video/m/220846a029f3c7b44ccbe5d499db86f723111619ad0e0000b41407fdc7ed/?rc=M3J4dHVuOmRwbDMzNDczM0ApQHRAbzw0NjY2MzQzMzc3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QGIvZHNjLWdjNF8tLTMtMHNzLW8jbyMyNDMuLy0tLi41NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
#     '金灿荣：美国曾整趴五个老二国家，而中国有一个他们都没有的优点': '//v6-default.ixigua.com/09c71fd5a249e775b9c74b1dbc8a652e/5c94c322/video/m/2206eb1feaeca2e4bcea36dab3c5b603e071161a502b00007cfe73398e5b/?rc=MzU7dmk1ODQzbDMzNzczM0ApQHRAbzczNTY6MzQzMzM3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDIwa25iY2kxNl8tLV8tMHNzLW8jbyMwMC0tLzEtLjU2NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer'
#     }

def url_ursl(parame):
       for i  in parame:
           with open(str(i)+".mp4", "wb") as f:
               f.write(requests.get("http:"+parame[i]).content)

if __name__ == '__main__':
    get_one_page()

    # #req_url()
    #  #pageOne = get_one_page()
    # # print(pageOne)
    #  url_ursl(parame)

  有时间在优化优化

python 爬取头条视频的更多相关文章

python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
python爬取快手视频多线程下载
就是为了兴趣才搞的这个,ok 废话不多说直接开始. 环境: python 2.7 + win10 工具:fiddler postman 安卓模拟器首先,打开fiddler,fiddler作为htt ...
python爬取百思不得姐视频
# _*_ coding:utf-8 _*_ from Tkinter import * from ScrolledText import ScrolledText import urllib #im ...
python爬取youtube视频多线程非中文自动翻译
声明:我写的所有文章都是发在博客园的,我看到其他复制粘贴过去的连个出处也不写,直接打上自己的水印...真是没的说了. 前言:前段时间搞了一些爬视频的项目,代码都写好了,这里写文章那就在来重新分析一遍 ...
python 爬取bilibili 视频信息
抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的 ...
python 爬取bilibili 视频弹幕
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/09 下午 4:50 # 爬取弹幕 import requests import j ...
python爬取网站视频保存到本地
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Woo_home PS:如有需要Python学习资料的小伙伴可以加点 ...
2019-02-09 python爬取mooc视频项目初级简单版
今天花了一下午时间来做这东西,之前没有自己写过代码,50几行的代码还是查了很多东西啊,果然学起来和自己动起手来完全是两码事. 方案:requests库+正则表达式提取视频下载链接+urlretriev ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...

随机推荐

tomcat的server.xml配置
<Host>标签 appBase属性: 1 这个目录下面的子目录将自动被部署为应用. 2 这个目录下面的.war文件将被自动解压缩并部署为应用一 ...
Django创建工程项目以及工作原理
一.Django 创建工作项目 1.创建 North 工程项目 (1)使用CMD命令行,切换到指定路径 django-admin.py startproject north (2)使用pycharm创 ...
Spring、SpringMVC、SpringBoot、SpringCloud概述
spring和springMvc: 1. spring是一个一站式的轻量级的java开发框架,核心是控制反转(IOC)和面向切面(AOP),针对于开发的WEB层(springMvc).业务层(Ioc) ...
集成swagger
1.看官方文档 https://docs.microsoft.com/zh-cn/aspnet/core/tutorials/getting-started-with-swashbuckle?view ...
【leetcode】452. Minimum Number of Arrows to Burst Balloons
题目如下: 解题思路:本题可以采用贪心算法.首先把balloons数组按end从小到大排序,然后让第一个arrow的值等于第一个元素的end,依次遍历数组,如果arrow不在当前元素的start到en ...
树莓派GPIO口驱动编写
一.wiringpi写法 #include <wiringPi.h> #include <stdlib.h> int main(int argc,char *argv[]) { ...
postgreSQL执行计划
" class="wiz-editor-body wiz-readonly" contenteditable="false"> explain命 ...
Weblogic console控制台密码更改后导致重启服务失败
weblogic版本10.3.3.0 更改控制台密码后,服务重启失败,报错如下: ----------------------------------------------------------- ...
CSS样式初始化代码
CSS样式初始化代码为什么要初始化CSS? 建站老手都知道,这是为了考虑到浏览器的兼容问题,其实不同浏览器对有些标签的默认值是不同的,如果没对CSS初始化往往会出现浏览器之间的页面差异.当然,初始化 ...
7、c++版，在大学学的编程基础知识
1.各种排序 #include<iostream> using namespace std; //-------直接插入排序 void InsertSort(ElemType A[],in ...

python 爬取头条视频

python 爬取头条视频的更多相关文章

随机推荐

热门专题