知识点总结

1. 利用webdriver 模拟浏览器访问

from selenium import webdriver

2.import requests

3. from bs4 import BeautifulSoup

简单小例

import requests
from selenium import webdriver
from urllib.parse import urlencode
from bs4 import BeautifulSoup def get_one_page():
# headers = {
#
# 'Referer': 'https://www.365yg.com/',
# 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36",
# }
da = {
'min_behot_time': '0',
'category': 'video_new',
'utm_source': 'toutiao',
'widen': '1',
'tadrequire': 'true',
'as': 'A1654C1827C2B37',
'cp': '5C87724B93A76E1',
'_signature': ' o54nnxAd.ygc6NZ537gIfKOeJ4'
}
url = 'https://www.365yg.com/?'+urlencode(da) opetions = webdriver.ChromeOptions()
browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
# cookie={
#
# 'name': 'tt_webid',
# 'value': '6671039337541174792;',
# }
# browser.add_cookie(cookie) #browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
browser.get(url)
data=browser.page_source
dass=BeautifulSoup(data,"lxml")
lists=dass.select('ul[infinite-scroll-distance="80"]')
#所有的A标签的list dict={}
for i in lists:
for j in i.find_all('div',class_="title-box"):
href=j.find_all("a", class_="link")
for v in href: dict.update({v.text:v['href']})
#href.update(dic)
#href.append(v['href'])
#print(dict)
req_url(dict) #a.append(href)
#print(a)
# for i in a:
# print(i)
#for i in li: def req_url(dict):
vido={}
# dict={
# '江苏爆炸救治伤员640人 负责人被抓': '/group/6671032572195111437/',
# '儿媳没工作,却每天大鱼大肉,婆婆疑惑跟踪过去,结局让人感动': '/group/6660699394188247559/',
# '赵文卓演的《中南海保镖》, 感觉和李连杰那版有的一拼, 都没看过': '/group/6671090090191618573/',
# '新年就快到来,是时候换个发型了': '/group/6651463804318122508/',
# '150万买226斤新疆和田玉,老汉害怕推来鉴宝,专家见后脸色大变': '/group/6669675946359915016/',
# '声音的抉择:钱正昊改编《遇见》开口跪!这个00后小伙不简单': '/group/6669760801097646600/',
# '金灿荣:美国曾整趴五个老二国家,而中国有一个他们都没有的优点': '/group/6670396349554360846/'
# }
url="http://www.365yg.com"
headers = {
'Referer': 'https://www.365yg.com/',
'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36",
}
#tt_video_c94c3
for i in dict: urls=url + dict[i]
resfsdaf=requests.get(urls,headers=headers) if resfsdaf.status_code == 200:
opetions = webdriver.ChromeOptions()
browser = webdriver.Chrome(executable_path="D:/chromedriver_win32/chromedriver.exe")
browser.get(urls)
data = browser.page_source dass = BeautifulSoup(data, "lxml")
dafdasfa=dass.select('video[mediatype="video"]')
browser.quit()
for src_i in dafdasfa:
vido.update({i:src_i['src']})
# 解析视频 # print(vido)
url_ursl(vido) # parame={
# '江苏爆炸救治伤员640人 负责人被抓': '//v11-default.ixigua.com/c339099c91d2a0c39b3a9200debe69a7/5c94bd76/video/m/220f7561952529b4afb9cef2b40af5dd0c51161a67c40000b9c386f1dc51/?rc=amZocHZoM2Q3bDMzZTczM0ApQHRAbzQ6Njg8MzQzMzc3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDZqMi9oZGI2Xl8tLWMtMHNzLW8jbyMvMzQuMS4tLi80NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '儿媳没工作,却每天大鱼大肉,婆婆疑惑跟踪过去,结局让人感动': '//v9-default.ixigua.com/7e61514e57d41846ed863d168a0361ce/5c94bd5b/video/m/2207ca36d5a9cf848e1aa4a7d4dd075ea711161aa4050000665b3ffb9a63/?rc=M3JwOTh0eDhyazMzZTczM0ApQHRAbzw0Njw1MzQzMzg3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDFvL2pfNnNra18tLTQtL3NzLW8jbyMzLzEtMS4tLjI0NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '赵文卓演的《中南海保镖》, 感觉和李连杰那版有的一拼, 都没看过': '//v9-default.ixigua.com/b127db8ae33afc9b4b014ffb95d232e3/5c94be87/video/m/220ab9e47974bca495591b5b225f7f8fc5b1161a641b0000793976a0813a/?rc=amk6ZXI6eDQ6bDMzZjczM0ApQHRAbzY6Njw8MzUzMzM3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QHAtaGhpam1mXl8tLS8tL3NzLW8jbyM1My0tMDAtLjI1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '新年就快到来,是时候换个发型了': '//v6-default.ixigua.com/cda31fdec095cdabe314ecabf54cfac8/5c94bd90/video/m/2203341eb294d084664887ba8ae7610a72d11615851000001009ee6f2ad5/?rc=M3VodHg8anFlazMzMzczM0ApQHRAbzM5NjU3MzUzMzQ3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QG9wMjJjYS9wNF8tLTYtL3NzLW8jbyMxMzYtNC0tLjU1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '150万买226斤新疆和田玉,老汉害怕推来鉴宝,专家见后脸色大变': '//v1-default.ixigua.com/f907f4793a7ac1798df4abb05350e1c7/5c94be73/video/m/2206ae1f1a9023d4f2dae60429d94e3363e1161a4c0c0000123747a41c8b/?rc=M3VqeHlqO3VxbDMzNzczM0ApQHRAbzk4NTQ8MzQzMzU3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QC1ecWhiaGkwNF8tLV8tMHNzLW8jbyMxLzYvMjYtLjY1NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '声音的抉择:钱正昊改编《遇见》开口跪!这个00后小伙不简单': '//v11-default.ixigua.com/905afd5062cb03ee969d80a7b14d7c78/5c94be61/video/m/220846a029f3c7b44ccbe5d499db86f723111619ad0e0000b41407fdc7ed/?rc=M3J4dHVuOmRwbDMzNDczM0ApQHRAbzw0NjY2MzQzMzc3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QGIvZHNjLWdjNF8tLTMtMHNzLW8jbyMyNDMuLy0tLi41NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer',
# '金灿荣:美国曾整趴五个老二国家,而中国有一个他们都没有的优点': '//v6-default.ixigua.com/09c71fd5a249e775b9c74b1dbc8a652e/5c94c322/video/m/2206eb1feaeca2e4bcea36dab3c5b603e071161a502b00007cfe73398e5b/?rc=MzU7dmk1ODQzbDMzNzczM0ApQHRAbzczNTY6MzQzMzM3NDUzNDVvQGgzdSlAZjN1KWRzcmd5a3VyZ3lybHh3Zjc2QDIwa25iY2kxNl8tLV8tMHNzLW8jbyMwMC0tLzEtLjU2NC8wNi06I28jOmEtcSM6YHZpXGJmK2BeYmYrXnFsOiMzLl4%3D&vfrom=xgplayer'
# } def url_ursl(parame):
for i in parame:
with open(str(i)+".mp4", "wb") as f:
f.write(requests.get("http:"+parame[i]).content) if __name__ == '__main__':
get_one_page() # #req_url()
# #pageOne = get_one_page()
# # print(pageOne)
# url_ursl(parame) 有时间在优化优化

python 爬取头条视频的更多相关文章

  1. python爬取豆瓣视频信息代码

    目录 一:代码 二:结果如下(部分例子)   这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...

  2. python爬取快手视频 多线程下载

    就是为了兴趣才搞的这个,ok 废话不多说 直接开始. 环境: python 2.7 + win10 工具:fiddler postman 安卓模拟器 首先,打开fiddler,fiddler作为htt ...

  3. python爬取百思不得姐视频

    # _*_ coding:utf-8 _*_ from Tkinter import * from ScrolledText import ScrolledText import urllib #im ...

  4. python爬取youtube视频 多线程 非中文自动翻译

    声明:我写的所有文章都是发在博客园的,我看到其他复制粘贴过去的 连个出处也不写,直接打上自己的水印...真是没的说了. 前言:前段时间搞了一些爬视频的项目,代码都写好了,这里写文章那就在来重新分析一遍 ...

  5. python 爬取bilibili 视频信息

    抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的 ...

  6. python 爬取bilibili 视频弹幕

    # -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/09 下午 4:50 # 爬取弹幕 import requests import j ...

  7. python爬取网站视频保存到本地

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Woo_home PS:如有需要Python学习资料的小伙伴可以加点 ...

  8. 2019-02-09 python爬取mooc视频项目初级简单版

    今天花了一下午时间来做这东西,之前没有自己写过代码,50几行的代码还是查了很多东西啊,果然学起来和自己动起手来完全是两码事. 方案:requests库+正则表达式提取视频下载链接+urlretriev ...

  9. 没有内涵段子可以刷了,利用Python爬取段友之家贴吧图片和小视频(含源码)

    由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...

随机推荐

  1. vue中Template 制作模版

    一.直接写在选项里的模板 直接在构造器里的template选项后边编写.这种写法比较直观,但是如果模板html代码太多,不建议这么写. javascript代码: var app=new Vue({ ...

  2. Spring MVC processing flow

    原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/11484057.html DispatcherServlet receives the request. ...

  3. Python+Unittest+Requests+PyMysql+HTMLReport 多线程并发接口化框架

    整体框架使用的是:Python+Unittest+Requests+PyMysql+HTMLReport 多线程并发模式 主要依赖模块 Unittest.Requests.PyMysql.HTMLRe ...

  4. js 原生 document.querySelectorAll document.getElementsByTagName document.querySelector document.getElementById的区别

    1.querySelector只返回匹配的第一个元素,如果没有匹配项,返回null.  2.querySelectorAll返回匹配的元素集合,如果没有匹配项,返回空的nodelist(节点数组). ...

  5. 这样才能正确解锁MaxCompute客户端

    大数据计算服务(MaxCompute,原名ODPS)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决 ...

  6. 阿里云入选Gartner 2019 WAF魔力象限,唯一亚太厂商!

    近期,在全球权威咨询机构Gartner发布的2019 Web应用防火墙魔力象限中,阿里云Web应用防火墙成功入围,是亚太地区唯一一家进入该魔力象限的厂商! Web应用防火墙,简称WAF.在保护Web应 ...

  7. PHP curl_multi_strerror函数

    curl_multi_setopt — 返回描述错误码的字符串文本. 说明 string curl_multi_strerror ( int $errornum ) 返回描述 CURLM 错误码的字符 ...

  8. QGroundControl编译出错记录

    运行时出现错误: /home/myfly2/Downloads/qgroundcontrol/QGroundControl: error : cannot open shared object fil ...

  9. POJ 3414 Pots (dfs,这个代码好长啊QAQ)

    Description You are given two pots, having the volume of A and B liters respectively. The following ...

  10. nginx添加一个server

    nginx添加一个server server { listen 80; server_name dev.pccb.com; index index.html index.htm; # rewrite ...