Python爬取爱奇艺资源

像iqiyi这种视频网站，现在下载视频都需要下载相应的客户端。那么如何不用下载客户端，直接下载非vip视频？

选择你想要爬取的内容

该安装的程序以及运行环境都配置好

下面这段代码就是我在爱奇艺里搜素“英文名”，然后出来的视频，共有20页，那么我们便从第一页开始，解析网页，然后分析

分析每一页网址，找出规律就可以直接得到所有页面

然后根据每一个视频的URL的标签，如'class' 'div' 'href'......通过bs4库进行爬取

而其他的信息则是直接循环所爬取到的URL，在每一个里再通过标签去找

import requests

import pandas as pd

from bs4 import BeautifulSoup

#爬取URL

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}

b=[]

for i in range(,):

    url="https://so.iqiyi.com/so/q_英文名_ctg_t_0_page_"+str(i)+"_p_1_qc_0_rd__site__m_1_bitrate_"   #共20页,根据每页的网址变换规律进行拼接

    r=requests.get(url,headers=headers)

    soup=BeautifulSoup(r.text,"html.parser")

    a=soup.findAll('a',{'class':'main-tit'})

    for i in a:

        if 'http://www.'in i.get('href')and 'html'in i.get('href'):

            b.append(i.get('href'))

print(b)

#爬取标题

e=[]

for k in b:

    res=requests.get(k,headers=headers)

    Soup=BeautifulSoup(res.text,'html.parser')

    c=Soup.findAll('div',{'class':'feed-title-box'})

    for d in c:

        e.append(d.find('h1').text)

print(e)

#爬取标题下方描述

f=[]

for j in b:

    res=requests.get(j,headers=headers)

    Soup=BeautifulSoup(res.text,'html.parser')

    c=Soup.findAll('div',{'class':'qy-play-intro-feed'})

    for d in c:

        f.append(d.find('p',{'class':"intro-iterm__block"}).text)

print(f)

#爬取发布时间

h=[]

for j in b:

    res=requests.get(j,headers=headers)

    Soup=BeautifulSoup(res.text,'html.parser')

    c=Soup.findAll('div',{'class':'intro-iterm'})

    for d in c:

        ff=(d.find('span',{'class':"intro-iterm__txt"}))

        if ff==None:

            continue

    h.append(ff.text)

print(h)

# 爬取上传作者

m=[]

for k in b:

    res=requests.get(k,headers=headers)

    Soup=BeautifulSoup(res.text,'html.parser')

    c=Soup.find('div',{'id':'block-P'})

    d=Soup.find('div',{'class':'qy-player-maker'})

    try:

        name=c.get(':uploader').split(',')[].split(':')[].replace('"','')#输出是字符串的格式，所以用split切割。replace替换

    except:

        try:

            name=d.get(':uploader').split(',')[].split(':')[].replace('"','')

        except:

            m.append("匿名用户")

    m.append(name)

print(m)

上面的代码输出结果便是英文名的所有网址及其视频中的一些信息

这里我需要讲一下的是，为什么在爬取作者信息的模块里我采取了try的方法，因为在我爬取的过程中我发现，有的视频的上传作者在视频左下方，有的在视频的右下方，有的视频干脆没有上传作者。

同样的，你想要爬取其他内容也可以用这种方法获取URL和他的其他信息

Python爬取爱奇艺资源的更多相关文章

Python爬取爱奇艺【老子传奇】评论数据
# -*- coding: utf-8 -*- import requests import os import csv import time import random base_url = 'h ...
使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
如何利用python爬虫爬取爱奇艺VIP电影？
环境:windows python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成需要的python模块: ##第一 ...
Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）
1. 我们找到爱奇艺电视剧的链接地址 http://list.iqiyi.com/www/2/-------------11-1-1-iqiyi--.html 我们点击翻页发现爱奇艺的链接是这样的 ...
Python爬虫实战案例：爬取爱奇艺VIP视频
一.实战背景爱奇艺的VIP视频只有会员能看,普通用户只能看前6分钟.比如加勒比海盗5的URL:http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1 ...
爬取爱奇艺电视剧url
----因为需要顺序,所有就用串行了---- import requests from requests.exceptions import RequestException import re im ...
casperjs 抓取爱奇艺高清视频
CasperJS 是一个开源的导航脚本和测试工具,使用 JavaScript 基于 PhantomJS 编写,用于测试 Web 应用功能,Phantom JS是一个服务器端的 JavaScript A ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
爱奇艺用券付费VIP电影+python爬虫程序+可视化界面+下载本地
申明:本博客中的工具及源码仅供个人学习使用,请勿用作商业等其他任何违法用途!否则后果自负直接步入正题吧! 工具开发环境:windows10,python3.6 工具界面设计:基于python 自带的 ...

随机推荐

Python 自学笔记（五）
1.布尔值 1-1.概念定义计算机中的逻辑判断,只有两种结果,True和False. if,while后面的判断条件就是布尔值,只有条件为True的时候才执行. 1-2.数值比较 1-3.数值运算 ...
P3015 [USACO11FEB]最好的括号Best Parenthesis
P3015 [USACO11FEB]最好的括号Best Parenthesis 题解一定要开 long long !!! 通过阅读英文题面我们知道所给出的字符串是已经匹配好的,所以我们只是计算就好了 ...
<JavaScript> 普通函数与构造函数的区别
JavaScript中存在构造函数与函数两个概念. 这可能会给初学者造成一定的困扰,难不成存在两种函数. 然而事实这两种函数的构成完全一样,无论从长相还是气质都是一模一样的. 区别点在于,所扮演觉得不 ...
003-多线程-JUC线程池-几种特殊的ThreadPoolExecutor【newFixedThreadPool、newCachedThreadPool、newSingleThreadExecutor、newScheduledThreadPool】
一.概述在java doc中,并不提倡我们直接使用ThreadPoolExecutor,而是使用Executors类中提供的几个静态方法来创建线程池: 以下方法是Executors下的静态方法,Ex ...
oracle 中SQL 语句开发语法 SELECT INTO含义
oracle 中SQL 语句开发语法 SELECT INTO含义在ORACLE中SELECT INTO是如何使用的,什么意思?和SQL SERVER的不一样? 和sqlserver的不一样sql ...
关于比较js中两个对象相等 ==
“如果两个操作数都是对象,则比较他们是不是同一个对象(引用的对象在内存中的地址一样),如果两个操作数都指向同一个对象,则相等操作符返回true,否则,返回false”. 我做了一个例子 functio ...
sed例子
以care.log这个log文件为例, care.log: 05:44:31,816 DEBUG RawAggregationWorker:70 - LTS is working on Raw Dat ...
【ARTS】01_25_左耳听风-201900429~20190505
ARTS: Algrothm: leetcode算法题目 Review: 阅读并且点评一篇英文技术文章 Tip/Techni: 学习一个技术技巧 Share: 分享一篇有观点和思考的技术文章 Algo ...
PyQt5 调用 View 视图的方法
一.使用Qt Designer 1. 直接引用ui文件: from PyQt5.uic import loadUi class MainWindow(QDialog): def __init__(se ...
Flutter酷炫的路由动画效果
现在Flutter的路由效果已经非常不错了,能满足大部分App的需求,但是谁不希望自己的App更酷更炫那,下面介绍几个酷炫的路由动画. 其实路由动画的原理很简单,就是重写并继承PageRouterBu ...

Python爬取爱奇艺资源

Python爬取爱奇艺资源的更多相关文章

随机推荐

热门专题