近期由于公司资源需要,我爬取了一个视频网站,结果以为一个很容易的小爬虫,却步步是坑啊,费了一天终于都解决了(太菜了!!!)。

前面导航页的爬虫就不多说了,无非就是webdriver和PhantomJS,然后设置referer和ua,就可以一层一层访问了。其实大多数的网站的防爬都会这么做。

然后到了详情页面,就是我遇到的最困难的一步了。网站为了防止爬虫,嵌套了3层iframe,并且每个iframe都有很多限制,单独打开无法得到想要的数据。

但是PhantomJS获取到的网站源码即使是js加载完成以后的源码也是无法得到iframe里面的源码的,在网上找了很多方法,然后终于找到了方法。

driver.get(url)
iframe = driver.find_elements_by_tag_name('iframe')[1]
driver.switch_to.frame(iframe) # 最重要的一步
soup = BeautifulSoup(driver.page_source, "html.parser")
1
2
3
4
最主要的就是driver.switch_to.frame(iframe) 这个方法,它会尽到iframe里面去执行,这样的话就不需要你在去设置referer之类的了,很方便的就访问了。到这一步大多数的iframe里面的东西就可以取到了。

但是!!!这个网站防爬还是做的比较不错了,iframe里面的数据还是获取不到视频的源,js代码都执行了。没办法了,最后使用webdriver.Chrome方法才获取到了数据。看来PhantomJS还是有一些功能限制啊。

每次访问不能一直打开浏览器呀,这样在服务器也无法实现,幸好webdriver.Chrome还提供方法实现无窗口访问,代码就是这样的:

chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome('/usr/local/Sunanang/chromedriver/chromedriver',
chrome_options=chrome_options)
1
2
3
4
到此,基本的功能也实现了。
具体实现代码如下:

# -*- coding: utf-8 -*-
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
import sys
from pyvirtualdisplay import Display

chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome('/usr/local/Sunanang/chromedriver/chromedriver',
chrome_options=chrome_options)

def getDriverHttp(url):
driver.get(url)
iframe = driver.find_elements_by_tag_name('iframe')[1]
driver.switch_to.frame(iframe) # 最重要的一步
soup = BeautifulSoup(driver.page_source, "html.parser")
return soup

def getVideoUrl(url):
soup = getHttp(url)
miPlayer = soup.find('div',id='J_miPlayer')
url = miPlayer.find('video').get('src')
driver.quit()
return url

if __name__ == '__main__':
path = getVideoUrl(u'http://aaxxy.com/vod-play-id-10788-src-1-num-2.html')
# path = getVideoUrl(url==sys.argv[1])
print path
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
最后才发现代码真的非常非常少,结果费了一天的功夫才解决。记录一下,提醒一下自己有多菜。
---------------------
作者:Sunanang
来源:CSDN
原文:https://blog.csdn.net/sun_lianqiang/article/details/79402512
版权声明:本文为博主原创文章,转载请附上博文链接!

Python爬虫关于多层嵌套iframe的解决的更多相关文章

  1. iframe自适应高度,多层嵌套iframe自适应高度的解决方法

    在页面无刷新更新方面,虽然现在的ajax很强悍,但是处理代码相对多点.想比之下,iframe就简单多了!处理iframe的自适应宽.高,会经常用到,网上整理了一份,写在这里备用: 单个iframe 高 ...

  2. Python爬虫实战——反爬机制的解决策略【阿里】

    这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析 输入" ...

  3. python技巧:拆分多层嵌套列表

    方法一: >>> import itertools >>> a = [[1, 2], [3, 4], [5, 6]] >>> list(itert ...

  4. python爬虫中遇到的问题以及解决方法

    (1)运行后报错:“TypeError: cannot use a string pattern on a bytes-like” 原因:content用decode(‘utf-8’)进行解码,由by ...

  5. python爬虫小实例

    1.python爬取贴吧壁纸 1.1.获取整个页面数据 #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) ...

  6. python爬虫中文乱码解决方法

    python爬虫中文乱码 前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...

  7. Python之路Python全局变量与局部变量、函数多层嵌套、函数递归

    Python之路Python全局变量与局部变量.函数多层嵌套.函数递归 一.局部变量与全局变量 1.在子程序中定义的变量称为局部变量,在程序的一开始定义的变量称为全局变量.全局变量作用域是整个程序,局 ...

  8. Python爬虫老是被封的解决方法【面试必问】

    在爬取的过程中难免发生 ip 被封和 403 错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下 Python 爬虫动态 ip 代理防止被封的方法. PS:另外很多人在学习Pyth ...

  9. python中jsonpath模块,解析多层嵌套的json数据

    1. jsonpath介绍用来解析多层嵌套的json数据;JsonPath 是一种信息抽取类库,是从JSON文档中抽取指定信息的工具,提供多种语言实现版本,包括:Javascript, Python, ...

随机推荐

  1. 蚂蚁金服首席数据科学家漆远:AI技术开放,与业界融合共创

    小蚂蚁说: 11月8日,在第五届世界互联网大会-<人工智能:融合发展新机遇>论坛上,蚂蚁金服副总裁.首席数据科学家漆远认为AI具有控制风险.降本增效和提升用户体验三大作用. 11月8日,第 ...

  2. python+win32+ie浏览器操作 TypeError: getElementById() takes exactly 1 argument (2 given)

    使用body操作 # -*- coding:UTF- -*- import win32com.client from time import sleep second=win32com.client. ...

  3. async await 多线程

    async await 并没有开启多线程  出现await的地方 只是开启了一个子线程继续往后执行  主线程返回 防止阻塞 相当于  await customerRepository.getall() ...

  4. StringBuilderWriter 这个类需要commons.io.2.6这个包才可以使用, 在maven仓库中搜

  5. 求文件的hash值(基于SHA3的Hash)

    import hashlib import tkinter from tkinter import filedialog import pyperclip def fileHash(fileName) ...

  6. DAY2 初识python

    一.编程语言介绍 1.1 机器语言:直接用计算机能理解的二进制指令编写程序,直接控制硬件 1.2 汇编语言:用英文标签取代二进制指令取编写程序,本质也是在直接控制硬件 1.3 高级语言:用人能理解的表 ...

  7. x1c 2018 静音调教

    折腾快1周,在去intel官网手动下载最新显卡驱动,手动卸载老驱动,断网,重启,手动安装之后(还要再禁用点和散热相关的设备).终于不卡了.开始工作,但又遇到一个问题:太TM吵了! 经过调教,基本保障看 ...

  8. AD原理图统一命名

    1 Tools->Annotate Schematics 调出统一命名窗口 2 勾选要统一命名的原理图 3 Update Changes List 4 Accept Changes(creat ...

  9. 用basicTrendline画一元线性回归直线的置信区间

    感慨统计学都还给老师了..恶补! R安装包的时候貌似需要用管理员权限启动,否则安装不了,国内镜像卡得渣渣,还是国外镜像真香~选择hongkong就好了. install.packages(" ...

  10. mismatch详解

    mismatch到底只是一个碱基替换,还是也包括了插入缺失? If two sequences in an alignment share a common ancestor, mismatches ...