python爬虫3——获取审查元素(板野友美吧图片下载)

测试环境：python2.7 + beautifulsoup4.4.1 + selenium2.48.0

测试网址：http://tieba.baidu.com/p/2827883128

目的是下载该网页下所有图片，共160+张。可以分为以下几步：

1、获取网页源代码。

发现直接通过urllib2或者request获取到的源代码和实际图片对应不起来，通过chrome审查元素功能可以查询到对应的图片，猜测是该页面的图片加载是通过ajax异步传输的。因此使用工具selenium + chromedriver实现。安装好selenium+chromedriver之后，即可获取到需要的源代码。

2、分析获取到的源代码，找出图片的实际地址然后下载。过程与python爬虫2——下载文件类似。之前分析源码都是直接通过正则表达式实现，建议学习下beautifulsoup(现在就去)，更方便。

实际程序运行后发现，只能获取到40张图片。原因是页面加载完成后，只有40张图片。如果需要获取全部图片，需要在页面加载完成之前，手动往下滑动滚轮，之后浏览器继续发送ajax请求给服务器，获取其他的图片。该方法实际测试可行，可以获取全部图片。

但是！手动操作这种方法太low了！以下是我的猜想：1、是否可以直接通过分析源代码中的js部分，直接提取出所有向后台服务器发送ajax请求的代码，一次性发送出去从而得到所有图片的地址？ 2、是否可以通过js或者selenium，在加载页面的时间段，模拟滚轮动作，从而实现功能。方法2我实际测试了下，由于水平有限，不熟悉js，没有成功。附代码：

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

from selenium import webdriver

driver = webdriver.Chrome()

url = "http://tieba.baidu.com/p/2827883128"

driver.get(url)

try:

    # driver.implicitly_wait(20)

    # driver.find_element_by_id("ag_main_bottombar")

    # js="var q=document.body.scrollTop=10000"

    # driver.execute_script(js)

    sourcePage = driver.page_source

    soup = BeautifulSoup(sourcePage, "lxml")

    images = soup.find_all(class_ = "ag_ele_a ag_ele_a_v")

    print(len(images))

    for image in images:

        print(image)

finally:

    # pass

    driver.quit()

python爬虫3——获取审查元素(板野友美吧图片下载)的更多相关文章

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
Python爬虫抓取某音乐网站MP3（下载歌曲、存入Sqlite）
最近右胳膊受伤,打了石膏在家休息.为了实现之前的想法,就用左手打字.写代码,查资料完成了这个资源小爬虫.网页爬虫, 最主要的是协议分析(必须要弄清楚自己的目的),另外就是要考虑对爬取的数据归类,存储. ...
Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
python爬虫案例：使用XPath爬网页图片
用XPath来做一个简单的爬虫,尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # -*- coding:utf-8 -*- import urllib import ...
python爬虫---爬取王者荣耀全部皮肤图片
代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
python 爬虫（爬取网页的img并下载）
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...

随机推荐

WCF生成客户端代理对象的两种方法的解释
最近在封装WCF,有一些很好的实践就记录下来,大家可以放心使用,所有代码都已经调试过.如果有高手可以大家探讨一下. 在WCF中有两种不同的方法可以用于创建客户端服务对象,他们分别为: 1. 代理构造法 ...
python之数据类型1
什么是数据类型及数据类型分类 python中的数据类型 python使用对象模型来存储数据,每一个数据类型都有一个内置的类,每新建一个数据,实际就是在初始化生成一个对象,即所有数据都是对 ...
DEVEXPRESS 破解方法
Devexpress 是.net的一个非常好用的插件.能够轻松的帮你实现一个非常炫的UI,无论是C#的Winform还是ASP.NET的网站. 鄙人这两天在用DEVEXPRESS的过程中发现在网上并未 ...
nexus 组件下载和上传
一. 重写 super pom 修改 maven 的 settings.xml Configuring Maven to Use a Single Repository Group <setti ...
wadl 的自动生成（cxf版本2.7.6）
参考文档 http://cxf.apache.org/docs/jaxrs-services-description.html 获取项目 git@github.com:witaste/cxf-2.7. ...
osgearth
https://max.book118.com/html/2018/0521/167783983.shtm https://baike.1688.com/doc/view-d36134276.html
github/gitlab添加多个ssh key
系统:macOS X 由于公司的代码管理放在了gitlab.com上,所以添加了一个ssh key, 生成ssh key的代码如下: 1.$ ssh-keygen -t rsa -C “yourema ...
团队作业第四周（HCL盐酸队）——项目冲刺（第一篇）
任务认领情况: 1.坦克类实现:李密,卢泰佑 2.子弹类,线程类实现:黄国航赖少勇 3.画笔类,地图的实现:陈舒标黄宇航明日任务安排: 今天在通过已经购买的GUI书籍的帮助下,已经实现了界面的 ...
inline函数的作用
(一)inline函数(摘自C++ Primer的第三版) 在函数声明或定义中函数返回类型前加上关键字inline即把min()指定为内联. inline int min(int first, int ...
const 用法全面总结
C++中的const关键字的用法非常灵活,而使用const将大大改善程序的健壮性,本人根据各方面查到的资料进行总结如下,期望对朋友们有所帮助. Const 是C++中常用的类型修饰符,常类型是指使用类 ...

python爬虫3——获取审查元素(板野友美吧图片下载)

python爬虫3——获取审查元素(板野友美吧图片下载)的更多相关文章

随机推荐

热门专题