Python爬虫开发【第1篇】【爬虫案例】

案例一：网站模拟登录

# douban.py

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

driver = webdriver.PhantomJS()

driver.get("http://www.douban.com")

# 输入账号密码

driver.find_element_by_name("form_email").send_keys("xxxxx@xxxx.com")

driver.find_element_by_name("form_password").send_keys("xxxxxxxx")

# 模拟点击登录

driver.find_element_by_xpath("//input[@class='bn-submit']").click()

# 等待3秒

time.sleep(3)

# 生成登陆后快照

driver.save_screenshot("douban.png")

with open("douban.html", "w") as file:

    file.write(driver.page_source)

driver.quit()

案例二：动态页面模拟点击

#!/usr/bin/env python

# -*- coding:utf-8 -*-

# python的测试模块

import unittest

from selenium import webdriver

from bs4 import BeautifulSoup

class douyuSelenium(unittest.TestCase):

    # 初始化方法

    def setUp(self):

        self.driver = webdriver.PhantomJS()

    #具体的测试用例方法，一定要以test开头

    def testDouyu(self):

        self.driver.get('http://www.douyu.com/directory/all')

        while True:

            # 指定xml解析

            soup = BeautifulSoup(driver.page_source, 'xml')

            # 返回当前页面所有房间标题列表 和 观众人数列表

            titles = soup.find_all('h3', {'class': 'ellipsis'})

            nums = soup.find_all('span', {'class': 'dy-num fr'})

            # 使用zip()函数来可以把列表合并，并创建一个元组对的列表[(1,2), (3,4)]

            for title, num in zip(nums, titles):

                print u"观众人数:" + num.get_text().strip(), u"\t房间标题: " + title.get_text().strip()

            # page_source.find()未找到内容则返回-1

            if driver.page_source.find('shark-pager-disable-next') != -1:

                break

            # 模拟下一页点击

            self.driver.find_element_by_class_name('shark-pager-next').click()

    # 退出时的清理方法

    def tearDown(self):

        print '加载完成...'

        self.driver.quit()

if __name__ == "__main__":

    unittest.main()

案例三：执行 JavaScript 语句

1.隐藏百度图片

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.get("https://www.baidu.com/")

# 给搜索输入框标红的javascript脚本

js = "var q=document.getElementById(\"kw\");q.style.border=\"2px solid red\";"

# 调用给搜索输入框标红js脚本

driver.execute_script(js)

#查看页面快照

driver.save_screenshot("redbaidu.png")

#js隐藏元素，将获取的图片元素隐藏

img = driver.find_element_by_xpath("//*[@id='lg']/img")

driver.execute_script('$(arguments[0]).fadeOut()',img)

# 向下滚动到页面底部

driver.execute_script("$('.scroll_top').click(function(){$('html,body').animate({scrollTop: '0px'}, 800);});")

#查看页面快照

driver.save_screenshot("nullbaidu.png")

driver.quit()

2.模拟滚动条滚动到底部

from selenium import webdriver

import time

driver = webdriver.PhantomJS()

driver.get("https://movie.douban.com/typerank?type_name=剧情&type=11&interval_id=100:90&action=")

# 向下滚动10000像素

js = "document.body.scrollTop=10000"

#js="var q=document.documentElement.scrollTop=10000"

time.sleep(3)

#查看页面快照

driver.save_screenshot("douban.png")

# 执行JS语句

driver.execute_script(js)

time.sleep(10)

#查看页面快照

driver.save_screenshot("newdouban.png")

driver.quit()

Python爬虫开发【第1篇】【爬虫案例】的更多相关文章

python网页爬虫开发之四-串行爬虫代码示例
实现功能:代理.限速.深度.反爬 import re import queue import urllib.parse import urllib.robotparser import time fr ...
Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|
Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应 ...
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...
洗礼灵魂，修炼python（72）--爬虫篇—爬虫框架：Scrapy
题外话: 前面学了那么多,相信你已经对python很了解了,对爬虫也很有见解了,然后本来的计划是这样的:(请忽略编号和日期,这个是不定数,我在更博会随时改的) 上面截图的是我的草稿然后当我开始写博文 ...
爬虫开发python工具包介绍（1）
本文来自网易云社区作者:王涛本文大纲: 简易介绍今天要讲解的两个爬虫开发的python库详细介绍 requests库及函数中的各个参数详细介绍 tornado 中的httpcilent的应用 ...
Python 3网络爬虫开发实战》中文PDF+源代码+书籍软件包
Python 3网络爬虫开发实战>中文PDF+源代码+书籍软件包下载:正在上传请稍后... 本书书籍软件包为本人原创,在这个时间就是金钱的时代,有些软件下起来是很麻烦的,真的可以为你们节省很多 ...
Python 3网络爬虫开发实战中文书籍软件包(原创)
Python 3网络爬虫开发实战中文书籍软件包(原创) 本书书籍软件包为本人原创,想学爬虫的朋友你们的福利来了.软件包包含了该书籍所需的所有软件. 因为软件导致这个文件比较大,所以百度网盘没有加速的 ...
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...
《Python 3网络爬虫开发实战中文》超清PDF+源代码+书籍软件包
<Python 3网络爬虫开发实战中文>PDF+源代码+书籍软件包下载: 链接:https://pan.baidu.com/s/18yqCr7i9x_vTazuMPzL23Q 提取码:i ...
Python 3网络爬虫开发实战书籍
Python 3网络爬虫开发实战书籍,教你学会如何用Python 3开发爬虫本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.reques ...

随机推荐

spoj-TSUM Triple Sums
题目描述题解: 很吊的容斥+$FFT$,但是并不难. 首先,由于有重复,我们要容斥. 怎么办? 记录三个多项式, 只取一个:$w1$; 相同物体拿两个:$w2$; 相同物体拿三个:$w3$; 然后答 ...
Gameia
F - Gameia HDU - 6105 Alice and Bob are playing a game called 'Gameia ? Gameia !'. The game goes l ...
C#对象初始化的探讨
最近在弄MQ的性能监测数据埋点,无疑中用到一个Nstatsd的客户端,看到里面写过里面一种嵌套类的写法.代码如下: 客户端Client是一个密封的类,并且构造函数私有访问.然后又用一个嵌套类Curre ...
PHP调用webService WSDL 接口发送邮件
1.什么是 webService WSDL? webService WSDL 暴露一些接口给第三方调用,在底层会转化成一个HTTP请求,主要是不同语言之间为了通讯的一个协议,比如发送邮件的系统是用J ...
C语言学习10
判断三角形的类型根据输入的三角形的三条边判断三角形的类型,并输出它的面积. #include <stdio.h> #include <math.h> void judge_1 ...
【7.1.1】ELK日志系统单体搭建
ELK是什么? 一般来说,为了提高服务可用性,服务器需要部署多个实例,每个实例都是负载均衡转发的后的,如果还用老办法登录服务器去tail -f xxx.log,有很大可能错误日志未出现在当前服务器中, ...
【06】Firebug记录Javascript日志
Firebug记录Javascript日志你可以使用Firebug来生成日志. 这有助于我们调试web页面并发现页面的错误. 在Firefox浏览器中执行以下代码: <!DOCTYPE HTM ...
luogu3415 祭坛
先二分答案转化成判定问题. 考虑拿一根扫描线从 $x=0$ 扫到 $x=n$,每次移动扫描线更新每个位置它上面的点数和下面的点数,这样可以确定在当前的扫描线上哪些位置对于 $y$ 轴方向是 ...
大数据学习——ip改成固定ip
vi /etc/sysconfig/network-scripts/ifcfg-eth0 修改BOOTPROTO为static 添加IPADDR=192.168.74.100 添加NETMASK=25 ...
hibernate保存oracle日期时间
用java生成一个带年月日时分秒的时间,通过hibernate对象保存到oracle中的Date字段中, 第一种方法: java实体类的createDate属性,类型为java.util.Date h ...

Python爬虫开发【第1篇】【爬虫案例】

案例一：网站模拟登录

案例二：动态页面模拟点击

案例三：执行 JavaScript 语句

Python爬虫开发【第1篇】【爬虫案例】的更多相关文章

随机推荐

热门专题