使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据

　　记录一次快速实现的python爬虫，想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案，网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995.html。

　　比较简单的网站不同的页码的链接也不同，可以通过观察链接的变化找出规律，然后生成全部页码对应的链接再分别抓取，但是这个网站在换页的时候链接是没有变化的，因此打算去观察一下点击第二页时的请求

　　发现使用的是get的请求方法，并且请求里有curpage这个参数，貌似控制着不同页数，于是改动了请求链接中的这个参数值为其他数值发现并没有变化，于是决定换一种方法，就是我们标题中提到的使用selenium+beautifulsoup实现模拟点击网页中的下一页按钮来实现翻页，并分别抓取网页里的内容。

　　首先我们先做一下准备工作，安装一下需要的包，打开命令行，直接pip install selenium和pip install beautifulsoup4

　　然后就是下载安装chromedriver的驱动，网址如下https://sites.google.com/a/chromium.org/chromedriver/downloads，记得配置下环境变量或者直接安装在工作目录下。（还可以使用IE、phantomJS等）

　　这里我们先抓取每一个股票对应的主页链接，代码如下（使用python2）：

 1 # -*- coding: utf-8 -*-

 2 from selenium import webdriver

 3 from bs4 import BeautifulSoup

 4 import sys

 5 reload(sys)

 6 sys.setdefaultencoding('utf-8')

 7

 8 def crawl(url):

 9     driver = webdriver.Chrome()

10     driver.get(url)

11     page = 0

12     lst=[]

13     with open('./url.txt','a') as f:

14         while page < 234:

15             soup = BeautifulSoup(driver.page_source, "html.parser")

16             print(soup)

17             urls_tag = soup.find_all('a',target='_blank')

18             print(urls_tag)

19             for i in urls_tag:

20                 if i['href'] not in lst:

21                     f.write(i['href']+'\n')

22                     lst.append(i['href'])

23             driver.find_element_by_xpath("//a[contains(text(),'下一页')]").click()

24             time.sleep(2)

25     return 'Finished'

26 def main():

27     url = 'http://data.cfi.cn/cfidata.aspx?sortfd=&sortway=&curpage=2&fr=content&ndk=A0A1934A1935A1986A1995&xztj=&mystock='

28     crawl(url)

29 if __name__ == '__main__':

30     main()

　　　　运行代码发现总是报错：

　　　　这里报错的意思是找不到想要找的按钮。

　　　　于是我们去查看一下网页源代码：

　　　　发现网页分为不同的frame，所以我们猜想应该需要跳转frame，我们需要抓取的链接处于的frame的name为“content”，所以我们添加一行代码：driver.switch_to.frame('content')

def crawl(url):

    driver = webdriver.Chrome()

    driver.get(url)

    driver.switch_to.frame('content')

    page = 0

    lst=[]

    with open('./url.txt','a') as f:

        while page < 234:

            soup = BeautifulSoup(driver.page_source, "html.parser")

            print(soup)

            urls_tag = soup.find_all('a',target='_blank')

            print(urls_tag)

            for i in urls_tag:

                if i['href'] not in lst:

                    f.write(i['href']+'\n')

                    lst.append(i['href'])

            driver.find_element_by_xpath("//a[contains(text(),'下一页')]").click()

            time.sleep(2)

    return 'Finished'

　　　　至此，运行成：

参考博文链接：　　　　　　　　　　http://unclechen.github.io/2016/12/11/python%E5%88%A9%E7%94%A8beautifulsoup+selenium%E8%87%AA%E5%8A%A8%E7%BF%BB%E9%A1%B5%E6%8A%93%E5%8F%96%E7%BD%91%E9%A1%B5%E5%86%85%E5%AE%B9/

http://www.cnblogs.com/liyuhang/p/6661835.html

使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据的更多相关文章

使用Selenium+firefox抓取网页指定firefox_profile后的问题
from: https://blog.csdn.net/chufazhe/article/details/51145834 摘要:在使用selenium和firefox抓取网页指定firefox_pr ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
[Python爬虫] 之四：Selenium 抓取微博数据
抓取代码: # coding=utf-8import osimport refrom selenium import webdriverimport selenium.webdriver.suppor ...
selenium配合phantomjs实现爬虫功能，并把抓取的数据写入excel
# -*- coding: UTF-8 -*- ''' Created on 2016年5月13日 @author: csxie ''' import datetime from Base impor ...
利用selenium抓取网页的ajax请求
部门需要一个自动化脚本,完成web端界面功能的冒烟,并且需要抓取加载页面时的ajax请求,从接口层面判断请求是否成功.查阅了很多资料都没有人有过相关问题的处理经验,在处理过程中也踩了很多坑,所以如果你 ...
php使用curl抓取网页自动跳转问题处理
问题分析: 请求抓取http://go.com数据: function curlGet($url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, ...
python+selenium+webdriver+BeautifulSoup实现自动登录
from selenium import webdriverimport timefrom bs4 import BeautifulSoupfrom urllib import requestimpo ...
一、使用 BeautifulSoup抓取网页信息信息
一.解析网页信息 from bs4 import BeautifulSoup with open('C:/Users/michael/Desktop/Plan-for-combating-master ...
Selenium webdriver 截图太长截不全的问题
Selenium webdriver 截图太长截不全的问题 1.环境 selenium webdriver.net 2.46.0.0 + firefox 37.0.1 + win 8.1 2.问题 ...

随机推荐

Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'zhongfucheng.user' does
编写第一个Hibernate程序的时候,就发现出现了错误 Exception in thread "main" org.hibernate.exception.SQLGrammar ...
【译】The Accidental DBA：Troubleshooting
最近重新翻看The Accidental DBA,将Troubleshooting部分稍作整理,方便以后查阅.此篇是Part 3Part 1:The Accidental DBA:SQL Server ...
C#调用AForge实现摄像头录像
1: 首先下载库文件>> 也可以去官网寻找>> 下载本教程全代码>> 输出为MP4需要用到ffmpeg相关的文件,我打包的库已经带了,去官网找的库可以在这个目录找到 ...
Kafka水位(high watermark)与leader epoch的讨论
~~~这是一篇有点长的文章,希望不会令你昏昏欲睡~~~ 本文主要讨论0.11版本之前Kafka的副本备份机制的设计问题以及0.11是如何解决的.简单来说,0.11之前副本备份机制主要依赖水位(或水印) ...
杂谈--DML触发器学习
触发器按类型分为三类: 1. DML 触发器,在数据变更时触发: 2. DDL 触发器,在修改数据库级别或实例级别对象时触发: 3. Login 触发器,在用户登录时触发: 最常见的是DML触发器,D ...
深入理解计算机系统chapter1
---恢复内容开始--- 预处理器+编译器+汇编器+链接器=编译系统运行hello程序操作系统: 无论是在单核还是多核系统中,一个CPU看上去都在并发的执行多个进程,这是通过处理器在进程间切换来实 ...
struts标签与jstl标签互换
近期在做struts切换spring mvc时发现代码中使用了大量的struts标签,对常用的struts标签做了总结,首先需要引入 <%@ taglib prefix="c" ...
.Neter玩转Linux系列之一：初识Linux
一.为什么要学习Linux (1)首先我们欣赏一下,曾经的微软是如何看待Linux的,是不是很惊讶,微软还是很可爱的(#^.^#) 如今的微软看待Linux的态度:有人说微软技术那么厉害,难道微软就不 ...
MySQL之增删改查
前言:以下是MySQL最基本的增删改查语句,很多IT工作者都必须要会的命令,也是IT行业面试最常考的知识点,由于是入门级基础命令,所有所有操作都建立在单表上,未涉及多表操作. 前提:在进行" ...
handlebar JS模板使用笔记
直接上代码: (定义模板) (编译注入) ***知识点*** //数据必须为Json数据(强调:jsonp数据不行,和json是两种数据,jsonp多了callback回调函数来包裹json数据) 遍 ...

使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据

使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据的更多相关文章

随机推荐

热门专题