爬虫再探实战（三）———爬取动态加载页面—

　　　　自学python爬虫也快半年了,在目前看来，我面临着三个待解决的爬虫技术方面的问题：动态加载，多线程并发抓取，模拟登陆。目前正在不断学习相关知识。下面简单写一下用selenium处理动态加载页面相关的知识。目标——抓取页面所有的高考录取分数信息。

　　　　对于动态加载，开始的时候是看到Selenium+Phantomjs的强大，直接就学的这个。打开网页查看网页源码（注意不是检查元素）会发现要爬取的信息并不在源码里面。也就是说，从网页源码无法通过解析得到数据。Selenium+Phantomjs的强大一方面就在于能将完整的源码抓取到，上代码。

from selenium import webdriver

def get_grade(url):

    print(url)

    #匿名爬虫

    #假定9999端口开启tor服务

    service_args = ['--proxy=localhost:9999', '--proxy-type=socks5', ]

    driver = webdriver.PhantomJS(executable_path=这里是PhantomJS的绝对路径)

    driver.get(url)

    data = driver.page_source

    print(data)

get("http://gkcx.eol.cn/soudaxue/queryProvince.html?page=1")

　　这里还用到了匿名爬虫，这里呢我也只是到了能用的水平，具体原理还不太懂。。。这样就能拿到完整的源码，是不是很简单呢？当然简单啦，不过简单的代价就是牺牲速度。

这个程序还不算复杂，当抓取量大的时候，模拟抓取的效率就会变得很低（还不会多线程。。。不知道用多线程能不能提速）。下面是此项目的完整代码：

import xlsxwriter

from selenium import webdriver

from bs4 import BeautifulSoup

def get_grade(url):

    print(url)

    #匿名爬虫

    #假定9999端口开启tor服务

    service_args = ['--proxy=localhost:9999', '--proxy-type=socks5', ]

    driver = webdriver.PhantomJS(executable_path=r"F:\Techonolgoy\Python\file\spider\spider_tools\JS\1\phantomjs.exe")

    driver.get(url)

    data = driver.page_source

    # print(data)

    soup = BeautifulSoup(data, 'lxml')

    grades = soup.find_all('tr')

    for grade in grades:

        global i

        if '<td>' in str(grade):

            i += 1

            print(i)

            grade_text =grade.get_text()

            print(grade_text)

            grade_text = str(grade_text)

            city = grade_text[:-13]

            worksheet.write(i,0,city)

            time = grade_text[-13:-9]

            worksheet.write(i,1,time)

            subs = grade_text[-9:-7]

            worksheet.write(i,2,subs)

            s = grade_text[-7:-3]

            worksheet.write(i,3,s)

            grade = grade_text[-3:]

            worksheet.write(i,4,grade)

i = -1

workbook = xlsxwriter.Workbook('grades.xlsx')

worksheet = workbook.add_worksheet()

worksheet.set_column('A:A',10)

worksheet.set_column('B:B', 10)

worksheet.set_column('C:C', 10)

worksheet.set_column('D:D', 10)

worksheet.set_column('E:E', 10)

urls = ['http://gkcx.eol.cn/soudaxue/queryProvince.html?page='+str(num)

        for num in range(1,166)]

for url in urls:

    get_grade(url)

workbook.close()

　　家里面网速太慢，一共用了20分钟才爬取完毕。。。抓取到的EXCEL文件格式如下：

　　　　我是被这模拟抓取的龟速折磨的够心累的，所以，经大牛们指点，找到了处理这类问题的另一个方法——直接清求json文件获取数据！这个放到下面再写。

爬虫再探实战（三）———爬取动态加载页面——selenium的更多相关文章

Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
爬虫再探实战（四）———爬取动态加载页面——请求json
还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息. 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造request ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
C#使用phantomjs，爬取AJAX加载完成之后的页面
1.开发思路:入参根据apiSetting配置文件,分配静态文件存储地址,可实现不同站点的静态页生成功能.静态页生成功能使用无头浏览器生成,生成之后的字符串进行正则替换为固定地址,实现本地正常访问. ...
ExtJS 4.1 TabPanel动态加载页面并执行脚本【转】
ExtJS 4.1 TabPanel动态加载页面并执行脚本按照官方示例,可以动态加载页面,可是脚本不执行,于是查SDK.google,发现scripts需要设置为true,于是设置该属性,整个代码如 ...
记录Js动态加载页面.append、html、appendChild、repend添加元素节点不生效以及解决办法
今天再优化blog页面的时候添加了个关注按钮和图片,但是页面上这个按钮和图片时有时无,本来是搞后端的,被这个前端的小问题搞得抓耳挠腮的! 网上各种查询解决方案,把我解决问题的艰辛历程分享出来,希望大家 ...
div动态加载页面
div动态加载页面 /* /// method 1 var url="<%=basePath%>/qne.do?p=pessegerCountSet"; $.post( ...
Python 爬虫实例（8）—— 爬取动态页面
今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图源代码: #-*-coding:utf-8-*- import time from ...

随机推荐

jquery 获取属性的值
jquery中用attr()方法来获取和设置元素属性,attr是attribute(属性)的缩写,在jQuery DOM操作中会经常用到attr(),attr()有4个表达式. 1. attr( 属 ...
poj-----(2528)Mayor's posters(线段树区间更新及区间统计+离散化)
Mayor's posters Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 43507 Accepted: 12693 ...
JS基础--问题记录
1. {}var a={};{}是一个空的对象,是 new Object();的简写. 2.判断元素是存在 //jQuery 对象中元素的个数.当前匹配的元素个数. size 将返回相同的值. if ...
MVC之URL路由
注册路由规则集合一个 Web 应用具有一个全局的路由表,该路由表通过 System. Web.Routing.RouteTable的静态只读属性 Routes 表示,该属性返回一个类型为 Syste ...
注解配置springMvc及向作用域中赋值
1.在applicationContext.xml中配置包扫描器  <context:component-scan base-package=&q ...
Python eclipse开发环境搭建
http://jingyan.baidu.com/article/cd4c2979101f02756f6e6064.html http://jingyan.baidu.com/article/1876 ...
5月4日课堂内容：for循环的穷举、迭代
一.for循环拥有两类: 1.穷举: 把所有可能的情况都走一遍,使用if条件筛选出来满足条件的情况. 2.迭代: 从初始情况按照规律不断求解中间情况,最终推导出结果. 二.穷举练习 1.单位给发了一张 ...
C#学习笔记思维导图一本书22张图
阅读的书是<21天学通C#>博客中有下载看看总结之后的模块全部文件初步展示数据存储继承模块暂时就这些吧全部思维导图22张打包下载
JS中把字符串转成JSON对象的方法
在JS中,把 json 格式的字符串转成JSON对象,关键代码 json = eval('('+str+')'); <!DOCTYPE html PUBLIC "-//W3C//DTD ...
FZU 2028 时空门问题
题目链接:时空门问题简单bfs,每个格子移动的方式除了上下左右,还有时空门,开始想着用邻接表保存每个点能通过时空门到达的点就ok了.很快的敲出来,很快的WA了.长久的dbug并没有发现error.然 ...

爬虫再探实战（三）———爬取动态加载页面——selenium

爬虫再探实战（三）———爬取动态加载页面——selenium的更多相关文章

随机推荐

热门专题