selenium配合phantomjs实现爬虫功能，并把抓取的数据写入excel

# -*- coding: UTF-8 -*-

'''

Created on 2016年5月13日

@author: csxie

'''

import datetime

from Base import BasePage

import ExcelOperation as excel

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support.expected_conditions import text_to_be_present_in_element

import unittest

class JobLog(BasePage):

    url=""#目标url

    def setUp(self):

        BasePage.setUP(self)

    def tearDown(self):

        BasePage.tearDown(self)

    def test_querysql(self):

        """

        查询到符合条件的信息并写入excel

        """

        driver=self.driver

        driver.get(self.url)

        '''

        设置参数

        start:起始日期

        end:截止日期

        user:查询人员

        '''

        end=datetime.date.today()

        start=end+datetime.timedelta(days=-6)

        user=None

        #起始日期

        txtStart=driver.find_element_by_id("ctl01_txtSelectDateFrom")

        txtStart.clear()

        txtStart.send_keys(start)

        #截止日期

        txtEnd=driver.find_element_by_id("ctl01_txtSelectDateTo")

        txtEnd.clear()

        txtEnd.send_keys(end)

        #查询人员

        if(user!=None):

            txtuser=driver.find_element_by_id("ctl01_txtUser")

            txtuser.clear()

            txtuser.send_keys(user)

        #查询按钮

        btnQueryInfo=driver.find_element_by_id("ctl01_btnQueryInfo")

        btnQueryInfo.click()

        #总页数

        totalPages=int(driver.find_element_by_id("ctl01_uc_CommonPager_lb_TotalPages").text)

        i=1

        while(i<=totalPages):

            #table的xpath

            listTable=self.getTableData(".//*[@id='ctl01__wrLogList_gvlist']",colNO=9,loop=i)

            #当前页数

            currentPage=int(driver.find_element_by_id("ctl01_uc_CommonPager_lb_PageNum").text)

            if(currentPage==1):

                excel.save_to_excel_newsheet(listTable,excelPath='joblog.xls')

            else:

                excel.save_to_excel_oldsheet(listTable,excelPath='joblog.xls')

            if(i!=totalPages):

                #下一页按钮

                driver.find_element_by_id("ctl01_uc_CommonPager_NextPage").click()

                WebDriverWait(driver,8).until(text_to_be_present_in_element(('id','ctl01_uc_CommonPager_lb_PageNum'),str(i+1)))

            i=i+1

    def getTableData(self,value,colTag='td',colNO=None,loop=None):

        '''

        获取表格数据

        colNO:存在合并行时，强制指定表格列数

        '''

        driver=self.driver

        table=driver.find_element(by="xpath",value=value)

        rows=table.find_elements(by="tag name",value="tr")#行集合

        maxrowCount=len(rows)#表格行数

        #如果colNO=None不为空，则用传进来的值作为列数

        if(colNO==None):

            cols = table.find_elements(by="tag name",value="td");

            if(cols!='td'):

                cols = table.find_elements(by="tag name",value="th")

            maxcolCount=len(cols)/len(rows)#表格列数

        else:

            maxcolCount=colNO      

        lists = [[] for i in range(maxrowCount)]

        #print  "列数"+str(maxcolCount)

        #print  "行数"+str(maxrowCount)

        i=1

        while i<=maxrowCount:

            j=1;#初始化列

            while j<=maxcolCount:

                try:

                    if(i==1):

                        try:

                            innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text

                        except:

                            colTag="th"

                            innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text

                    else:

                        colTag="td"

                        if(j==3 or j==5):

                            innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]/a").get_attribute("title")

                        elif(j==8):

                            innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text

                            innerText=float(innerText.replace("h", ""))

                        else:

                            innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text

                except:

                    innerText=""

                #print "第"+str(i)+"行,第"+str(j)+"列"+str(innerText)

                lists[i-1].append(innerText)

                j+=1

            i+=1

        if(loop!=1):#不是第一次循环，列头不要

            return lists[1:]

        return lists

if __name__ == "__main__":

    unittest.main()

# -*- coding: UTF-8 -*-

'''

Created on 2016年5月18日

@author: csxie

'''

import xlwt

from xlrd import open_workbook

from xlutils.copy import copy

import os

def save_to_excel_newsheet(listTable,excelPath=r'C:\demo.xls',sheetName='sheet1'):

    if(isinstance(listTable,list)):

        rowNO=len(listTable);

        if(rowNO==0):

            raise ValueError,u'传入的是list是空的'

        colNO=len(listTable[0]);

        wkb = xlwt.Workbook()

        sheet = wkb.add_sheet(sheetName)

        for i in range(rowNO):

            for j in range(colNO):

                #print listTable[i][j]

                #print str(i)+'行'+str(j)+'列'

                sheet.write(i,j,listTable[i][j])

        if(os.path.exists(excelPath)):

            os.remove(excelPath)

        wkb.save(excelPath)

        return True

    else:

        raise TypeError,u'传入的类型不是list'

def save_to_excel_oldsheet(listTable,excelPath=r'C:\demo.xls',sheetName='sheet1'):

    if(isinstance(listTable,list)):

        rowNO=len(listTable);

        if(rowNO==0):

            raise ValueError,u'传入的是list是空的'

        colNO=len(listTable[0]);

        rb = open_workbook(excelPath)

        sheet_index=rb.sheet_names().index(sheetName)

        old_rows=rb.sheet_by_name(sheetName).nrows#已存在的excel中数据行数

        wkb = copy(rb)

        sheet = wkb.get_sheet(sheet_index)

        for i in range(rowNO):

            for j in range(colNO):

                sheet.write(i+old_rows,j,listTable[i][j])

                #print str(i)+'行'+str(j)+'列'

        wkb.save(excelPath)

        return True

    else:

        raise TypeError,u'传入的类型不是list'

# -*- coding: UTF-8 -*-

from selenium import webdriver

import unittest

class BasePage(unittest.TestCase):

    def setUP(self):

        self.driver= webdriver.PhantomJS(executable_path="phantomjs.exe")

        #self.driver.set_window_size(1400, 1000)

        #self.driver.implicitly_wait(1)

        self.verificationErrors = []

    def tearDown(self):

        self.driver.quit()

        #self.driver.close()

        self.assertEqual([], self.verificationErrors)

selenium配合phantomjs实现爬虫功能，并把抓取的数据写入excel的更多相关文章

iOS开发——网络实用技术OC篇&网络爬虫－使用青花瓷抓取网络数据
网络爬虫-使用青花瓷抓取网络数据由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...
iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
「拉勾网」薪资调查的小爬虫，并将抓取结果保存到excel中
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
网络爬虫－使用Python抓取网页数据
搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干准备搭建环境因为是MAC电脑,所以自动安装了Python 2.7的版本添加一个库 Beauti ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
[Python爬虫] 之四：Selenium 抓取微博数据
抓取代码: # coding=utf-8import osimport refrom selenium import webdriverimport selenium.webdriver.suppor ...
使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...

随机推荐

可持久化0-1 Trie 简介
Trie树是字符串问题中应用极为广泛的一种数据结构,可以拓展出AC自动机.后缀字典树等实用数据结构. 然而在此我们考虑0-1 Trie的应用,即在序列最大异或问题中的应用. 这里的异或是指按位异或.按 ...
Motif
Motif discovery is in loose terms the problem of finding interesting patterns in sequences. motif: i ...
Scale9Sprite 的 setCapInsets中需要注意的地方
在设置 setCapInsets()方法的y参数的时候,不直接取cocosStudio中的y,而是取Scale9Sprite.height - cocosStudio中的y.
二分题 D - Salary Changing codeforce
题意:给出n个人(n是奇数),s钱:s为总的可以付工钱的钱: 每一个工人有一个付工钱的区间,只要在这个区间范围内,随便一个数都可以当作给这个工人付了钱: 老板要付给每个工人钱,并且付钱的中位数要尽可能 ...
vue中style下scope的使用和坑
在vue组件中,为了使样式私有化(模块化),不对全局造成污染,可以在style标签上添加scoped属性以表示它的只属于当下的模块,这是一个非常好的举措,但是为什么要慎用呢?因为在我们需要修改公共组件 ...
同步异步IO，阻塞非阻塞
同步异步同步IO操作:导致请求进程阻塞,知道IO操作完成. 异步IO操作:不导致进程阻塞. 在处理(网络) IO 的时候,阻塞和非阻塞都是同步IO, 阻塞,就是调用我(函数),我(函数)没有接收完数 ...
560. 和为K的子数组
Q: A: 1.暴力找所有可能的子数组,n^2个子数组,最长长度n,则n ^3. 2.n^2解法从1~n-1各起点开始,一直找到结尾,n^2 class Solution { public: int ...
IntelliJ IDEA 2017.3尚硅谷-----修改当前主题字体、字体大小、行间距、控制台、注释
莫愁前路无知己，天下谁人不识Redis
1. 数据库小知识 1.1 什么是数据库数据库是"按照数据结构来组织.存储和管理数据的仓库".是一个长期存储在计算机内的.有组织的.有共享的.统一管理的数据集合.数据库是以一定方 ...
go之二进制协议gob和msgpack
文章引用自二进制协议gob和msgpack介绍本文主要介绍二进制协议gob及msgpack的基本使用. 最近在写一个gin框架的session服务时遇到了一个问题,Go语言中的json包在序列化空 ...

selenium配合phantomjs实现爬虫功能，并把抓取的数据写入excel

selenium配合phantomjs实现爬虫功能，并把抓取的数据写入excel的更多相关文章

随机推荐

热门专题