selenium配合phantomjs实现爬虫功能,并把抓取的数据写入excel
# -*- coding: UTF-8 -*-
'''
Created on 2016年5月13日 @author: csxie
'''
import datetime
from Base import BasePage
import ExcelOperation as excel
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support.expected_conditions import text_to_be_present_in_element
import unittest
class JobLog(BasePage):
url=""#目标url
def setUp(self):
BasePage.setUP(self)
def tearDown(self):
BasePage.tearDown(self) def test_querysql(self):
"""
查询到符合条件的信息并写入excel
"""
driver=self.driver
driver.get(self.url)
'''
设置参数
start:起始日期
end:截止日期
user:查询人员
'''
end=datetime.date.today()
start=end+datetime.timedelta(days=-6)
user=None
#起始日期
txtStart=driver.find_element_by_id("ctl01_txtSelectDateFrom")
txtStart.clear()
txtStart.send_keys(start)
#截止日期
txtEnd=driver.find_element_by_id("ctl01_txtSelectDateTo")
txtEnd.clear()
txtEnd.send_keys(end)
#查询人员
if(user!=None):
txtuser=driver.find_element_by_id("ctl01_txtUser")
txtuser.clear()
txtuser.send_keys(user)
#查询按钮
btnQueryInfo=driver.find_element_by_id("ctl01_btnQueryInfo")
btnQueryInfo.click()
#总页数
totalPages=int(driver.find_element_by_id("ctl01_uc_CommonPager_lb_TotalPages").text)
i=1
while(i<=totalPages):
#table的xpath
listTable=self.getTableData(".//*[@id='ctl01__wrLogList_gvlist']",colNO=9,loop=i)
#当前页数
currentPage=int(driver.find_element_by_id("ctl01_uc_CommonPager_lb_PageNum").text)
if(currentPage==1):
excel.save_to_excel_newsheet(listTable,excelPath='joblog.xls')
else:
excel.save_to_excel_oldsheet(listTable,excelPath='joblog.xls')
if(i!=totalPages):
#下一页按钮
driver.find_element_by_id("ctl01_uc_CommonPager_NextPage").click()
WebDriverWait(driver,8).until(text_to_be_present_in_element(('id','ctl01_uc_CommonPager_lb_PageNum'),str(i+1)))
i=i+1 def getTableData(self,value,colTag='td',colNO=None,loop=None):
'''
获取表格数据
colNO:存在合并行时,强制指定表格列数
'''
driver=self.driver
table=driver.find_element(by="xpath",value=value)
rows=table.find_elements(by="tag name",value="tr")#行集合
maxrowCount=len(rows)#表格行数 #如果colNO=None不为空,则用传进来的值作为列数
if(colNO==None):
cols = table.find_elements(by="tag name",value="td");
if(cols!='td'):
cols = table.find_elements(by="tag name",value="th")
maxcolCount=len(cols)/len(rows)#表格列数
else:
maxcolCount=colNO lists = [[] for i in range(maxrowCount)]
#print "列数"+str(maxcolCount)
#print "行数"+str(maxrowCount)
i=1
while i<=maxrowCount:
j=1;#初始化列
while j<=maxcolCount:
try:
if(i==1):
try:
innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text
except:
colTag="th"
innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text
else:
colTag="td"
if(j==3 or j==5):
innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]/a").get_attribute("title")
elif(j==8):
innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text
innerText=float(innerText.replace("h", ""))
else:
innerText=driver.find_element(by="xpath",value=value+"/tbody/tr["+str(i)+"]/"+colTag+"["+str(j)+"]").text
except:
innerText=""
#print "第"+str(i)+"行,第"+str(j)+"列"+str(innerText)
lists[i-1].append(innerText)
j+=1
i+=1
if(loop!=1):#不是第一次循环,列头不要
return lists[1:]
return lists if __name__ == "__main__":
unittest.main()
# -*- coding: UTF-8 -*-
'''
Created on 2016年5月18日 @author: csxie
'''
import xlwt
from xlrd import open_workbook
from xlutils.copy import copy
import os def save_to_excel_newsheet(listTable,excelPath=r'C:\demo.xls',sheetName='sheet1'):
if(isinstance(listTable,list)):
rowNO=len(listTable);
if(rowNO==0):
raise ValueError,u'传入的是list是空的'
colNO=len(listTable[0]); wkb = xlwt.Workbook()
sheet = wkb.add_sheet(sheetName)
for i in range(rowNO):
for j in range(colNO):
#print listTable[i][j]
#print str(i)+'行'+str(j)+'列'
sheet.write(i,j,listTable[i][j])
if(os.path.exists(excelPath)):
os.remove(excelPath)
wkb.save(excelPath)
return True
else:
raise TypeError,u'传入的类型不是list' def save_to_excel_oldsheet(listTable,excelPath=r'C:\demo.xls',sheetName='sheet1'):
if(isinstance(listTable,list)):
rowNO=len(listTable);
if(rowNO==0):
raise ValueError,u'传入的是list是空的'
colNO=len(listTable[0]);
rb = open_workbook(excelPath)
sheet_index=rb.sheet_names().index(sheetName)
old_rows=rb.sheet_by_name(sheetName).nrows#已存在的excel中数据行数 wkb = copy(rb)
sheet = wkb.get_sheet(sheet_index)
for i in range(rowNO):
for j in range(colNO):
sheet.write(i+old_rows,j,listTable[i][j])
#print str(i)+'行'+str(j)+'列'
wkb.save(excelPath)
return True
else:
raise TypeError,u'传入的类型不是list'
# -*- coding: UTF-8 -*-
from selenium import webdriver
import unittest class BasePage(unittest.TestCase):
def setUP(self):
self.driver= webdriver.PhantomJS(executable_path="phantomjs.exe")
#self.driver.set_window_size(1400, 1000)
#self.driver.implicitly_wait(1)
self.verificationErrors = [] def tearDown(self):
self.driver.quit()
#self.driver.close()
self.assertEqual([], self.verificationErrors)
selenium配合phantomjs实现爬虫功能,并把抓取的数据写入excel的更多相关文章
- iOS开发——网络实用技术OC篇&网络爬虫-使用青花瓷抓取网络数据
网络爬虫-使用青花瓷抓取网络数据 由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...
- iOS开发——网络使用技术OC篇&网络爬虫-使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
- 「拉勾网」薪资调查的小爬虫,并将抓取结果保存到excel中
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程 我们在查看拉勾网上的招聘信息的时候 ...
- 网络爬虫-使用Python抓取网页数据
搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干 准备搭建环境 因为是MAC电脑,所以自动安装了Python 2.7的版本 添加一个 库 Beauti ...
- [Python爬虫] 之八:Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数 然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
- [Python爬虫] 之四:Selenium 抓取微博数据
抓取代码: # coding=utf-8import osimport refrom selenium import webdriverimport selenium.webdriver.suppor ...
- 使用selenium webdriver+beautifulsoup+跳转frame,实现模拟点击网页下一页按钮,抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...
- 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
- iOS—网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
随机推荐
- 动态规划 ---- 最长公共子序列(Longest Common Subsequence, LCS)
分析: 完整代码: // 最长公共子序列 #include <stdio.h> #include <algorithm> using namespace std; ; char ...
- JMeter压力测试,http请求压测,5分钟让你学会如何压测接口!
JMeter压力测试 官网:https://jmeter.apache.org 最新款的jmeter需要java8的支持,所以请自行安装jdk8.这里就不啰嗦了. 可以根据自己的系统下载zip或者是t ...
- 在多租户(容器)数据库中如何创建PDB:方法5 DBCA远程克隆PDB
基于版本:19c (12.2.0.3) AskScuti 创建方法:DBCA静默远程克隆PDB.将 CDB1 中的 PDB1 克隆为 CDB2 中的 ERP2 对应路径:Creating a PDB ...
- 关于真机测试root权限问题
普通用户好像也无伤大雅: 输入后看到这样的有个美元符号,说明你的虚拟机获取不了权限,有权限的应该是root和#都有,这个时候你输入su 如果还是没有变化,看看你的虚拟机是不是android7.0,An ...
- c# 泛型<T>类型参数T的约束where
在定义泛型类时,可以对客户端代码能够在实例化类时用于类型参数的类型种类施加限制.如果客户端代码尝试使用某个约束所不允许的类型来实例化类,则会产生编译时错误.这些限制称为约束.约束是使用 where 上 ...
- 【蓝桥杯/算法训练】Sticks 剪枝算法
剪枝算法 大概理解是通过分析问题,发现一些判断条件,避免不必要的搜索.通常应用在DFS 和 BFS 搜索算法中:剪枝策略就是寻找过滤条件,提前减少不必要的搜索路径. 问题描述 George took ...
- Django框架中auth模块的详解
auth模块 auth模块是对登录认证方法的一种封装,本身就是一个对象,可以获取用户的详细信息,有了auth模块可以验证登录信息是否存在数据库中,还可以检验用户是否已经登录,校验密码等 auth方法 ...
- Go初始化结构体数组/切片
package main import "fmt" func main() { var s []student fmt.Printf("%T\n", s) // ...
- Nginx可以做什么
Nginx能做什么 ——反向代理 ——负载均衡 ——HTTP服务器(动静分离) ——正向代理 反向代理 反向代理应该是Nginx做的最多的一件事了,什么是反向代理呢,以下是百度百科的说法:反向代理(R ...
- JS-ES6语法运用
import导入模块,js的模块化开发 浏览器使用ES6模块化语法(使用module时js代码自动运行严格模式): <script type="module" src=&qu ...