PYTHON流向下载

 #-*- coding:utf-8 -*-

 import gzip

 import re

 import http.cookiejar

 import urllib.request

 import urllib.parse

 import xlwt

 import time,os

 def saveexcel(flow,filename,coding='gbk'):

     #flow 需要转换为excel的里面，格式为双层列表

     #coding excel页面编码

     try:

         workbook = xlwt.Workbook(encoding=coding)

         sheet = workbook.add_sheet('Sheet1')

         for row,rowdata in enumerate(flow):

             for col,val in enumerate(rowdata):

                 sheet.write(row,col,val.strip(),style = xlwt.Style.default_style)

         excelname = '\\%s.xls'%filename

         workbook.save(excelname)

         return excelname

     except Exception as e:

         if hasattr(e,"code"):

             print ('excel写入失败，错误原因' +str(e.code))

         if hasattr(e,"reason"):

             print ('excel写入失败，错误原因' +str(e.reason))

         return None

  #从指定页面中取表单参数

 def getParm(data,parm):

     cer = re.compile('name="'+parm+'".* value="(.*?)"', flags = 0)

     strlist = cer.findall(data)

     if strlist:

         return strlist[0]

     else:

         return None

 def getOpener():

     #自动设置COOKIER

     # deal with the Cookies

     print( '正在设置cookie')

     cj = http.cookiejar.CookieJar()

     pro = urllib.request.HTTPCookieProcessor(cj)

     opener = urllib.request.build_opener(pro, urllib.request.HTTPHandler)

     urllib.request.install_opener(opener)

     print( '设置cookie成功')

     return opener

 header = {

     'Connection': 'Keep-Alive',

     'Accept': 'text/html, application/xhtml+xml, */*',

     'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'

 }

 url = 'http://115.231.58.130:8021/Default.aspx'

 header['Referer']='http://115.231.58.130:8021/'

 #1、设置Cookie

 opener = getOpener()

 ##2、初始化数据开始

 request = urllib.request.Request(url)

 try:

     html = urllib.request.urlopen(request).read()

     #取表单参数

     EVENTVALIDATION = getParm(html.decode('gbk'),'__EVENTVALIDATION')

     VIEWSTATEGENERATOR =  getParm(html.decode('gbk'),'__VIEWSTATEGENERATOR')

     VIEWSTATE = getParm(html.decode('gbk'),'__VIEWSTATE')

     btnsubmit = getParm(html.decode('gbk'),'sbtnSubmit')   

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.reason))

 #取表单参数结束 

 id = '***'

 password = '***'

 postDict = {

          'LoginID':id,

         'Pwd':password,

         '__EVENTVALIDATION':EVENTVALIDATION,

         '__VIEWSTATEGENERATOR':VIEWSTATEGENERATOR,

         '__VIEWSTATE':VIEWSTATE,

         'btnSubmit':btnsubmit

 }

 postData = urllib.parse.urlencode(postDict).encode(encoding='UTF8')

 ##3、正式登录

 request = urllib.request.Request(url, postData,headers=header)

 try:

     response = urllib.request.urlopen(request)

     data = response.read()

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.reason))

 #登录结束

 print('login:',data.decode('gbk'))

 ##4 进入产品搜索界面进行数据提取

 posturl= 'http://115.231.58.130:8021/Search/ProductFlow.aspx'

 request = urllib.request.Request(posturl)

 try:

     html = urllib.request.urlopen(request).read()

     #取表单参数

     EVENTVALIDATION = getParm(html.decode('gbk'),'__EVENTVALIDATION')

     VIEWSTATEGENERATOR =  getParm(html.decode('gbk'),'__VIEWSTATEGENERATOR')

     VIEWSTATE = getParm(html.decode('gbk'),'__VIEWSTATE')

     #btnsearch = getParm(html.decode('gbk'),'btnSearcht')

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.reason))

 postDict['__EVENTTARGET']=''

 postDict['__EVENTARGUMENT']=''

 postDict['__EVENTVALIDATION']=EVENTVALIDATION

 postDict['__VIEWSTATEGENERATOR']=VIEWSTATEGENERATOR

 postDict['__VIEWSTATE']=VIEWSTATE

 postDict['PName']=''

 postDict['PID']=''

 postDict['txtStartDate']='2016-01-01'

 postDict['txtEndDate']='2016-01-31'

 postDict['ConvertToExcel.x']=''

 postDict['ConvertToExcel.y']=''

 postDict['btnSearch']=''

 postData = urllib.parse.urlencode(postDict).encode(encoding='UTF8')

 print( '搜索页面数据获取成功，正在抓取流向数据...')    

 ###登录搜索页面

 request = urllib.request.Request(posturl, postData,headers=header)

 try:

     response = urllib.request.urlopen(request)

     data = response.readlines()

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.reason))

 print( '流向抓取成功，正在保存为excel...')

 print('search:',data)

 ##5 保存为excel

 workbook = xlwt.Workbook(encoding='gbk')

 sheet = workbook.add_sheet('Sheet1')

 for row,rowdata in enumerate(data):

     rowdata_list = rowdata.decode('gbk').split('\t')

     for col,val in enumerate(rowdata_list):

             sheet.write(row,col,val,style = xlwt.Style.default_style)

 ntime = time.strftime('%Y%m%d%H%M%S')

 excelname = ntime+'%s.xls'%'宁波宝瑞达'

 workbook.save(excelname)

 print( 'excel导出成功，请查看程序目录下%s文件。'%excelname)

PYTHON流向下载的更多相关文章

python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
Python package下载中遇到ReadTimeoutError: HTTPSConnectionPool?
问题描述: Python package下载中遇到ReadTimeoutError: HTTPSConnectionPool? 问题解决: 方法1:继续重复下载 pip install virtual ...
python大法好——python的下载与安装、第一个程序
吃够了java的苦,所以python好. 打今天起,要走python了. 首先呢,学习python需要python环境.和一款得心应手的集成开发环境. python环境下载:https://mirro ...
用Python批量下载DACC的MODIS数据
本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...
Python爬虫下载Bilibili番剧弹幕
本文绍如何利用python爬虫下载bilibili番剧弹幕. 准备: python3环境需要安装BeautifulSoup,selenium包 phantomjs 原理: 通过aid下载bilibi ...
Python 的下载安装
学习Python牛逼的教程: http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000,本文 ...
以下三种下载方式有什么不同？如何用python模拟下载器下载？
问题始于一个链接https://i1.pixiv.net/img-zip-...这个链接在浏览器打开,会直接下载一个不完整的zip文件但是,使用下载器下载却是完整文件而当我尝试使用python下载 ...
python版本下载时时，官方目录web-based与executable和embeddable 的区别
背景:安装python时不知道选择哪个版本以及他们之间的意思. 1.X86和X86-64的区别:系統是32 bit 的版本还是 64bit 的 2.web-based ,executable , em ...
python脚本下载 Google Driver 文件
使用python脚本下载 Google Driver 文件 import yaml import sys import requests import os import re import tarf ...

随机推荐

pr_debug、dev_dbg等动态调试三
内核版本:Linux-3.14 作者:彭东林邮箱:pengdonglin137@163.com 如果没有使用CONFIG_DYNAMIC_DEBUG,那么就需要定义DEBUG,那么此时pr_debu ...
Xcode 5 单元测试（二）OCMock和GHUnit
在Xcode 5 单元测试(一)使用XCTest进行单元测试中说了如何在Xcode 5中使用XCTest进行简单的单元测试,本文就来探讨下mock测试和更高级的工具GHUnit. Mock 首先科普下 ...
【java】在controller层使用的检查单一字段不能为null和检查属性中某些字段不能为null的工具
========================================================================================= 代码参考地址:Git ...
MessageFormat.format 字符串的模板替换
项目目前在消息的模版,模版中需要替换很多参数,比方说“用户名”,“日期”等等.不过目前没有想到更好的替换参数的方法,所以目前只能使用一个比较简单的方式来实现.这个方式太死板,参数对应必须要在代码中写死 ...
Makefile学习之一
Makefile注意: 1.Makefile由三部分组成:目标,依赖,命令: 2.命令行前必须有一个tab键作为开头: 3.定义变量:objects=main.o abc.o 使用$(objects) ...
Android.mk入门（一）
Android.mk是Android工程管理文件,其作用基本等同于Linux环境中的Makefile,在语法上,Android.mk和普通Makefile略有不同,主要区别是Android.mk包含一 ...
Vue样式绑定和事件处理器
一.样式绑定 class 与 style 是 HTML 元素的属性,用于设置元素的样式,我们可以用 v-bind 来设置样式属性. v-bind 在处理 class 和 style 时, 专门增强了它 ...
Nginx反向代理、负载均衡及日志
Nginx反向代理.负载均衡及日志 1.原理图 2.正向代理与反向代理 (1)代理服务器代理服务器,客户机在发送请求时,不会直接发送给目的主机,而是先发送给代理服务器,代理服务接受客户机请求之后 ...
java int转String全部方式的效率对照与深入解析
在java中,大家肯定都会遇到int类型转String类型的情形,知其然知其所以然.总结加分析一下,int类型转String类型有下面几种方式: a+"" String.value ...
Java三大器之拦截器(Interceptor)的实现原理及代码示例
1,拦截器的概念 java里的拦截器是动态拦截Action调用的对象,它提供了一种机制可以使开发者在一个Action执行的前后执行一段代码,也可以在一个Action执行前阻止其执行,同时也提供了 ...

PYTHON流向下载

PYTHON流向下载的更多相关文章

随机推荐

热门专题