PYTHON流向下载

 #-*- coding:utf-8 -*-

 import gzip

 import re

 import http.cookiejar

 import urllib.request

 import urllib.parse

 import xlwt

 import time,os

 def saveexcel(flow,filename,coding='gbk'):

     #flow 需要转换为excel的里面，格式为双层列表

     #coding excel页面编码

     try:

         workbook = xlwt.Workbook(encoding=coding)

         sheet = workbook.add_sheet('Sheet1')

         for row,rowdata in enumerate(flow):

             for col,val in enumerate(rowdata):

                 sheet.write(row,col,val.strip(),style = xlwt.Style.default_style)

         excelname = '\\%s.xls'%filename

         workbook.save(excelname)

         return excelname

     except Exception as e:

         if hasattr(e,"code"):

             print ('excel写入失败，错误原因' +str(e.code))

         if hasattr(e,"reason"):

             print ('excel写入失败，错误原因' +str(e.reason))

         return None

  #从指定页面中取表单参数

 def getParm(data,parm):

     cer = re.compile('name="'+parm+'".* value="(.*?)"', flags = 0)

     strlist = cer.findall(data)

     if strlist:

         return strlist[0]

     else:

         return None

 def getOpener():

     #自动设置COOKIER

     # deal with the Cookies

     print( '正在设置cookie')

     cj = http.cookiejar.CookieJar()

     pro = urllib.request.HTTPCookieProcessor(cj)

     opener = urllib.request.build_opener(pro, urllib.request.HTTPHandler)

     urllib.request.install_opener(opener)

     print( '设置cookie成功')

     return opener

 header = {

     'Connection': 'Keep-Alive',

     'Accept': 'text/html, application/xhtml+xml, */*',

     'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'

 }

 url = 'http://115.231.58.130:8021/Default.aspx'

 header['Referer']='http://115.231.58.130:8021/'

 #1、设置Cookie

 opener = getOpener()

 ##2、初始化数据开始

 request = urllib.request.Request(url)

 try:

     html = urllib.request.urlopen(request).read()

     #取表单参数

     EVENTVALIDATION = getParm(html.decode('gbk'),'__EVENTVALIDATION')

     VIEWSTATEGENERATOR =  getParm(html.decode('gbk'),'__VIEWSTATEGENERATOR')

     VIEWSTATE = getParm(html.decode('gbk'),'__VIEWSTATE')

     btnsubmit = getParm(html.decode('gbk'),'sbtnSubmit')   

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.reason))

 #取表单参数结束 

 id = '***'

 password = '***'

 postDict = {

          'LoginID':id,

         'Pwd':password,

         '__EVENTVALIDATION':EVENTVALIDATION,

         '__VIEWSTATEGENERATOR':VIEWSTATEGENERATOR,

         '__VIEWSTATE':VIEWSTATE,

         'btnSubmit':btnsubmit

 }

 postData = urllib.parse.urlencode(postDict).encode(encoding='UTF8')

 ##3、正式登录

 request = urllib.request.Request(url, postData,headers=header)

 try:

     response = urllib.request.urlopen(request)

     data = response.read()

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.reason))

 #登录结束

 print('login:',data.decode('gbk'))

 ##4 进入产品搜索界面进行数据提取

 posturl= 'http://115.231.58.130:8021/Search/ProductFlow.aspx'

 request = urllib.request.Request(posturl)

 try:

     html = urllib.request.urlopen(request).read()

     #取表单参数

     EVENTVALIDATION = getParm(html.decode('gbk'),'__EVENTVALIDATION')

     VIEWSTATEGENERATOR =  getParm(html.decode('gbk'),'__VIEWSTATEGENERATOR')

     VIEWSTATE = getParm(html.decode('gbk'),'__VIEWSTATE')

     #btnsearch = getParm(html.decode('gbk'),'btnSearcht')

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('请求页面失败，请检查网络设置，错误原因' +str(e.reason))

 postDict['__EVENTTARGET']=''

 postDict['__EVENTARGUMENT']=''

 postDict['__EVENTVALIDATION']=EVENTVALIDATION

 postDict['__VIEWSTATEGENERATOR']=VIEWSTATEGENERATOR

 postDict['__VIEWSTATE']=VIEWSTATE

 postDict['PName']=''

 postDict['PID']=''

 postDict['txtStartDate']='2016-01-01'

 postDict['txtEndDate']='2016-01-31'

 postDict['ConvertToExcel.x']=''

 postDict['ConvertToExcel.y']=''

 postDict['btnSearch']=''

 postData = urllib.parse.urlencode(postDict).encode(encoding='UTF8')

 print( '搜索页面数据获取成功，正在抓取流向数据...')    

 ###登录搜索页面

 request = urllib.request.Request(posturl, postData,headers=header)

 try:

     response = urllib.request.urlopen(request)

     data = response.readlines()

 except urllib.request.URLError as e:

     if hasattr(e,"code"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.code))

     if hasattr(e,"reason"):

         print ('页面加载失败，请检查网络及账号设置，错误原因' +str(e.reason))

 print( '流向抓取成功，正在保存为excel...')

 print('search:',data)

 ##5 保存为excel

 workbook = xlwt.Workbook(encoding='gbk')

 sheet = workbook.add_sheet('Sheet1')

 for row,rowdata in enumerate(data):

     rowdata_list = rowdata.decode('gbk').split('\t')

     for col,val in enumerate(rowdata_list):

             sheet.write(row,col,val,style = xlwt.Style.default_style)

 ntime = time.strftime('%Y%m%d%H%M%S')

 excelname = ntime+'%s.xls'%'宁波宝瑞达'

 workbook.save(excelname)

 print( 'excel导出成功，请查看程序目录下%s文件。'%excelname)

PYTHON流向下载的更多相关文章

python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
Python package下载中遇到ReadTimeoutError: HTTPSConnectionPool?
问题描述: Python package下载中遇到ReadTimeoutError: HTTPSConnectionPool? 问题解决: 方法1:继续重复下载 pip install virtual ...
python大法好——python的下载与安装、第一个程序
吃够了java的苦,所以python好. 打今天起,要走python了. 首先呢,学习python需要python环境.和一款得心应手的集成开发环境. python环境下载:https://mirro ...
用Python批量下载DACC的MODIS数据
本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...
Python爬虫下载Bilibili番剧弹幕
本文绍如何利用python爬虫下载bilibili番剧弹幕. 准备: python3环境需要安装BeautifulSoup,selenium包 phantomjs 原理: 通过aid下载bilibi ...
Python 的下载安装
学习Python牛逼的教程: http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000,本文 ...
以下三种下载方式有什么不同？如何用python模拟下载器下载？
问题始于一个链接https://i1.pixiv.net/img-zip-...这个链接在浏览器打开,会直接下载一个不完整的zip文件但是,使用下载器下载却是完整文件而当我尝试使用python下载 ...
python版本下载时时，官方目录web-based与executable和embeddable 的区别
背景:安装python时不知道选择哪个版本以及他们之间的意思. 1.X86和X86-64的区别:系統是32 bit 的版本还是 64bit 的 2.web-based ,executable , em ...
python脚本下载 Google Driver 文件
使用python脚本下载 Google Driver 文件 import yaml import sys import requests import os import re import tarf ...

随机推荐

linux-配置字符串-grep
grep -rn "hello,world!" * * : 表示当前目录所有文件,也可以是某个文件名 -r 是递归查找 -n 是显示行号 -R 查找所有文件包含子目录 -i 忽略大 ...
HashMap源码-描述部分
/** * Hash table based implementation of the <tt>Map</tt> interface. This * implementati ...
intel 硬盘加速技术
Intel Smart Response Technology 混合硬盘技术 Intel Rapid Storage Technology SERVER:
mysql-essential-5.1.55-win32 安装
1.选择无事物安装 2.my.cnf [mysqld] default-storage-engine=INNODB innodb=on 3.设置数据目录手动创建目录 D:\data [mysqld] ...
了解RxJava以及如何在Android应用中使用它
如果你在阅读这篇文章,相信你一定很想了解RxJava以及如何在Android应用中使用它.可能你已经见过RxJava的代码了,但仍然有些疑惑,愿你能在这篇文章里找到答案. 当我第一次使用RxJava的 ...
C# Json格式字符串
转自:http://www.cnblogs.com/unintersky/p/3884712.html 将Json字符串转化成格式化表示的方法: 字符串反序列化为对象-->对象再序列化为字符串 ...
区别dependencies、devDependencies
我们在使用npm install 安装模块或插件的时候,有两种命令把他们写入到 package.json 文件里面去,他们是: --save-dev 或 --save 首先需要说明的是Dependen ...
C++之纯虚函数
1. 纯虚函数形式 class Parent { public: ; }; 代码中的func1就是纯虚函数,没有函数体,没有函数的具体实现,有virtual,在函数名后面带有“ = 0”形式: 2.对 ...
python2代码升级到python3工具
python模块lib2to3(py2转py3自动化工具) Usage: 2to3 [options] file|dir ... Options: -h, --help show this help ...
【AS3 Coder】任务五：Flash 2D游戏的第二春（上）
在上一节中,我们基本上已经讲完了游戏中最主要的逻辑部分,不过为了更加全面地运用Starling中的一些特性,在本节中我们将一起来看看如何实现多面板切换以及粒子效果,这两个玩意儿可是比较频繁会出现于St ...

PYTHON流向下载

PYTHON流向下载的更多相关文章

随机推荐

热门专题