Python——阶段总结（一）

import xlrd # 读xlsx

import xlsxwriter # 写xlsx

import urllib.request # url请求，Python3自带，Python2与3中urllib的区别见：http://blog.csdn.net/Jurbo/article/details/52313636

import os # 创建output文件夹

import glob # 获取文件夹下文件名称

import time # 记录时间

import json # 读取json格式文件

def xlsx_merge(folder,header,filename):

    fileList = []

    for fileName in glob.glob(folder + "*.xlsx"):

        fileList.append(fileName)

    fileNum = len(fileList)

    matrix = [None] * fileNum

    for i in range(fileNum):

        fileName = fileList[i]

        workBook = xlrd.open_workbook(fileName)

        try:

            sheet = workBook.sheet_by_index(0)

        except Exception as e:

            print(e)

        nRows = sheet.nrows

        matrix[i] = [0]*(nRows - 1)

        nCols = sheet.ncols

        for m in range(nRows - 1):

            matrix[i][m] = [""]* nCols

        for j in range(1,nRows):

            for k in range(nCols):

                matrix[i][j-1][k] = sheet.cell(j,k).value

    fileName = xlsxwriter.Workbook(folder + filename + ".xlsx")

    sheet = fileName.add_worksheet("merged")

    for i in range(len(header)):

        sheet.write(0,i,header[i])

    rowIndex = 1

    for fileIndex in range(fileNum):

        for j in range(len(matrix[fileIndex])):

            for colIndex in range (len(matrix[fileIndex][j])):

                sheet.write(rowIndex,colIndex,matrix[fileIndex][j][colIndex])

            rowIndex += 1

    print("已完成%d个文件的合并"%fileNum)

    fileName.close()

def poi_by_adcode_poicode(folder,city_file = "city",poi_file = "poi",merge_or_not = 1):

    city_file = city_file

    poi_file = poi_file

    merge_or_not = merge_or_not

    header_full = ["id","name","type","typecode","biz_type","address","location","tel","pname","cityname","adname","rating","cost"] #返回结果控制为base时，输出的POI标签类别

    header = ["id","name","type","typecode","biz_type","address","location","tel","pname","cityname","adname"]

    offset = 25 # 实例设置每页展示10条POI（官方限定25条,实际测试可以为50）

    # 读取列表

    folder_sheet = xlrd.open_workbook(folder + "input/" + "folder.xlsx").sheet_by_index(0)

    folder_list = folder_sheet.col_values(0)

    folder_code_list = folder_sheet.col_values(1)

    city_sheet =  xlrd.open_workbook(folder+ "input/" + city_file + ".xlsx").sheet_by_index(0)

    city_list =city_sheet.col_values(0)

    city_code_list = city_sheet.col_values(1)

    poi_type_sheet = xlrd.open_workbook(folder+ "input/" + poi_file + ".xlsx").sheet_by_index(0)

    poi_type_list = poi_type_sheet.col_values(1)

    total_work = (city_sheet.nrows - 1) * (poi_type_sheet.nrows - 1) # 指示工作总量

    city_col_index = 1 # 用于记录上次已经读取到的行数

    work_index = 1

    print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + "：抓取开始！")

    for folder_index in range(1,len(folder_list)): # 区分地级市

        output_folder = folder + folder_list[folder_index] +"/" # 创建输出路径

        if os.path.isdir(output_folder):

            pass

        else:

            os.makedirs(output_folder)

        for city_index in range(city_col_index,len(city_list)): # 对行政区

            if folder_code_list[folder_index][0:4] == city_code_list[city_index][0:4]: # 如果前四数字相同，则在该地级市目录下写入，否则退出循环

                for poi_type_index in range(1,len(poi_type_list)): # 对兴趣点类别

                    workbook_file = output_folder + str(city_list[city_index]) + str(poi_type_list[poi_type_index]) + ".xlsx"

                    if os.path.exists(workbook_file):

                        print(str(city_list[city_index]) + str(poi_type_list[poi_type_index]) + " 已存在")

                    else:

                        workbook =xlsxwriter.Workbook(workbook_file) # 新建工作簿

                        sheet = workbook.add_worksheet("result") # 新建工作表

                        for col_index in range(len(header_full)):

                            sheet.write(0,col_index,header_full[col_index]) # 写表头

                        row_index = 1

                        for page_index in range(1, 101): # 制定行政区和兴趣点类别后，POI信息已固定， 现针对页数写入

                            try:

                                url = "http://restapi.amap.com/v3/place/text?&keywords=&types=" + str(poi_type_list[poi_type_index]) + "&city=" + city_code_list[city_index] + "&citylimit=true&offset=" + str(offset) + "&page="+ str(page_index) + "&key=你的key&extensions=all"

                                # 请求的结构化url地址如上，见：http://lbs.amap.com/api/webservice/guide/api/search/

                                data = json.load(urllib.request.urlopen(url))["pois"]

                                for i in range(offset):

                                    for col_index in range(len(header)):

                                        sheet.write(row_index, col_index, str(data[i][header[col_index]])) # 写入简略表头内容

                                        sheet.write(row_index,len(header),str(data[i]["biz_ext"]["rating"])) # 写入详细表头内容

                                        sheet.write(row_index,len(header) + 1,str(data[i]["biz_ext"]["cost"]))

                                    row_index += 1

                            except:

                                break

                        workbook.close()

                        work_index = (city_index - 1) * len(poi_type_list) + poi_type_index

                        print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + "：" + str(city_list[city_index]) + " " + str(poi_type_list[poi_type_index]) + " 已获取!进度：%.3f%%"  %(work_index / total_work *100))

                city_col_index += 1

            else:

                break

        print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + "" + folder_list[folder_index] + "已完成！")

        if merge_or_not == 1:

            if os.path.exists(output_folder + folder_list[folder_index] + ".xlsx"):

                pass

            else:

                xlsx_merge(output_folder, header_full, folder_list[folder_index])

                print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + "：已对文件进行合并！")

        else:

            print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + "：未进行合并！")

    print(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) + "：所有工作完成！")

poi_by_adcode_poicode("E:/XXDir/","city", "poi",1)

1、如果是将数据储存在excel中（存储在数据库中时，不用考虑），最好将结果分阶段保存成单独文件并及时输出时间和进度。

2、可以通过判断以前保存的文件是否存在达到断点续爬的目的，也可以通过此方式，实现多主机共享进度（农村人的分布式爬取^-^，通过建立共享文件夹）。

3、做多重循环时，要考虑清楚循环之间的步骤应该置哪个循环之下。

4、通过将复杂的功能拆分成多个小的功能，可以更好的完成一段复杂代码的编写。

5、尽可能将实现的功能编写成函数和库，以便下次调用。

Python——阶段总结（一）的更多相关文章

11、python阶段测试
1.执行Python脚本的两种方式如果想要永久保存代码,就要用文件的方式如果想要调试代码,就要用交互式的方式 2.Pyhton单行注释和多行注释分别用什么? 单行注释:# 多行注释: '' &qu ...
Python阶段复习 - part 4 - 用户登录程序
简易版: #!/usr/bin/env python # _*_ coding:UTF-8 _*_ # __auth__:Dahlhin import sys userinfo = r'userinf ...
Python阶段复习 - part 3 - Python函数
利用函数打印9*9乘法表 def cheng(num): for i in range(1,num+1): for j in range(1,i+1): print('{0} * {1} = {2}' ...
Python阶段复习 - part 2 - Python序列/持久化
1. 把一个数字的list从小到大排序,然后写入文件,然后从文件中读取出来文件内容,然后反序,在追加到文件的下一行中 >>> import json >>> imp ...
Python阶段复习 - part 1 - Python基础练习题
1.实现1-100的所有的和 # 方法1: sum = 0 for i in range(1,101): sum += i print(sum) # 方法2: num1 = int(input('请输 ...
Python学习 —— 阶段综合练习一
Python 阶段综合练习一综合之前的函数.数据结构.流程控制等,做以下实例练习:(建议先不要看代码,自己先试着写:代码仅供参考,有多种实现方法) 1. 定义 is_Even 函数,传一 int 参 ...
Python中函数、类、模块和包的调用
初学python阶段,大多数人对函数.类.模块和包的调用都搞得不是很清楚,这篇随笔就简单的进行说明. (1)函数当函数定义好之后,可以直接调用. 比如:def summ(add1,add2),那么 ...
【目录】Python学习笔记
目录:Python学习笔记目标:坚持每天学习,每周一篇博文 1. Python学习笔记 - day1 - 概述及安装 2.Python学习笔记 - day2 - PyCharm的基本使用 3.Pyt ...
day12_雷神_线程总结
#线程 1. 多线程理论 0.进程只是一个资源单位,用来隔离资源,从执行角度是主线程. 1.多个线程共享一个进程的数据资源: 2.线程开销小: 2. 开线程的两种方式 0. 站在资源的角度,主进程:执 ...

随机推荐

C# 内插字符串与字符串复合格式
var name = "Tom"; ; string aa = string.Format("name:{0},age:{1}", name, age);//字 ...
[SQL Server] 时间处理:获取今天的00:00:00/获取今天的23:59:59
获取今天的00:00:00 SELECT CONVERT(DATETIME,CONVERT(VARCHAR(10),GETDATE(),120)) 获取今天的23:59:59 1.SELECT DAT ...
phpdocumentor 安装以及使用说明
一缘由最近改版公司网站和app端的api,发现很多函数和方法都没写注释,搞得每次调用之前还需要看底层实现,有的方法名和功能还类似,区分不出使用哪个最优!为了避免给后人挖坑,除了将代码写得规范外, ...
使用docker快速搭建nginx+php环境
在朋友的强烈推荐下,走上了docker之路.经过了繁琐的docker环境安装,看了下镜像/容器的简单使用,开始进行nginx+php环境的搭建,本文记录一下在安装过程中的笔记. 原文地址:代码汇个人博 ...
LeetCode算法题-Min Cost Climbing Stairs（Java实现）
这是悦乐书的第307次更新,第327篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第176题(顺位题号是746).在楼梯上,第i步有一些非负成本成本[i]分配(0索引). ...
drools规则引擎与kie-wb和kie-server远程执行规则（7.18.0.Final）
最近研究了一下规则引擎drools. 这篇博客带你搭建并运行一个可在线编辑,在线打包,远程执行的规则引擎(drools) 本篇博客同时参考https://blog.csdn.net/chinrui/a ...
力扣算法题—093复原IP地址
给定一个只包含数字的字符串,复原它并返回所有可能的 IP 地址格式. 示例: 输入: "25525511135" 输出: ["255.255.11.135", ...
java.util.Arrays.useLegacyMergeSort=true 作用
(原) 今天看了一下现场的环境,发现有个其它部门的项目用到了这样一个参数: -Djava.util.Arrays.useLegacyMergeSort=true 于是查看了一下什么作用. 在JDK1. ...
SQL MIN() 函数
MIN() 函数 MIN 函数返回一列中的最小值.NULL 值不包括在计算中. SQL MIN() 语法 SELECT MIN(column_name) FROM table_name 注释:MIN ...
R语言学习——数据合并及绘制密度分布曲线图
setwd("E:/08_cooperation/07_X-lab/06-Crosstalk/Aadapter_primer")# 读取lane01.txt,并对其按列进行相加处理 ...

Python——阶段总结（一）

Python——阶段总结（一）的更多相关文章

随机推荐

热门专题