在接下来的章节中,我会重点介绍一下我自己写的基于之前做python数据分析的打包接口文件common_lib,可以认为是专用于python的第三方支持库.common_lib目前包括文件操作.时间操作.excel接口操作.数据库接口.邮件接口.这些打包接口的作用就像是堆积木一样,把积木的主要模块都搭好了,仅需要大家按照自己的想法把它们拼接在一起堆出你的理想城堡! 上面是common_lib的的文件目录结构,还处于不断的修改和完善的过程中,相信后续会有更多实用的接口文件会补充进来.命名方式参考之前…
数据分析是一个历史久远的东西,但是直到近代微型计算机的普及,数据分析的价值才得到大家的重视.到了今天,数据分析已经成为企业生产运维的一个核心组成部分. 据我自己做数据分析的经验来看,目前数据分析按照使用工具可以分为大体四类: 基于Excel的数据分析,Excel自带的函数.数据透视表.宏等功能对于数据分析来说十分适用且好用:基于matlib.SAS.SPSS等专业统计软件,我自己用过一段时间的SAS,觉得功能十分全面,但是作为程序员使用又觉得限制太多不够自由:基于SQL+数据库的数据分析,这一类…
在上一篇文章<基于Python的数据分析(1):配置安装环境>中的第四个步骤中我们在python的启动步骤中强制要求加载sitecustomize.py文件并设置其默认编码为"utf-8".本篇文章会介绍为什么要增加这个文件以及如何处理python的字符串编码的问题. 字符串变量和unicode值 字符串变量是所有编程语言里面定义多字符的一种变量类型. 在python中我们必须区分清楚字符串变量和unicode值这两个的区别.在其他的语言或者在python3.0以上的版本中…
http://www.jb51.net/article/89955.htm https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/ 大家可能听说过使用Python进行OCR识别操作.在Python中,最出名的库便是Google所资助的tesseract.利用tesseract可以很轻松地对图像进行识别.现在问题来了,如果想对一个PDF文档进行OCR识别,该怎么做呢?下面一起来看看. 最近在做一个项目的时候,需要将PDF文件…
[背景]当一个文件夹里存好好多.zip文件需要解压时,手动一个个解压再给文件重命名是一件很麻烦的事情,基于此,今天介绍一种使用python实现批量解压文件夹中的压缩文件并给文件重命名的方法—— [代码实现] #!/usr/bin/env python #! -*- coding:utf-8 -*- import zipfile import os import shutil def un_zip(file_name): """解压单个文件"""…
索引在数据库中是一个很特殊的存在,它的目的就是为了提高数据查询得效率.同样,它也有弊端,更新一个带索引的表的时间比更新一个没有带索引的时间更长.有得有失.我希望做一些研究测试,搞清楚索引对于我们使用数据库有什么影响,以及如何控制这个影响. 先简单介绍两个相对立的概念:聚集索引和非聚集索引. 聚集索引根据数据行的键值在表或视图中排序和存储这些数据行.索引定义中包含聚集索引列.每个表只能有一个聚集索引,因为数据行本身只能按一个顺序排序.只有当表包含聚集索引时,表中的数据行才按排序顺序存储.如果表具有…
[背景]当复制一个文件夹中的某文件到另一个文件夹中时是一件很容易的事情,可是如果存在很多文件夹中的文件需要一一拷贝,就会变的很繁琐,稍有不慎就会遗漏,今天就用Python来解决这个问题—— [代码实现] #!/usr/bin/env python # -*- coding:utf-8 -*- import shutil,os def copy_tree(source_path,target_path): for dir in os.listdir(target_path): # sftp.lis…
最近在阅读<利用Python进行数据分析>,本篇博文作为读书笔记 ,记录一下阅读书签和实践心得. 准备工作 python环境配置好了,可以参见我之前的博文<基于Python的数据分析(1):配置安装环境>.还需要安装第三方包包括NumPy.pandas.matplotlib.IPython.SciPy.用pip安装工具下载自动安装即可,如果有网络问题,请在自行百度"host google"更新host文件. 接下来是配置IPython,初步感受了这个与之前接触的…
*:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !important; } /* BLOCKS =============================================================================*/ p, blockquote, ul, ol, dl, table, pre { margin: 15px 0; } /* HEAD…
基于 Python 和 Pandas 的数据分析(1) Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性能,高效率和高水平的数据分析库. 从本质上讲,它非常像操作电子表格的无头版本,如Excel. 我们所使用的大部分的数据集都可以被转换成 dataframes(数据框架). 你可能对这个术语比较熟悉了, 它被广泛地用于很多语言. 但是如果你不熟悉, 可以看下我的解释: 一个 dataframe 就很像…