(长期更新)【python数据建模实战】零零散散问题及解决方案梳理

注1：本文旨在梳理汇总出我们在建模过程中遇到的零碎小问题及解决方案(即当作一份答疑文档)，会不定期更新，不断完善, 也欢迎大家提问，我会填写进来。

注2：感谢阅读。为方便您查找想要问题的答案，可以就本页按快捷键Ctrl+F，搜索关键词查找，谢谢。

1. 读写csv文件时，存在新的一列，Unnamed:0？

答：read_csv（）时，防止出现，设置参数index_col=0；写入csv文件时，防止出现，设置参数index=False。

2. 日期类型和其他类型互转。

场景1：我们从数据库取得的数据往往不是规整的，如存在‘19900807，1992-04-12’格式，且数据类型为str。

答：引入datetime模块。举例如下:

数据如图:

代码如下，即可解决:

 data['app_date'] = data['app_date'].apply(lambda x: x.replace('-', ''))   # 20190326，20181228

 data['app_date'] = data['app_date'].apply(lambda x: datetime.datetime.strptime(x,'%Y%m%d'))  # %Y%m%d or %Y-%m-%d的选择，取决于x格式带不带'-'

 data['app_date'] = data['app_date'].apply(lambda x: x.strftime('%y%m'))   # %y%m: 1903,1812...; %Y%m:201903, 201812...

场景2：将int型转为时间格式。pd.to_datetime()

3. (简写)字符串格式化，两种方式

　　①%

 for i in range(3):

     s = '%d' %i

     print(s)               # 依次输出 1， 2， 3

　　②{}.format()

 s = '等级考试'

 y = '-'

 print ('{0:{1}^25}'.format(s, y))   # ----------等级考试-----------

4. 建模时，对于python删除变量的两种小思路

1) 针对dataframe格式的data

data.drop(col, aixs= 1, inplace = True)    
#col为想要删除的变量名--列名，方法：DataFrame.drop(self, labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

2) 针对series格式的columns行索引

cols = data.columns

cols = cols.drop(col)      #有个方法：cols.drop(labels, errors='raise')

5. 我们在预处理及特征工程阶段会分析各变量属于什么类别，都有哪些呢？

我们接触到的统计学变量（variables）可以分为数值变量（Numerical Variables）和分类变量（Categorical Variables）。

数值变量又可以分为---离散型变量（discrete）、连续型变量（continuous）。

分类变量又可以分为---有序分类变量（ordinal）、无序分类变量（nominal）。

6. python读写文件时模式mode选择的异同(多用于open('xx')、to_csv('xx')等地方)

　　1). r模式

　　　　只读模式，该模式下打开的文件如果不存在，将会出错；并且打开后，只能读取，不能写入

　　2). r+模式

　　　　在上述特点上增加一条：可以向文件中写入。

　　3). w模式

　　　　该模式打开的文件如果已经存在，会先清空，如果没有，会新建一个文件，然后只能写入数据，不能读取

　　4). w+模式

　　　　在上述特点上增加一条：可以读取。

　　5). a模式

　　　　该模式打开的文件如果已经存在，不会清空，写入的内容追加到文件尾，但不能读取文件；文件不存在就会新建一个，然后写入。（以追加的方式写入）

　　6). a+模式

　　　　在上述特点上增加一条：可以读取数据。

　　7). 二进制模式，在上述后面加上b，如'rb'，读取二进制文件。

7. 排序取最大(小)值对应的索引，argmin，idxmin，argmax，argmin

　numpy分析： numpy 的 ndarray.argmin 的 Series 版

　Series分析：　 argmin=idxmin，argmax=idxmax

　DataFrame分析: 没有arg，只有idxmin，idxmax

8. 经常要用到映射方法，apply，applymap，map，定义如下

　apply： 使用在DataFrame上，用于对row或者column进行计算；

　applymap： 用于DataFrame上，是元素级操作(常用)；

　map： 用于series上，是元素级操作。

9. 删除特定列的重复行，drop_duplicates()

　DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

10. 记录一个map，str的join的示例

11. DataFrame/Series 索引问题。iloc，loc，直接索引[[]]

(y_train是个Series类型，且我没有reset_index)

12. 把python中的DataFrame中的object对象转换成我们需要的类型，convert

df.infer_objects

13. 去除字符串中指定字符

①python中的strip()可以去除头尾指定字符，基本用法：

ss.strip()参数为空时，默认去除ss字符串中头尾\r, \t, \n, 空格等字符

ss.lstrip()删除ss字符串开头处的指定字符，ss.rstrip()删除ss结尾处的指定字符

②想要去除中间字符，可以使用replace()函数

基本用法：replace(old, new[, max])

14. DataFrame中某些列值替换，如y值替换为0，1 (两种方法)

①-- np.where()

②-- pandas series map()

15. 关于DataFrame赋值注意事项(空表和有值表赋值的差异)

16.Python读取csv文件时编码报错问题

一，读取csv文件：

train= pd.read_csv(train_path)
1. 如果报错OSError: Initializing from file failed，可尝试的方法有：

train= pd.read_csv(open(train_path))
2. 如果是编码报错，如：UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 38: illegal multibyte sequence

可尝试：

train= pd.read_csv(train_path,encoding='gbk')
这里的encoding可以尝试其他的，如utf-8,gb2312,gb18030,ISO-8859-1，反正各种试，总有一个可以通过。

3. 如果上面这些都不行，还是编码报错，试试下面这方法，应该都会通过：

train= pd.read_csv(open(train_path,encoding='utf-8',errors='ignore'))
这里的encoding选什么就试了。

注：train_path 是你要读取的文件路径。

注：感谢阅读。如果书写风格影响观看体验，还望多多提出来，本人会虚心接受，谢谢

(长期更新)【python数据建模实战】零零散散问题及解决方案梳理的更多相关文章

dython：Python数据建模宝藏库
尽管已经有了scikit-learn.statsmodels.seaborn等非常优秀的数据建模库,但实际数据分析过程中常用到的一些功能场景仍然需要编写数十行以上的代码才能实现. 而今天要给大家推荐的 ...
Python数据可视化实战：实时更新海外疫情数据，实现数据可视化
前言我国的疫情已经得到了科学的控制,开始了全面的复工复产,但是国外的疫情却“停不下来”.国外现在可谓就是处于水深火热当中啊,病毒极强的传染性,导致了许多的人都“中招”了,我国已经全面复工复产了,人大 ...
逻辑回归--美国挑战者号飞船事故_同盾分数与多头借贷Python建模实战
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
Python数学建模-02.数据导入
数据导入是所有数模编程的第一步,比你想象的更重要. 先要学会一种未必最佳,但是通用.安全.简单.好学的方法. 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人. 1. 数据导入 ...
python的多版本安装以及常见错误（长期更新）
(此文长期更新)Python安装常见错误汇总注:本教程以python3.6为基准既然是总结安装过程中遇到的错误,就顺便记录一下我的安装过程好了. 先来列举一下安装python3.6过程中可能需要的 ...
Python数学建模-01.新手必读
Python 完全可以满足数学建模的需要. Python 是数学建模的最佳选择之一,而且在其它工作中也无所不能. 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人. 1. 数学 ...
woe_iv原理和python代码建模
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
python异常值检验实战2_医美手术价格
python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...
Elasticsearch 数据建模指南
文章转载自:https://mp.weixin.qq.com/s/vSh6w3eL_oQvU1mxnxsArA 0.题记我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实 ...

随机推荐

js实现QQ跳转到支付宝APP并领取红包！附：动图demo
前天我在sg开源了js实现微信跳转到支付宝并领红包的代码.https://segmentfault.com/a/11...于是朋友圈开始刷屏,各种套路,各种标题,再附上短链接,引起了很多人的好奇,然后 ...
stm32——modbus例程网址收藏
https://blog.csdn.net/baidu_31437863/article/details/82178708 STM32(五) Modbus https://blog.csdn.net/ ...
git lfs setpu(4)
reference: https://packagecloud.io/github/git-lfs/installhttps://zzz.buzz/zh/2016/04/19/the-guide-to ...
Django基础之request对象
当一个页面被请求时,django就会创建一个包含本次请求原信息的HttpRequest对象. django会将这个对象自动传递给响应的视图函数,一般视图函数约定俗成地使用request参数承接这个对象 ...
python_bisect模块的使用
这个模块只有几个函数, 一旦决定使用二分搜索时,立马要想到使用这个模块 import bisect L = [1,3,3,6,8,12,15] x = 3 x_insert_point = bisec ...
Fiddler主界面图标简单说明
Fiddler主界面图标简单说明: 名称含义 # 抓取HTTP Request的顺序,从1开始,以此递增 Result HTTP状态码 Protocol 请求使用的协议,如HTTP/HTTPS/FT ...
nginx 部署前端项目（vue）
前提:安装好nginx 打开nginx目录,一般是(/usr/local/nginx) npm run build 打好vue包一般放到(/usr/local/nginx/html/)目录下配置: ...
[BTS] BizTalk WCF-SQL Adapter 高级应用
9102年岁尾,41岁的我居然还在搞 BizTalk,感觉就是一种悲伤. 国内用户少之又少,能坚持一直在使用的“忠实”用户那就更少了. 不是它不好用,而是微软全线转向云服务,这个产品也已经快10年没有 ...
ArcGIS Python获得一个图层所有线长
import arcpy # Create an empty Geometry object # g = arcpy.Geometry() # Run the CopyFeatures tool, s ...
goland 可用注册码（license）
N757JE0KCT-eyJsaWNlbnNlSWQiOiJONzU3SkUwS0NUIiwibGljZW5zZWVOYW1lIjoid3UgYW5qdW4iLCJhc3NpZ25lZU5hbWUiO ...

(长期更新)【python数据建模实战】零零散散问题及解决方案梳理

(长期更新)【python数据建模实战】零零散散问题及解决方案梳理的更多相关文章

随机推荐

热门专题