import pandas as pd

import numpy as np

a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]

df = pd.DataFrame(a)

df.dtypes

0    object

1    object

2    object

dtype: object

数据框（data.frame）是最常用的数据结构，用于存储二维表（即关系表）的数据，每一列存储的数据类型必须相同，不同数据列的数据类型可以相同，也可以不同，但是每列的行数（长度）必须相同。数据框的每列都有唯一的名字，在已创建的数据框上，用户可以添加计算列。

1 创建 DataFrame 时指定类型

如果要创建一个 DataFrame，可以直接通过 dtype 参数指定类型：

 df = pd.DataFrame(data=np.arange(100).reshape((10,10)), dtype=np.int8)

df.dtypes

0    int8

1    int8

2    int8

3    int8

4    int8

5    int8

6    int8

7    int8

8    int8

9    int8

dtype: object

2 对于 `Series`

s = pd.Series(['1', '2', '4.7', 'pandas', '10'])

s

0         1

1         2

2       4.7

3    pandas

4        10

dtype: object

使用 `to_numeric` 转为数值

默认情况下，它不能处理字母型的字符串'pandas'

pd.to_numeric(s) # or pd.to_numeric(s, errors='raise');

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

pandas/_libs/src/inference.pyx in pandas._libs.lib.maybe_convert_numeric()

ValueError: Unable to parse string "pandas"

During handling of the above exception, another exception occurred:

ValueError                                Traceback (most recent call last)

<ipython-input-24-12f1203e2645> in <module>()

----> 1 pd.to_numeric(s) # or pd.to_numeric(s, errors='raise');

C:\Program Files (x86)\Microsoft Visual Studio\Shared\Anaconda3_64\lib\site-packages\pandas\core\tools\numeric.py in to_numeric(arg, errors, downcast)

    131             coerce_numeric = False if errors in ('ignore', 'raise') else True

    132             values = lib.maybe_convert_numeric(values, set(),

--> 133                                                coerce_numeric=coerce_numeric)

    134

    135     except Exception:

pandas/_libs/src/inference.pyx in pandas._libs.lib.maybe_convert_numeric()

ValueError: Unable to parse string "pandas" at position 3

可以将无效值强制转换为NaN，如下所示：

pd.to_numeric(s, errors='coerce')

0     1.0

1     2.0

2     4.7

3     NaN

4    10.0

dtype: float64

如果遇到无效值，第三个选项就是忽略该操作：

pd.to_numeric(s, errors='ignore')

0         1

1         2

2       4.7

3    pandas

4        10

dtype: object

3 对于多列或者整个 DataFrame

如果想要将这个操作应用到多个列，依次处理每一列是非常繁琐的，所以可以使用 DataFrame.apply 处理每一列。

a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]

df = pd.DataFrame(a, columns=['col1','col2','col3'])

df

.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}

.dataframe tbody tr th {

    vertical-align: top;

}

.dataframe thead th {

    text-align: right;

}

	col1	col2	col3
0	a	1.2	4.2
1	b	70	0.03
2	x	5	0

df[['col2','col3']] = df[['col2','col3']].apply(pd.to_numeric)

df.dtypes

col1     object

col2    float64

col3    float64

dtype: object

这里「col2」和「col3」根据需要具有 float64 类型

`df.apply(pd.to_numeric, errors='ignore')`

该函数将被应用于整个DataFrame，可以转换为数字类型的列将被转换，而不能(例如，它们包含非数字字符串或日期)的列将被单独保留。

另外 `pd.to_datetime` 和 `pd.to_timedelta` 可将数据转换为日期和时间戳。

软转换——类型自动推断

infer_objects() 方法，用于将具有对象数据类型的 DataFrame 的列转换为更具体的类型。

df = pd.DataFrame({'a': [7, 1, 5], 'b': ['3','2','1']}, dtype='object')

df.dtypes

a    object

b    object

dtype: object

然后使用 infer_objects()，可以将列 'a' 的类型更改为 int64：

df = df.infer_objects()

df.dtypes

a     int64

b    object

dtype: object

`astype` 强制转换

如果试图强制将两列转换为整数类型，可以使用 df.astype(int)。

a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']]

df = pd.DataFrame(a, columns=['one', 'two', 'three'])

df.dtypes

one      object

two      object

three    object

dtype: object

df[['two', 'three']] = df[['two', 'three']].astype(float)

df.dtypes

one       object

two      float64

three    float64

dtype: object

在 Pandas 中更改列的数据类型的更多相关文章

在Pandas中更改列的数据类型【方法总结】
先看一个非常简单的例子: a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0']] df = pd.DataFrame(a) 有什 ...
备忘：MySQL中修改表中某列的数据类型、删除外键约束
-- MySQL中修改表中某列的数据类型 ALTER TABLE [COLUMN] 表名 MODIFY 列名列定义; -- 删除外键约束 SHOW CREATE TABLE 表名; -- 复制CON ...
python – 基于pandas中的列中的值从DataFrame中选择行
如何从基于pandas中某些列的值的DataFrame中选择行?在SQL中我将使用: select * from table where colume_name = some_value. 我试图看看 ...
Pandas中查看列中数据的种类及个数
Pandas中查看列中数据的种类及个数读取数据 import pandas as pd import numpy as np filepath = 'your_file_path.csv' data ...
【转载】C#如何获取DataTable中某列的数据类型
在C#的数据表格DataTable的操作中,有时候因为业务需要,我们需要获取到DataTable所有列或者某一列的数据类型,此时我们可以通过DataTable中的Columns属性对象的DataTyp ...
Asp.net 修改已有数据的DataTable中某列的数据类型
DataTable dt_PI = new DataTable(); //克隆表结构 dt_PI = ds.Tables[].Clone(); dt_PI.Columns["FLTFullP ...
pandas中一列含有多种数据类型的转换：科学计算法转浮点数、字符映射
import pandas as pd import re def getNum(x): """ 科学计数法和字符转浮点数 """ if r ...
SQL中改变列的数据类型
一.该列非主键.无default约束直接更新: alter table 表名 alter column 列名数据类型二.该列为主键列.无default约束 (1)删除主键 alter table ...
[译] Pandas中根据列的值选取多行数据
# 选取等于某些值的行记录用 == df.loc[df['column_name'] == some_value] # 选取某列是否是某一类型的数值用 isin df.loc[df['column ...

随机推荐

java多线程获取返回结果--Callable和Future示例
package test.guyezhai.thread; import java.util.ArrayList; import java.util.Date; import java.util.Li ...
兼容firefox，ie，谷歌，阻止浏览器冒泡事件，Firefox不支持event解决方法
兼容firefox,ie,谷歌,阻止浏览器冒泡事件,Firefox不支持event解决方法 // 获取事件function getEvent(){ if(window.event) {return w ...
当今最流行的Web项目管理工具精选
代码管理以前各种开源项目的代码都是通过博客和个人网页来发布的.这种分享方式并不是最容易的一种,也不便于他人对代码做出贡献.下面是几个管理项目代码的工具,不管对于个人开发者还是团队开发者来说,它们都是 ...
【CodeForces】906 D. Power Tower 扩展欧拉定理
[题目]D. Power Tower [题意]给定长度为n的正整数序列和模数m,q次询问区间[l,r]累乘幂%m的答案.n,q<=10^5,m,ai<=10^9. [算法]扩展欧拉定理 [ ...
20155301 2016-2017-2 《Java程序设计》第5周学习总结
20155301 2016-2017-2 <Java程序设计>第5周学习总结教材学习内容总结 1.1try.catch关键词,在用户不小心输入错误的时候,程序会出现错误信息,将代表错误的 ...
使用win10 hyper-v安装linux系统
1.控制面板---程序---启动或关闭windows功能---启动hyper-v管理器---重启 2.配置网络因为公司内网通过ip验证,而通过桥接的方式,虚拟机就相当于物理机所在的网络中的一台真实主 ...
c++ ACM常用函数
1 保留小数点后两位 #include <iomanip> cout << setiosflags(ios::fixed) << setprecision(2)&l ...
推荐一本springBoot学习书籍---深入浅出springBoot2.x
花了几周时间读完了这本书,确实是一本特别详细全面的书,而且不单单只是springBoot, 书中还介绍了许多工作中常用的技术与springBoot的整合使用,当然,也有一些小bug, 因为在代码实践过 ...
CodeForces 1096E: The Top Scorer
一道经典组合数学+容斥题. 题目传送门:CF1096E. 题意简述: \(p\) 个人,每个人有得分 \(a_i\). 总得分 \(\sum a_i = s\). 第一个人得分 \(a_1 \ge r ...
C#基础之静态和非静态的区别
1.在非静态即可有非静态成员又可以有静态成员 2非静态调用创建类的对象.方法名,静态成员直接引用对象名

在 Pandas 中更改列的数据类型

1 创建 DataFrame 时指定类型

2 对于 Series

使用 to_numeric 转为数值

3 对于多列或者整个 DataFrame

df.apply(pd.to_numeric, errors='ignore')

另外 pd.to_datetime 和 pd.to_timedelta 可将数据转换为日期和时间戳。