1. 环境搭建 l Python安装包:www.python.org l Microsoft Visual C++ Compiler for Python l pip(get-pip.py):pip.pypa.io/en/latest/installing.html n pip install + 安装包 --安装包(.whl,.tar.gz,.zip) n pip uninstall + 安装包 --卸载包 n pip show --files +…
一.数据探索 1.数据读取 遍历文件夹,读取文件夹下各个文件的名字:os.listdir() 方法:用于返回指定的文件夹包含的文件或文件夹的名字的列表.这个列表以字母顺序. 它不包括 '.' 和'..' 即使它在文件夹中. 1.1 CSV格式数据 详细说明 (1)读取 ### python导入csv文件的4种方法 # 1.原始的方式 lines = [line.split(',') for line in open('iris.csv')] df = [[float(x) for x in li…
6.标签特征二元化 处理分类变量还有另一种方法,不需要通过OneHotEncoder,我们可以用LabelBinarizer. 这是一个阈值与分类变量组合的方法. In [1]: from sklearn import datasets as d iris = d.load_iris() target = iris.target How to do it... 导入LabelBinarizer()创建一个对象: In [2]: from sklearn.preprocessing import…