c++ 数据预处理（数据去噪，归一化）

正态分布3σ原则，把3倍方差之外的点设想为噪声数据来排除。

归一化，将数据经过处理之后限定到一定的范围内，一般都会将数据限定到[0,1]。

#include <iostream>
#include <string>
#include <vector>
#include <algorithm>
#include <numeric>
#include <cmath>
#include <fstream>
#include <sstream>

template <class DataType>
void ReadDataFromFile(std::string &filename, std::vector<std::vector<DataType> > &lines_feat) {
　　std::ifstream vm_info(filename.c_str());
　　std::string lines;
　　DataType var;
　　std::vector<DataType> row;

　　lines_feat.clear();

　　while(!vm_info.eof()) {
　　　　getline(vm_info, lines);
　　　　if(lines.empty())
　　　　　　break;
　　　　std::stringstream stringin(lines);
　　　　row.clear();

　　　　while(stringin >> var) {
　　　　　　row.push_back(var);
　　　　}
　　　　lines_feat.push_back(row);
　　}
}

template <class DataType>
void Display2DVector(std::vector<std::vector<DataType> > &vv) {
　　std::cout<<"the total rows of 2d vector_data: "<<vv.size()<<"\n";

　　for(size_t i=0;i<vv.size();++i) {
　　　　for(typename::std::vector<DataType>::const_iterator it=vv[i].begin();it!=vv[i].end();++it) {
　　　　　　std::cout<<*it<<" ";
　　　　}
　　　　std::cout<<"\n";
　　}
　　std::cout<<"--------the end of the Display2DVector()--------\n";
}

template <class DataType>
void ProcessVector(std::vector<std::vector<DataType> > &vv) {
　　std::vector<double> temp;
　　double u[3]={0.0}, sum[3]={0.0}, sigma[3]={0.0};
　　for(size_t j=0; j<3; ++j) {
　　　　temp.clear();
　　　　for(size_t i=0; i<vv.size(); ++i) {
　　　　　　temp.push_back(vv[i][j]);
　　　　}
　　　　sum[j]=std::accumulate(temp.begin(), temp.end(), 0);
　　　　u[j]=sum[j]/vv.size();
　　}

　　for(size_t j=0;j<3;++j) {
　　　　temp.clear();
　　　　sum[j]=0.0;
　　　　for(size_t i=0;i<vv.size();++i) {
　　　　　　temp.push_back(std::pow(vv[i][j]-u[j], 2.0));
　　　　}
　　　　sum[j]=std::accumulate(temp.begin(), temp.end(), 0.0);
　　　　sigma[j]=sum[j]/vv.size();
　　　　sigma[j]=sqrt(sigma[j]);
　　}

　　double MaxValue[3]={0.0}, MinValue[3]={0.0};
　　for(size_t j=0;j<3;++j) {
　　　　temp.clear();
　　　　for(size_t i=0;i<vv.size();++i) {
　　　　　　if((vv[i][j]>(u[j]-3*sigma[j])) && (vv[i][j]<(u[j]+3*sigma[j]))) {
　　　　　　　　std::cout<<vv[i][j]<<" ";
　　　　　　temp.push_back(vv[i][j]);
　　　　　　}
　　　　}
　　　　std::cout<<"\n";
　　　　MaxValue[j]=*std::max_element(temp.begin(), temp.end());
　　　　MinValue[j]=*std::min_element(temp.begin(), temp.end());
　　}

　　for(size_t j=0;j<3;++j) {
　　　　for(size_t i=0;i<vv.size();++i) {
　　　　　　if((vv[i][j]>(u[j]-3*sigma[j])) && (vv[i][j]<(u[j]+3*sigma[j]))) {
　　　　　　　　std::cout<<(vv[i][j]-MinValue[j])/(MaxValue[j]-MinValue[j])<<" ";
　　　　　　}
　　　　}
　　　　std::cout<<"\n";
　　}
}

int main() {
　　std::vector<std::vector<int> > lines_feat;
　　std::string filename="vm.data";

　　/*read data from file to 2d vector*/
　　ReadDataFromFile(filename, lines_feat);

　　/*display the raw data*/
　　Display2DVector(lines_feat);

　　/*process the data*/
　　ProcessVector(lines_feat);

　　std::cout<<"--------The end of main()--------\n";

　　return 0;
}

源数据如下(cat vm.data)：

19 26 63
13 62 65
16 69 15
14 56 17
19 6 15
11 42 15
18 58 36
12 77 33
10 75 47
15 54 70
10017 1421077 4196

c++ 数据预处理（数据去噪，归一化）的更多相关文章

Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
sklearn中的数据预处理----good!! 标准化归一化在何时使用
RESCALING attribute data to values to scale the range in [0, 1] or [−1, 1] is useful for the optimiz ...
spark 数据预处理特征标准化归一化模块
#We will also standardise our data as we have done so far when performing distance-based clustering. ...
Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
机器学习PAL数据预处理
机器学习PAL数据预处理本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件完成数据准备,详情请参见准备数据. 操作步骤登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...
Python数据挖掘——数据预处理
Python数据挖掘——数据预处理数据预处理数据质量准确性.完整性.一致性.时效性.可信性.可解释性数据预处理的主要任务数据清理数据集成数据归约维归约数值归约数据变换规范化数据 ...
机器学习实战基础（八）：sklearn中的数据预处理和特征工程（一）简介
1 简介数据挖掘的五大流程: 1. 获取数据 2. 数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程可能面对的问题有:数据类型不同,比如有的是文字,有的是数字 ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属 ...

随机推荐

Codeforces_733D
D. Kostya the Sculptor time limit per test 3 seconds memory limit per test 256 megabytes input stand ...
C#鸡翁百鸡
一个for static void Main(string[] args) { int x, y, z; ; x <= ; x++) { - * x) % == ) { y = ( - * x) ...
内网jenkins如何配置gitlab自动拉取代码打包
在全局工具配置中添加git安装目录的配置 http://10.2.1.92:8080/jenkins/configureTools/git1.8.3.1/usr/bin/git 打开系统设置配置git ...
std::vector遍历
std::vector是我在标准库中实用最频繁的容器.总结一下在遍历和创建vector时需要注意的一些地方. 在不考虑线程安全问题的前提下,在C++11中有五种遍历方式. 方式一 for (size_ ...
js取自定义data属性
//20170329 原本以为只能attr或者prop来获取属性,但是今天看别人的代码他自定义了一个属性,却取不到他的属性值,我自己在本地又可以取到,难道是phtml的原因,于是我到网上查找,发现了一 ...
jquery动态生成二维码添加自定义logo
动态生成二维码中间带logo. jquery.qrcode.js 动态生成二维码api很简单. 引入jquer(版本任意),引入jquery.qrcode.js 不需要中间带logo这样就可以了.带l ...
IO相关操作
IO相关操作对于IO操作而言,有四个基本的操作:open .read .write .close 我们来逐个解释. 在此之前我们先解释一下什么是文件描述符文件描述符操作系统通过一个整数开代 ...
Delphi 10.3.2最新消息
官方已经发布消息,招内测人员了! https://www.barnsten.com/default/newsupdates/details?news_id=328 https://docs.googl ...
Accessoft-日期区间段查询示例,开始日期至截止日期区段查询
Accessoft-日期区间段查询示例,开始日期至截止日期区段查询实现功能效果如下: 示例查询开始日期为2017年3月15日到2017年3月16日的内容: sql查询语句如下: SELECT Inf ...
Huawei-R&S-网络工程师实验笔记20190530-FTP上传下载、STelnet登录、SFTP登录
>Huawei-R&S-网络工程师实验笔记20190530-FTP上传下载.STelnet登录.SFTP登录 >>实验开始,参考<Huawei-R&S-网络工程 ...

c++ 数据预处理（数据去噪，归一化）

c++ 数据预处理（数据去噪，归一化）的更多相关文章

随机推荐

热门专题