python 读取libsvm文件

以下三种方式

# -*- coding:utf-8 -*-

import numpy as np

import os

from sklearn import datasets

def data_generator(input_filename, batch_size):

    """

    :param input_filename:

    :param batch_size:

    :return:

    """

    feature_size = 3

    labels = np.zeros(batch_size)

    rets = np.empty(shape=[batch_size, feature_size])

    i = 0

    for line in open(input_filename, "r"):

        data = line.split(" ")

        label = int(float(data[0]))

        ids = []

        values = []

        for fea in data[1:]:

            id, value = fea.split(":")

            if int(id) > feature_size - 1:

                break

            ids.append(int(id))

            values.append(float(value))

        ret = np.zeros([1, feature_size])

        for (index, d) in zip(ids, values):

            ret[0][index] = d

        labels[i] = int(label)

        rets[i] = ret

        i += 1

        if i > batch_size - 1:

            i = 0

            yield labels, rets[0:, 0:3]

def get_data(input_filename, batch_size):

    oneline = 16294  # 一行多少个字节

    feature_size = 1947

    batch = 0

    while True:

        data = datasets.load_svmlight_file(input_filename, offset=oneline * batch_size * batch,

                                           length=oneline * batch_size,

                                           n_features=feature_size)

        features = data[0]

        labels = data[1]

        if features.shape[0] > 0:  # 保证返回和数据的有效性

            batch += 1

            yield labels, features[0:, 0:3]

        else:

            raise StopIteration

def get_data_all(input_filename, batch_size):

    data = datasets.load_svmlight_file(input_filename)

    features = data[0]

    labels = data[1]

    batch = 0

    while True:

        start_index = batch * batch_size

        end_index = (batch + 1) * batch_size

        if features.shape[0] > end_index:

            yield labels[start_index:end_index], features[start_index:end_index, 0:3]

            batch += 1

        else:

            raise StopIteration

if __name__ == "__main__":

    print("====", os.getcwd())

    filename = "/home/part-00000"

    generator = data_generator(filename, 10)

    labels, features = generator.next()

    print([labels])

    print(features)

    generator = get_data_all(filename, 1000)

    while True:

        labels, features = generator.next()

        print 'data', len(labels), features.shape

对于需要循环多次调用方法的，可以使用缓存，需要注意的是，缓存不能直接加在yiled函数上

# -*- coding:utf-8 -*-

import numpy as np

from sklearn.externals.joblib import Memory

import os

import random

from sklearn import datasets

mem = Memory("/tmp/mycache")

def get_data_batch(input_filename, batch_size):

    data = get_data(input_filename)

    features = data[0]

    labels = data[1]

    batch = 0

    while True:

        start_index = batch * batch_size

        end_index = (batch + 1) * batch_size

        if features.shape[0] > end_index:

            yield labels[start_index:end_index], features[start_index:end_index]

            batch += 1

        else:

            raise StopIteration

@mem.cache

def get_data(input_filename):

    return datasets.load_svmlight_file(input_filename)

python 读取libsvm文件的更多相关文章

Python读取txt文件
Python读取txt文件,有两种方式: (1)逐行读取 data=open("data.txt") line=data.readline() while line: print ...
Python读取Yaml文件
近期看到好多使用Yaml文件做为配置文件或者数据文件的工程,随即也研究了下,发现Yaml有几个优点:可读性好.和脚本语言的交互性好(确实非常好).使用实现语言的数据类型.有一个一致的数据模型.易于实现 ...
python读取中文文件编码问题
python 读取中文文件后,作为参数使用,经常会遇到乱码或者报错asii错误等. 我们需要对中文进行decode('gbk') 如我有一个data.txt文件有如下内容: 百度谷歌现在想读取文件 ...
Python读取SQLite文件数据
近日在做项目时,意外听说有一种SQLite的数据库,相比自己之前使用的SQL Service甚是轻便,在对数据完整性.并发性要求不高的场景下可以尝试! 1.SQLite简介: SQLite是一个进程内 ...
Python读取xlsx文件
Python读取xlsx文件脚本如下: from openpyxl import load_workbook workbook = load_workbook(u'/tmp/test.xlsx') ...
Python 读取WAV文件并绘制波形图
aa Python 读取WAV文件并绘制波形图 ffmpeg -i test_pcm_mulaw.wav -f wav -codec:a pcm_s16le -ar 8000 -ac 1 out.wa ...
使用python读取yaml文件
在做APP测试时,通常需要把参数存到一个字典变量中,这时可以将参数写入yaml文件中,再读取出来. 新建yaml文件(android_caps.yaml),文件内容为: platformName: A ...
python 读取bin文件
python读取bin文件并下发串口 # coding:utf-8import time, serialfrom struct import *import binascii file = ope ...
记录：python读取excel文件
由于最近老是用到python读取excel文件,所以特意记录一下python读取excel文件的大体框架. 库:xlrd(读),直接pip安装即可.想要写excel文件的话,安装xlwd库即可,也是直 ...

随机推荐

group_concat 多对多关联, 统计分组数据, 结果拼接到一个字段
统计用户所有的角色, 结果: 1 张三普通用户,管理员,XXX 2 李四普通用户, XXX select ur.user_id,u.login_name,GROUP_CONCAT ...
【IE兼容性】代码中多语言样式+IE不兼容解决
一.代码中样式根据不同语言对IE做不兼容解决二.代码逻辑: 1. 后台返回语言信息: result.addObject("language",getLocaleStr()); ...
screen命令在freebsd安装和使用
安装 # cd /usr/ports/sysutils/screen # make install clean 使用 # screen //以下^A表示同按“Ctrl + A”键 # ^A c //C ...
sql---字段类型转换，sql获取当前时间
一.字段类型转换 convert(要转换成的数据类型,字段名称)例如 convert(varchar(100),col_name)Convert(int,Order_no) 二.sql获取当前时间 s ...
我有一台 PC，上面有摄像头，怎么进行一场直播？
如何推流与播放_Web端直播实践_最佳实践_视频直播-阿里云 https://help.aliyun.com/document_detail/57251.html?spm=a2c4g.11186623 ...
使用jQuery操作Cookies
转载自: https://www.cnblogs.com/yonge/articles/2698106.html Cookies是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存,或是从客户端的 ...
小程序wxParse插件的使用
微信小程序输出html内容数据插件wxParse,可以把带html标签的数据输出为微信小程序正常显示的格式,wxParse插件带有演示,也有使用文档说明. 下载地址:https://github.co ...
myeclipse10.7导出war包时出错解决办法
myeclipse10.7的版本破解后,导出war包时报“SECURITY ALERT: INTEGERITY CHECK ERROR”的错误. 选中项目->export->java ee ...
我的Android进阶之旅------>android如何将List请求参数列表转换为json格式
本文同步发表在简书,链接:http://www.jianshu.com/p/395a4c8b05b9 前言由于接收原来的老项目并进行维护,之前的http请求是使用Apache Jakarta Com ...
Linux（1）- 服务器核心知识、Linux入门、VMware与centeos安装、远程连接linux、linux基本命令使用
一.服务器核心知识 1.电脑和电脑的硬件组成现在的人们几乎无时无刻不在使用着电脑!不管是桌上型电脑(桌机).笔记型电脑(笔电).平板电脑,还是智慧型手机等等,这些东西都算是电脑.虽然接触这么多,但是 ...

python 读取libsvm文件

python 读取libsvm文件的更多相关文章

随机推荐

热门专题