liblinear使用总结

liblinear是libsvm的线性核的改进版本，专门适用于百万数据量的分类。正好适用于我这次数据挖掘的实验。

liblinear用法和libsvm很相似，我是用的是.exe文件，利用python的subprocess向控制台发送命令即可完成本次试验。

其中核心两句即

train train.txt

predict test.txt train.txt.model output.txt

由于是线性核，没有设置参数c、g

对于50W篇文章模型训练仅需340秒，50W篇文章的预测仅需6秒

 from subprocess import *

 import time

 time = time.time

 start_time = time()

 print("训练")

 cmd = "train train.txt"

 Popen(cmd, shell = True, stdout = PIPE).communicate()

 print("训练结束",str(time() - start_time))

 start_time = time()

 print("预测")

 cmd = "predict test.txt train.txt.model output.txt"

 Popen(cmd, shell = True).communicate()

 print("预测结束",str(time() - start_time))

 #进行统计

 #读测试集真实label

 start_time = time()

 print("统计")

 test_filename = "test.txt"

 f = open(test_filename,"r",encoding = "utf-8")

 real_class = []

 for line in f:

     real_class.append(line[0])

 #总样本

 total_sample = len(real_class)

 #读预测结果label

 predict_filename = "output.txt"

 f_predict = open(predict_filename,"r",encoding = "utf-8")

 s = f_predict.read()

 predict_class = s.split()

 #对预测正确的文章进行计数

 T = 0

 for real, predict in zip(real_class,predict_class):

     if int(real) == int(predict):

         T += 1

 accuracy  = T / total_sample * 100

 print("正确率 为", str(accuracy) + "%")

 # class_label = ["0","1","2","3","4","5","6","7","8","9"]

 num_to_cate = {0:"it",1:"体育",2:"军事",3:"金融",4:"健康",5:"汽车",6:"房产",7:"文化",8:"教育",9:"娱乐"}

 class_label = ["it","体育","军事","金融","健康","汽车","房产","文化","教育","娱乐"]

 predict_precision = dict.fromkeys(class_label,1.0)

 predict_true = dict.fromkeys(class_label,1.0)

 predict_recall = dict.fromkeys(class_label,1.0)

 predict_F = dict.fromkeys(class_label,0.0)

 # print(str(predict_precision))

 # print(str(predict_precision))

 # print(str(predict_recall))

 # print(str(predict_true))

 mat = dict.fromkeys(class_label,{})

 for k,v in mat.items():

     mat[k] = dict.fromkeys(class_label,0)

 # print(str(mat))

 for real, predict in zip(real_class,predict_class):

     real = int(real)

     predict = int(predict)

     # print(num_to_cate[real])

     # print(num_to_cate[predict])

     mat[num_to_cate[real]][num_to_cate[predict]] += 1

     predict_precision[num_to_cate[predict]] += 1

     predict_recall[num_to_cate[real]] += 1

     if int(real) == int(predict):

         predict_true[num_to_cate[predict]] += 1

 # print(str(predict_precision))

 # print(str(predict_recall))

 # print(str(predict_true))

 #输出混淆矩阵

 for k, v in mat.items():

     print(k + ":" + str(v))

 #计算精确率和召回率

 for x in range(len(class_label)):

     # x =  str(x)

     predict_precision[num_to_cate[x]] = predict_true[num_to_cate[x]] / predict_precision[num_to_cate[x]]

     predict_recall[num_to_cate[x]] = predict_true[num_to_cate[x]] / predict_recall[num_to_cate[x]]

 # print(str(predict_precision))

 # print(str(predict_recall))

 # print(str(predict_true))

 #计算F测度

 for x in range(len(class_label)):

     # x = str(x)

     predict_F[num_to_cate[x]] = 2 * predict_recall[num_to_cate[x]] * predict_precision[num_to_cate[x]] / (predict_precision[num_to_cate[x]] + predict_recall[num_to_cate[x]])

 print("统计结束",str(time() - start_time))

 print("精确率为",str(predict_precision))

 print("召回率为",str(predict_recall))

 print("F测度为",str(predict_F))

 print("保存结果")

 final_result_filename = "./finalresult.txt"

 f = open(final_result_filename,"w",encoding = "utf-8")

 for k, v in mat.items():

     f.write(k + ":" + str(v) + "\n")

 f.write("\n")

 f.write("正确率为" + str(accuracy) + "%" + "\n\n")

 f.write("精确率为" + str(predict_precision) + "\n\n")

 f.write("召回率为" + str(predict_recall) + "\n\n")

 f.write("F测度为" + str(predict_F) + "\n\n")

 print("保存结果结束")

 # cate_to_num = {"it":0,"体育":1,"军事":2,"华人":3,"国内":4,"国际":5,"房产":6,"文娱":7,"社会":8,"财经":9}

 # num_to_cate = {0:"it",1:"体育",2:"军事",3:"华人",4:"国内",5:"国际",6:"房产",7:"文娱",8:"社会",9:"财经"}

liblinear使用总结的更多相关文章

LibLinear（SVM包）使用说明之（一）README
转自:http://blog.csdn.net/zouxy09/article/details/10947323/ LibLinear(SVM包)使用说明之(一)README zouxy09@qq.c ...
LibLinear（SVM包）使用说明之（三）实践
LibLinear(SVM包)使用说明之(三)实践 LibLinear(SVM包)使用说明之(三)实践 zouxy09@qq.com http://blog.csdn.net/zouxy09 我们在U ...
LibLinear（SVM包）使用说明之（二）MATLAB接口
LibLinear(SVM包)使用说明之(二)MATLAB接口 LibLinear(SVM包)使用说明之(二)MATLAB接口 zouxy09@qq.com http://blog.csdn.net/ ...
LibLinear（SVM包）的MATLAB安装
LibLinear(SVM包)的MATLAB安装 1 LIBSVM介绍 LIBSVM是众所周知的支持向量机分类工具包(一些支持向量机(SVM)的开源代码库的链接及其简介),运用方便简单,其中的核函数( ...
Liblinear and Libsvm-rank训练数据的bash代码
Liblinear and Libsvm-rank训练数据的bash代码: for j in "amazon_mp3" "video_surveillance" ...
学习笔记23—window10 64位 python2.7 安装liblinear
最近在使用pythin,因为要使用libsvm,所以到官网去下载libsvm.官网地址为libsvm(https://www.csie.ntu.edu.tw/~cjlin/libsvm/)结果下载下来 ...
liblinear和libsvm区别
来源于知乎: 1. LibLinear是线性核,LibSVM可以扩展到非线性核(当也能用线性核,但同样在线性核条件下会比LibLinear慢很多).2. 多分类:LibLinear是one vs al ...
liblinear参数及使用方法（原创）
开发语言:JAVA 开发工具:eclipse (下载地址 http://www.eclipse.org/downloads/) liblinear版本:liblinear-1.94.jar (下载地址 ...
Libsvm和Liblinear的使用经验谈
原文:http://blog.sina.com.cn/s/blog_5b29caf7010127vh.html Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,L ...

随机推荐

Laravel 更新数据时在表单请求验证中排除自己，检查指定字段唯一性
原文地址:https://moell.cn/article/24 不错的laravel网站需求场景修改用户信息时,在表单请求验证中排除当前邮箱所在的记录行,并检查邮箱的唯一性. Laravel版本 ...
java 一些容易忽视的小点-类和对象
构造器通过new关键字调用构造器虽然有返回值,但是不能定义返回值类型(返回值的类型肯定是本类),不能在构造器里使用return返回某个值. 构造器是有权限的,也就是可以添加public,也可以添加 ...
微信授权(Net Mvc)
项目结构 WeiXinController.cs using System; using System.Collections.Generic; using System.Linq; using Sy ...
c#7的新特性
1.out关键字 //可以直接声明使用 ",out int number); 2.元组 //有点类似匿名对象的样子 //用小括号包含变量,可以当做返回值,可以当做变量赋值等 //1.当做函数 ...
Cracking The Coding Interview5.1
//You are given two 32-bit numbers, N and M, and two bit positions, i and j. Write a method to set a ...
６.3 C++修改字符串
参考:http://www.weixueyuan.net/view/6392.html 总结: string字符串同样可以像字符串数组那样按照下标逐一访问字符串中的每一个字符,string字符串的起始 ...
第二章使用unittest模块扩展功能测试
2.1使用功能测试驱动开放一个最简单的应用 # functional_tests.py # -*- coding: utf-8 -*- from selenium import webdriver b ...
nginx配置文服
修改nginx.conf 添加如下内容 autoindex on; # 显示目录 autoindex_exact_size on; # 显示文件大小 autoindex_localtime on; # ...
switfmailer 邮件时间错误处理
Warning: date(): It is not safe to rely on the system's timezone settings. You are *required* to use ...
大直播时代，P2P才是降低成本的必杀技
在流媒体传输分发领域,CDN和P2P一直是经常被拿来进行对比和讨论的一大热点,虽然不少大型视频企业目前同时使用着CDN和P2P两套分发机制,但相对于CDN,很多人对于P2P技术知之甚少.整体来说,P2 ...

liblinear使用总结

liblinear使用总结的更多相关文章

随机推荐

热门专题