Python 1行代码实现文本分类(实战笔记)，含代码详细说明及运行结果

一、详细说明及代码 tc.py

=================================================================


#coding=utf-8

__author__ = 'huangzhi'



#pip install textblob #需要安装

#python -m textblob.download_corpora #需要安装



from textblob.classifiers import NaiveBayesClassifier

from textblob import TextBlob

import pickle

#训练数据

train = [

    ('ACACIA 骑行 服 套装 男 抓绒 长袖 山  车 秋冬 自行车 服  装备 骑行 裤 长裤', '服装'),

    ('自行车 行车 货架 货架 单车 货架 自行 自行车 行车 装备', '自行车配件'),

    ('acacia  骑行 裤 长裤  夏季 骑行 服饰 透气 防晒 自行车 裤  春秋 防风 裤', '服装'),

    ('ACACIA 自行车  LED 尾灯 骑行 警示灯 鞍座 灯 坐垫 灯  山  车 配件  尾灯', '自行车配件'),

    ('秋冬 加厚 打底 底裤 黑色 弹力 紧身 女裤 铅笔 裤子', '服装'),

    ('自行车 把 套 副 把  人体工学 把 套  羊角 把 套 套装  骑行 装备 山  车 配件', '自行车配件'),

    ("ACACIA 自行车  LED 尾灯 山  车 警示灯 骑行 车尾灯 自行车 装备 配件", '自行车配件'),

    ('acacia 山  车 挡泥板 山  自行车 挡泥板 挡雨板 快 拆 加长 全包 挡泥 配件', '自行车配件'),

    ('彩宝莉  春秋季 睡衣 女 长袖 长裤 针织 棉 可爱 卡通 pink 家居服 套装', '服装'),

    ("男士 保暖 裤加绒 秋冬 棉裤 男 绒裤 加厚 男士 打 底裤 冬 紧身 秋裤 单件 毛裤", '服装'),

    ('可外 穿  夏季 情侣 睡衣 女  格子裙  纯棉 短袖 家居服 套装 男士 全棉 夏款', '服装'),

    ('自行车 码表 磁头  扁 辐条 圆 辐条 磁头  码表  山  车 测速器 磁铁 强力', '自行车配件')

]

#测试用例

test = [

    ('新款 纯棉 夏季 短袖 睡衣 蕾丝 可爱 爱家 家居 家居服 套装', '服装'),

    ('ACACIA 自行车 多功能 组合 工具 山  车 修车 工具 骑行 带 截连器 修车 套装', '自行车配件'),

    ("屏幕 自行车 码表 夜光 防水 温度 骑行 码表 有线  骑行 装备", '自行车配件'),

    ("秋冬 加厚 打底 底裤 黑色 弹力 紧身 女裤 铅笔 裤子", '服装'),

    ('秋季 新款 打底 底裤 蕾丝 仿皮 铅笔 长裤 裤子', '服装'),

    ("自行 自行车 行车 条形 彩色 支架 防盗 防盗锁 电动 电动车 动车 锁具 钢丝 骑行 行装 装备", '自行车配件')

]

#训练

cl = NaiveBayesClassifier(train)

# 文本分类

print(cl.classify("屏幕 自行车 码表 夜光 防水 温度 骑行 码表 有线  骑行 装备"))  # "自行车配件"

print(cl.classify("男士 保暖 裤加绒 秋冬 棉裤 男 绒裤 加厚 男士 打 底裤 冬 紧身 秋裤 单件 毛裤"))   # "服装"



# 段落分类

blob = TextBlob("奶奶的 一大早 我的 自行车 坐垫 破了. 赶紧 叫 小明 穿上 他的 新款 打底裤. "

                "小明 骑上 他的 自行车 帮我买 自行车 坐垫.", classifier=cl)

print(blob.classify())

for sentence in blob.sentences:

    print(sentence) #段落中的句子

    print(sentence.classify()) #句子分类



# 测试用例的精度

print("Accuracy: {0}".format(cl.accuracy(test)))

#

# 显示10条对比信息

cl.show_informative_features(10)

#模型保存

f = open('D:/pyfenlei/Text_Classification/huangzhicl1.pickle', 'wb')

pickle.dump(cl, f)

f.close()

#加载模型

f = open('D:/pyfenlei/Text_Classification/huangzhicl1.pickle', 'rb')

hzcl = pickle.load(f)

f.close()

#用加载的模型测试用例数据

print("Accuracy: {0}".format(hzcl.accuracy(test)))

=================================================================

二、运行结果如下：

D:\Programs\Python\Python36-64\python.exe D:/pyfenlei/Text_Classification/tc1.py

自行车配件

服装

自行车配件

奶奶的一大早我的自行车坐垫破了.

自行车配件

赶紧叫小明穿上他的新款打底裤.

服装

小明骑上他的自行车帮我买自行车坐垫.

自行车配件

Accuracy: 1.0

Most Informative Features

contains(山) = False 服装 : 自行车配件 = 3.7 : 1.0

contains(车) = False 服装 : 自行车配件 = 3.7 : 1.0

contains(山) = True 自行车配件 : 服装 = 3.7 : 1.0

contains(车) = True 自行车配件 : 服装 = 3.7 : 1.0

contains(自行车) = True 自行车配件 : 服装 = 2.6 : 1.0

contains(配件) = False 服装 : 自行车配件 = 2.6 : 1.0

contains(装备) = True 自行车配件 : 服装 = 2.3 : 1.0

contains(套装) = True 服装 : 自行车配件 = 2.3 : 1.0

contains(秋冬) = False 自行车配件 : 服装 = 1.9 : 1.0

contains(长裤) = False 自行车配件 : 服装 = 1.9 : 1.0

Accuracy: 1.0

Process finished with exit code 0

三、保存模型

f = open('D:/pyfenlei/Text_Classification/huangzhicl1.pickle', 'wb')

pickle.dump(cl, f)

f.close()

四、加载模型并用测试数据进行预测

f = open('D:/pyfenlei/Text_Classification/huangzhicl1.pickle', 'rb')

hzcl = pickle.load(f)

f.close()

#用加载的模型测试用例数据

print("Accuracy: {0}".format(hzcl.accuracy(test)))

本人原创，未经许可，可随意转载

Python 1行代码实现文本分类(实战笔记)，含代码详细说明及运行结果的更多相关文章

文本分类实战（十）—— BERT 预训练模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（八）—— Transformer模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（六）—— RCNN模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（五）—— Bi-LSTM + Attention模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（四）—— Bi-LSTM模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（二）—— textCNN 模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（九）—— ELMO 预训练模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（七）—— Adversarial LSTM模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
文本分类实战（三）—— charCNN模型
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

随机推荐

2018.09.14 洛谷P3931 SAC E#1 - 一道难题 Tree（树形dp）
传送门简单dp题. f[i]表示以i为根的子树被割掉的最小值. 那么有: f[i]=min(∑vf[v],dist(i,fa))" role="presentation" ...
Nginx安装SSL安全证书
1. 在Nginx的安装目录下的config目录下创建cert目录,并且将下载的证书全部文件拷贝到cert目录中.如果申请证书时是自己创建的CSR文件,请将对应的私钥文件放到cert目录下并且命名为2 ...
ansible-playbook api 2.0 运行项目
上篇 api 的文章 <ansible-playbook api 2.0 直接运行> 介绍的是直接将 tasks 直接写在代码中的,本文介绍 api 运行整个项目 [root@10_1_ ...
hdu 5882 Balanced Game 2016-09-21 21:22 80人阅读评论(0) 收藏
Balanced Game Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) To ...
MeshLab编译理解
1.安装QT5.7,VS2013,QT_VA_Addin (涉及3D模型处理,采用64bit编译,且分为两种debug,release方式) 2.下载VCGlib库,放在meshlab的同级目录 (因 ...
springMVC ModelAndView 作用与功能解析【转】
Spring mvc视图机制所有的web应用的mvc框架都有它定位视图的方式.Spring提供了视图解析器供你在浏览器中显示模型数据,而不必被拘束在特定的视图技术上. Spring的控制器Contr ...
delphi 连接oracle对接代码
selectt4.vclen60 as pat_d_codename,t4.vclen60 as pat_sexname,t1.pat_sex,t1.pat_d_code,t1.pat_in_no,t ...
仿建设银行APP首页效果
仿建设银行APP首页效果下载地址: http://pan.baidu.com/s/1eRMYEzC 下载后需要解压,解压密码联系:390980233 收费88元 HTML+JS实现,下载即可试用. ...
NetCore入门篇：（十一）NetCore项目读取配置文件appsettings.json
一.简介 1.读取配置文件是开发过程中使用非常频繁的操作.属称”不能写死“ 二.NetCore读取配置文件 1.新建一个静态公共变量,属称单例. 2.在程序Startup启动时,将系统变量传递给单例. ...
js form 表单重置清空
清空和重置的差异是清空是彻底清空input内容即便初始值value有值,重置是将input内容重置为value初始状态很简单记录下方便之后使用 //重置 //document.getElem ...

Python 1行代码实现文本分类(实战笔记)，含代码详细说明及运行结果

Python 1行代码实现文本分类(实战笔记)，含代码详细说明及运行结果的更多相关文章

随机推荐

热门专题