python - 实现文本分类[简单使用第三方库完成]

第三方库

pandas

sklearn

数据集

来自于达观杯

训练：train.txt

测试：test.txt

概述

TF-IDF 模型提取特征值
建立逻辑回归模型

代码

# _*_ coding:utf- _*_

# 简单文本分类实现

import time

import pandas as pd

from sklearn.linear_model import LogisticRegression

from sklearn.feature_extraction.text import CountVectorizer

print("start......")

time_start=time.time()

# ()加载数据 - 利用pandas读取cvs中数据

df_train = pd.read_csv("D:/train.txt")

df_test=pd.read_csv("D:/test.txt")

# [1.1]数据处理 - 根据个人对算据的分析

# 本次实验 - 删除'article','id'列

df_train.drop(columns=['article','id'],inplace=True)

df_test.drop(columns=['article'],inplace=True)

# ()特征提取

"""

特征是什么：选取一些“重要元素”标识一个文本

特征选取：抽取关键特征值（TF-IDF,LDA..）,原因：特征太多，构成的特征向量计算机非常难处理（内存空间，时间）

一个类别如何标识：文本（多个）+特征（多个）=>[二维向量] --- 标识一个类别

"""

# TF-IDF 模型

# sklearn 提取文本特征

# []TfidfVectorizer

# []CountVectorizer 文本特征提取方法 - 文本中的词语转换为词频矩阵

# 词频矩阵 - 矩阵元素a[i][j] 表示j词在第i个文本下的词频

# sklearn - CountVectorizer

vectorizer=CountVectorizer(ngram_range=(, ), min_df=,max_df=0.9, max_features=)

vectorizer.fit(df_train['word_seg'])

#训练和测试的词频向量格式保持一致

x_train=vectorizer.transform(df_train['word_seg'])

x_test=vectorizer.transform(df_test['word_seg'])

y_train = df_train['class']-

# sklearn - TfidfVectorizer

# ()分类模型 - 逻辑回归模型

#  modal ：LogisticRegression

lg = LogisticRegression(C=, dual=True,solver='liblinear',multi_class='ovr')

lg.fit(x_train, y_train)

# ()预测

y_test = lg.predict(x_test)

# ()结果展示

df_test['class'] = y_test.tolist()

df_test['class'] = df_test['class'] +

df_result = df_test.loc[:, ['id', 'class']]

df_result.to_csv('D:/result.csv', index=False)

time_end=time.time()

print("running time={}".format(time_end-time_start))

print("end......")

python - 实现文本分类[简单使用第三方库完成]的更多相关文章

python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
Python连接数据库流行用到的第三方库
Python连接数据库流行用到的第三方库: mysqldb:只支持Python2.x mysqlclient : mysqldb的衍生版本,完全兼容mysqldb,同时支持Python3.x,安装较复 ...
python pip使用国内镜像安装第三方库：命令行或PyCharm
python pip使用国内镜像安装第三方库:命令行或PyCharm 转载: https://blog.csdn.net/lly1122334/article/details/80646996
python学习(十九)常见的第三方库
原文链接:http://www.limerence2017.com/2017/12/28/python19/#more 介绍几个python中常见的第三方库. Pillow Pillow简称PIL,是 ...
NO.3_1：自学python之路------番外：第三方库安装、numpy
引言 Python因为pip的存在,使得第三方库的发布和获取都比较方便.并且Python对跨平台的支持,使得其相较于C++,Java更加方便使用.在本文中,将会介绍在Windows中安装第三方库的方法 ...
python 技巧之 pyCharm快速添加第三方库和插件
学习python有几个月,安装第三方库都是通过 pip install 或者 easy_install.每次都要打开命令行感觉太麻烦.还好Pycharm提供了安装第三方库和安装插件的功能. 首先打开P ...
Python学习（六）模块 —— 第三方库
Python 第三方库安装第三方库在Python中,安装第三方库包,是通过setuptools这个工具完成的.Python有两个封装了setuptools的包管理工具:easy_install和p ...
Python常用内建模块和第三方库
目录内建模块 1 datetime模块(处理日期和时间的标准库) datetime与timestamp转换 str与datetime转换 datetime时间加减,使用timedelta这个类转 ...
Python pip包管理器安装第三方库超时解决方案
一.国内镜像安装使用方法:pip install --index 镜像网站第三方库名二.镜像网站 http://pypi.douban.com/simple/ 豆瓣 http://mirrors ...

随机推荐

编译boost.log模块遇到的一些问题
线上日志用到的是日志库,在全局有一个锁,导致在高并发的时候,容易因为锁竞争问题导致时延.在某些情况下,会因为同一个用户,同时访问某个变量,导致读写冲突使线上服务整体core掉(考虑到请求的间隔,为了应 ...
Coursera连接不上（视频无法播放），修改hosts文件
视频问题如果Coursera网站连接不上,或者视频加载不出来.可以通过如下方式进行配置: 一.找到hosts文件 Windows 系统, hosts文件位于: [C:\Windows\Syste ...
Core 第三组结对作业——四则运算 Part1. Core代码编写
结对作业——四则运算 Part1. Core代码编写 PB15061303 刘梓轩PB16061489 艾寅中 GITHUB 地址戳这里目录 (因为内容较多,分为了三个部分,但作业系统中只能提交一 ...
redis入门资源收集汇总
redis安装:http://www.redis.io/download redis命令测试平台:http://try.redis.io/ redis桌面管理工具:http://redisdeskto ...
mysql-5.6.24-win32解决没有my.ini并且修改编码
3.配置环境变量:新建一个系统变量: MYSQL_HOME, 值:D:\MySql\mysql5611 //这一步不做也行 4.修改MySql启动配置文件: 将安装目录下文件:my-default. ...
01 lucene基础北风网项目培训 Lucene实践课程 Lucene概述
lucene-core-2.4.1.jar是lucene开发的核心jar包,lucene-analyzers-2.4.1.jar也是必不可少的.lucene-highlighter-2.4.1.jar ...
Struts2项目走向流转
----------------siwuxie095 Struts2 项目走向流转 1.HTTP 请求流转过程 2.配置文件连接点详解 [made by siwuxie095]
LinuxSystemProgramming-Syllabus
Linux System Programming Syllabus
ajax 整个表单的提交
重点:data: $("#form1").serialize() function setSaveNext() { setSaveData(); var cx = pageInde ...
[GO]匿名函数和defer
package main import "fmt" func main() { a := 10 b := 20 defer func() { fmt.Printf("a ...

python - 实现文本分类[简单使用第三方库完成]

python - 实现文本分类[简单使用第三方库完成]的更多相关文章

随机推荐

热门专题