python 学习常见问题笔记

1、for...if...构建List

segs = [v for v in segs if not str(v).isdigit()]#去数字

https://www.cnblogs.com/eniac1946/p/7327144.html

for if 基本语法以及示例

https://www.cnblogs.com/huchong/p/9328687.html

2、python之lambda、filter、map、reduce的用法说明

https://www.cnblogs.com/yufeihlf/p/6179982.html

3、pandas库DataFrame的分组,拼接,统计运算等用法

https://blog.csdn.net/cymy001/article/details/78300900

4、jieba分词介绍及入门示例

https://www.cnblogs.com/tonglin0325/p/6298456.html

jieba 进阶版：https://www.cnblogs.com/wangbaihan/p/9474295.html

5、词袋模型

https://baike.baidu.com/item/%E8%AF%8D%E8%A2%8B%E6%A8%A1%E5%9E%8B/22776998?fr=aladdin

6、用docsim/doc2vec/LSH比较两个文档之间的相似度

https://blog.csdn.net/vs412237401/article/details/52238248

https://blog.csdn.net/qq_16633405/article/details/80578804

7、python 文件操作

https://blog.csdn.net/qq_37383691/article/details/76060972

w：以写方式打开，

a：以追加模式打开 (从 EOF 开始, 必要时创建新文件)

r+：以读写模式打开

w+：以读写模式打开 (参见 w )

a+：以读写模式打开 (参见 a )

rb：以二进制读模式打开

wb：以二进制写模式打开 (参见 w )

ab：以二进制追加模式打开 (参见 a )

rb+：以二进制读写模式打开 (参见 r+ )

wb+：以二进制读写模式打开 (参见 w+ )

ab+：以二进制读写模式打开 (参见 a+ )fp.read([size])

8、LSHForest 进行短文本相似性计算

　　LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn（一）介绍了一些概念

　　用docsim/doc2vec/LSH比较两个文档之间的相似度

　　LSHForest进行文本相似性计算有示例代码和数据

9、TF-IDF提取行业关键词

　　TF-IDF提取行业关键词

10、scikit-learn

　　apache官方文档

11、基于jieba、TfidfVectorizer、LogisticRegression的文档分类

　　基于jieba、TfidfVectorizer、LogisticRegression的文档分类

12、CountVectorizer与TfidfVectorizer

　　CountVectorizer与TfidfVectorizer 参数详解

13、Python将多个list合并为1个list的方法

　　1、可以使用"+"号完成操作 c=a+b
　　2、使用extend方法 a.extend(b)

　　Python将多个list合并为1个list的方法

14、python-判断字符串以什么开头或结尾

　　item.endswith('.mp4')

　　item.startswith('demo')

15、机器学习那些事——文本挖掘中的特征提取

16、无监督的文本分类

　　文章：http://blogspring.cn/view/234

　　源码：https://blog.csdn.net/lhxsir/article/details/83310136

import random

import jieba

import pandas as pd

import numpy as np

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.feature_extraction.text import TfidfVectorizer

import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

from sklearn.cluster import KMeans

import gensim

from gensim.models import Word2Vec

from sklearn.preprocessing import scale

import multiprocessing

#加载停用词

stopwords=pd.read_csv('D://input_py//day07//stopwords.txt',index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')

stopwords=stopwords['stopword'].values

#加载语料

laogong_df = pd.read_csv('D://input_py//day07//beilaogongda.csv', encoding='utf-8', sep=',')

laopo_df = pd.read_csv('D://input_py//day07//beilaogongda.csv', encoding='utf-8', sep=',')

erzi_df = pd.read_csv('D://input_py//day07//beierzida.csv', encoding='utf-8', sep=',')

nver_df = pd.read_csv('D://input_py//day07//beinverda.csv', encoding='utf-8', sep=',')

#删除语料的nan行

laogong_df.dropna(inplace=True)

laopo_df.dropna(inplace=True)

erzi_df.dropna(inplace=True)

nver_df.dropna(inplace=True)

#转换

laogong = laogong_df.segment.values.tolist()

laopo = laopo_df.segment.values.tolist()

erzi = erzi_df.segment.values.tolist()

nver = nver_df.segment.values.tolist()

# 定义分词函数preprocess_text

def preprocess_text(content_lines, sentences):

    for line in content_lines:

        try:

            segs=jieba.lcut(line)

            segs = [v for v in segs if not str(v).isdigit()]#去数字

            segs = list(filter(lambda x:x.strip(), segs))   #去左右空格

            segs = list(filter(lambda x:len(x)>1, segs)) #长度为1的字符

            segs = list(filter(lambda x:x not in stopwords, segs)) #去掉停用词

            sentences.append(" ".join(segs))

        except Exception:

            print(line)

            continue

sentences = []

preprocess_text(laogong, sentences)

preprocess_text(laopo, sentences)

preprocess_text(erzi, sentences)

preprocess_text(nver, sentences)

random.shuffle(sentences)

# 控制台输出前10条数据

for sentence in sentences[:10]:

    print(sentence)

# 将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频

vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5)

# 统计每个词语的tf-idf权值

transformer = TfidfTransformer()

# 第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵

tfidf = transformer.fit_transform(vectorizer.fit_transform(sentences))

# 获取词袋模型中的所有词语

word = vectorizer.get_feature_names()

# 将tf-idf矩阵抽取出来，元素w[i][j]表示j词在i类文本中的tf-idf权重

weight = tfidf.toarray()

# 查看特征大小

print ('Features length: ' + str(len(word)))

# TF-IDF 的中文文本 K-means 聚类

numClass=4  # 聚类分几簇

clf = KMeans(n_clusters=numClass, max_iter=10000, init="k-means++", tol=1e-6)  #这里也可以选择随机初始化init="random"

pca = PCA(n_components=10)  # 降维

TnewData = pca.fit_transform(weight)  # 载入N维

s = clf.fit(TnewData)

# 定义聚类结果可视化函数

def plot_cluster(result,newData,numClass):

    plt.figure(2)

    Lab = [[] for i in range(numClass)]

    index = 0

    for labi in result:

        Lab[labi].append(index)

        index += 1

    color = ['oy', 'ob', 'og', 'cs', 'ms', 'bs', 'ks', 'ys', 'yv', 'mv', 'bv', 'kv', 'gv', 'y^', 'm^', 'b^', 'k^',

             'g^'] * 3

    for i in range(numClass):

        x1 = []

        y1 = []

        for ind1 in newData[Lab[i]]:

            # print ind1

            try:

                y1.append(ind1[1])

                x1.append(ind1[0])

            except:

                pass

        plt.plot(x1, y1, color[i])

    # 绘制初始中心点

    x1 = []

    y1 = []

    for ind1 in clf.cluster_centers_:

        try:

            y1.append(ind1[1])

            x1.append(ind1[0])

        except:

            pass

    plt.plot(x1, y1, "rv") #绘制中心

    plt.show()

# 对数据降维到2维，绘制聚类结果图

# pca = PCA(n_components=2)  # 输出2维

# newData = pca.fit_transform(weight)  # 载入N维

# result = list(clf.predict(TnewData))

# plot_cluster(result,newData,numClass)

# 先用 PCA 进行降维，再使用 TSNE

from sklearn.manifold import TSNE

newData = PCA(n_components=4).fit_transform(weight)  # 载入N维

newData =TSNE(2).fit_transform(newData)

result = list(clf.predict(TnewData))

plot_cluster(result,newData,numClass)

17、使用K-means及TF-IDF算法对中文文本聚类并可视化

18、python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库

19、朴素贝叶斯和 SVM 文本分类

　　SVM（回归分析）:支持向量机（英语：support vector machine，常简称为SVM，又名支持向量网络）

python 学习常见问题笔记的更多相关文章

Python学习基础笔记（全）
换博客了,还是csdn好一些. Python学习基础笔记 1.Python学习-linux下Python3的安装 2.Python学习-数据类型.运算符.条件语句 3.Python学习-循环语句 4. ...
[python学习手册-笔记]001.python前言
001.python前言 ❝ 本系列文章是我个人学习<python学习手册(第五版)>的学习笔记,其中大部分内容为该书的总结和个人理解,小部分内容为相关知识点的扩展. 非商业用途转载请注明 ...
[python学习手册-笔记]002.python核心数据类型
python核心数据类型 ❝ 本系列文章是我个人学习<python学习手册(第五版)>的学习笔记,其中大部分内容为该书的总结和个人理解,小部分内容为相关知识点的扩展. 非商业用途转载请注明 ...
[python学习手册-笔记]003.数值类型
003.数值类型 ❝ 本系列文章是我个人学习<python学习手册(第五版)>的学习笔记,其中大部分内容为该书的总结和个人理解,小部分内容为相关知识点的扩展. 非商业用途转载请注明作者和出 ...
[python学习手册-笔记]004.动态类型
004.动态类型 ❝ 本系列文章是我个人学习<python学习手册(第五版)>的学习笔记,其中大部分内容为该书的总结和个人理解,小部分内容为相关知识点的扩展. 非商业用途转载请注明作者和出 ...
python学习应用笔记（一）
之前一直用c++写程序所以考虑程序一般都比较容易往数据结构的方向想而自己设计数据结构往往要费很大事昨天看了一下python 发现脚本语言真是厉害用来进行模拟运算确实不错可以先 ...
python学习第一次笔记
python第一次学习记录 python是什么编程语言变成语言主要从以下几个角度进行分类,编译型和解释型.静态语言和动态语言.强类型定义语言和弱类型定义语言. 1.1编译型与解释性编译型:一次性将 ...
Python 学习开发笔记之IO操作
文件或者目录的路径操作获取当前工作目录 import os import sys cwd = os.getcwd() 路径的拼接 os.path.join(path,"dir") ...
python学习总结笔记（一）
1.raw_input("请输入:")提示录入信息,读取录入的字符串返回你录入的字符串2.os.environ 获取所有系统的环境变量,返回一个字典.3.str与repr区别str ...

随机推荐

LeetCode 1：两数之和 Two Sum
题目: 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标. 你可以假设每种输入只会对应一个答案.但是,你不能重复利用这个数组中 ...
IT兄弟连 Java语法教程数组多维数组二维数组的初始化
二维数组的初始化与一位数组初始化类似,同样可以使用静态初始化或动态初始化. 1)静态初始化静态初始化的格式如下: 数组名字 = new 数组元素的类型[][]{new 数组元素的类型[]{元素1,元 ...
常用的app包名和类名
应用包名启动类 QQ com.tencent.mobileqq com.tencent.mobileqq.activity.HomeActivity 微信 com.tencent.mm com.t ...
使用suds模块进行封装，处理webservice类型的接口
import json from suds.client import Client class HandleWebservice: ''' 定义一个webservice类型的接口处理类 ''' de ...
GO 函数的参数
一.函数函数的参数 1.1 参数的使用形式参数:定义函数时,用于接收外部传入的数据,叫做形式参数,简称形参. 实际参数:调用函数时,传给形参的实际的数据,叫做实际参数,简称实参. 函数调用: ...
OpenGL入门1.6：坐标系统，3D箱子
每一个小步骤的源码都放在了Github 的内容为插入注释,可以先跳过前言我们已经学习了如何利用矩阵变换来对所有顶点进行变换 OpenGL希望在每次顶点着色器运行后,我们可见的所有顶点都为标准化设备 ...
MySQL（11）---约束
MySQL(11)---约束含义: 一种限制,用于限制表中的数据,为了保证表中的数据的准确和可靠性. 先把Mysql几种约束列出来: 主键约束外键约束唯一性约束非空约束默认值约束自增约束 ...
用Python查找数组中出现奇数次的那个数字
有一个数组,其中的数都是以偶数次的形式出现,只有一个数出现的次数为奇数次,要求找出这个出现次数为奇数次的数. 集合+统计解题思路最简单能想到的,效率不高.利用集合的特性,通过 Python 的 s ...
webpack关于CommonsChunkPlugin在高版本被移除的替代方案问题
1.在指南的缓存章节里webpack.config.js文件中,使用new的方法会报错 const webpack = require('webpack'); + new webpack.optimi ...
JavaScript深入浅出第1课：箭头函数中的this究竟是什么鬼？
<JavaScript 深入浅出>系列: JavaScript 深入浅出第 1 课:箭头函数中的 this 究竟是什么鬼? JavaScript 深入浅出第 2 课:函数是一等公民是什么意 ...

python 学习常见问题笔记

python 学习常见问题笔记的更多相关文章

随机推荐

热门专题