pandas 数据处理一些常用操作

读取csv文件，打印列名称：

import pandas as pd

# data = pd.read_csv("guba_fc_result_20230413.csv")

data = pd.read_csv("guba_all_newtext_20230413.csv")

data.columns

保存文件：

data.to_csv("guba_all_cutwords_20230413.csv",index=False)

统计：

data['ticker_name'].value_counts()

字符串长度过滤：

filtered_df = data[data['matches'] != '[]']

long_text = filtered_df[filtered_df['text'].str.len() > 100]

画字符串长度直方图：

import numpy as np

from matplotlib import pyplot as plt

len_text = [len(text) for text in filtered_df['text']]

#len_text = [len(text) for text in data['content']]

#len_text = [len(text) for text in data['rateContent']]

plt.figure(figsize=(20,8),dpi=80)

plt.hist(len_text,bins=20)

plt.show()

按字符串名称过滤：

v_data = data[data['ticker_name'].isin(['迈瑞医疗'])]

v_data = v_data[v_data['post_date'].isin(['2023-03-01'])]

去除nan值：

data.dropna(inplace=True)

合并同名称的数据：

#所有的相同股票的数据合并在一起

# 根据ticker_name列对数据进行分组，并将每个分组的seg数据合并在一起

data = data.groupby('ticker_name')['seg'].apply(lambda x: ' '.join(x)).reset_index()

data

按字符串长度过滤数据：

# 计算seg列中词个数

data['word_count'] = data['seg'].str.split().apply(len)

# 保留词个数超过200的行

data = data[data['word_count'] > 200]

# 移除word_count列

data = data.drop('word_count', axis=1)

data

统计分词词数：

word_counts = data.groupby('ticker_name')['seg'].apply(lambda x: sum(len(text.split()) for text in x)).reset_index()

# 输出结果

print(word_counts)

对分词结果分组，保存新的行：

import math

def split_seg(seg, chunk_size):

    chunks = []

    words = seg.split()

    num_chunks = math.ceil(len(words) / chunk_size)

#     print("num_chunks:",num_chunks)

    for i in range(num_chunks):

        start = i * chunk_size

        end = start + chunk_size

        chunk = ' '.join(words[start:end])

        chunks.append(chunk)

    return chunks

# 分割seg列

new_rows = []

for _, row in data.iterrows():

    ticker_name = row['ticker_name']

    seg = row['seg']

    num_words = len(seg.split())

    if num_words > 1000:

        chunked_segs = split_seg(seg, 3000)

        for i, chunk in enumerate(chunked_segs):

            new_ticker_name = ticker_name + '_' + str(i)

            new_rows.append({'ticker_name': new_ticker_name, 'seg': chunk})

    else:

        new_rows.append({'ticker_name': ticker_name, 'seg': seg})

# 创建新的DataFrame

new_data = pd.DataFrame(new_rows)

new_data

对分组分词使用tfidf算法：

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer

# 定义tokenizer函数

def tokenizer(text):

    return text.split()

# 计算tf-idf值

tfidf = TfidfVectorizer(tokenizer=tokenizer, stop_words='english')

tfidf_matrix = tfidf.fit_transform(new_data['seg'])

# 获取特征名列表

feature_names = tfidf.get_feature_names()

# 遍历每篇文章

for _, group in new_data.groupby('ticker_name'):

    # 获取tf-idf矩阵

    tfidf_scores = tfidf_matrix[group.index, :]

    # 计算每个词的tf-idf值

    word_scores = list(zip(feature_names, tfidf_scores.sum(axis=0).tolist()[0]))

    # 按tf-idf值从大到小排序

    word_scores = sorted(word_scores, key=lambda x: x[1], reverse=True)

    # 打印文章中tf-idf值最高的前10个词

    print(group['ticker_name'].iloc[0])

    for word, score in word_scores[:10]:

        print(word, score)

    print()

pandas 数据处理一些常用操作的更多相关文章

pandas数据分析API常用操作
1.导入数据 df = pd.read_csv( # 该参数为数据在电脑中的路径,可以不填写 filepath_or_buffer='/Users/Weidu/Desktop/sz000002.csv ...
Pandas 之 DataFrame 常用操作
import numpy as np import pandas as pd This section will walk you(引导你) through the fundamental(基本的) ...
Pandas | Dataframe的merge操作，像数据库一样尽情join
今天是pandas数据处理第8篇文章,我们一起来聊聊dataframe的合并. 常见的数据合并操作主要有两种,第一种是我们新生成了新的特征,想要把它和旧的特征合并在一起.第二种是我们新获取了一份数据集 ...
（数据科学学习手札131）pandas中的常用字符串处理方法总结
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在日常开展数据分析的过程中,我们经常需要对 ...
ArcGIS中的坐标系：基本概念和常用操作（一）
本文呢是主要是借鉴李郎平李大大的博士论文和百度百科,里面还有一点点我自己的理解,希望能帮助自己加深对于坐标系的认识. 李大大的博客:http://blog.sciencenet.cn/u/Brume ...
pandas_时间序列和常用操作
# 时间序列和常用操作 import pandas as pd # 每隔五天--5D pd.date_range(start = '',end = '',freq = '5D') ''' Dateti ...
pandas_一维数组与常用操作
# 一维数组与常用操作 import pandas as pd # 设置输出结果列对齐 pd.set_option('display.unicode.ambiguous_as_wide',True) ...
Stream常用操作以及原理探索
Stream常用操作以及原理 Stream是什么? Stream是一个高级迭代器,它不是数据结构,不能存储数据.它可以用来实现内部迭代,内部迭代相比平常的外部迭代,它可以实现并行求值(高效,外部迭代要 ...
【三】用Markdown写blog的常用操作
本系列有五篇:分别是 [一]Ubuntu14.04+Jekyll+Github Pages搭建静态博客:主要是安装方面 [二]jekyll 的使用 :主要是jekyll的配置 [三]Markdown+ ...
php模拟数据库常用操作效果
test.php <?php header("Content-type:text/html;charset='utf8'"); error_reporting(E_ALL); ...

随机推荐

java并发编程实践-线程安全性
线程是CPU资源调度的基本单位,如果一个程序中只有一个线程,则最多只能在一个处理器上运行,如果电脑/服务器是双处理器系统,则单线程的程序只能使用一半的CPU资源,所以,多线程是提高处理器资源利用率的重 ...
jmeter设置中文
jmeter.properties #language=enlanguage=zh_CN
NodeJs 版本管理
nvm-windows 说明:nvm是Nodejs的版本管理器.在开发中项目可能需要低版本或者高版本的Nodejs运行环境,以此我们可以使用nvm来切换Nodejs的版本. 在安装NVM for Wi ...
Codeforces Round #857 Div.1/Div.2 CF1801/1802 2A~2F 题解
点我看题(Div2) Div 2A. Likes 如果要赞最多,肯定是先放所有的点赞,再放所有移除的操作.如果要最少,那就先把赞分成两种:最后被移除的和没被移除的:最后先放所有被移除的,放一个移除一个 ...
Java-01enum常量特定方法
OnJava8-Enum-常量特定方法用枚举实现责任链模式责任链(Chain Of Responsibility)设计模式先创建了一批用于解决目标问题的不同方法,然后将它们连成一条"链& ...
NGINX配置SSL支持
前言在文章-腾讯云申请免费SSL证书中, 我们已经申请好了SSL证书. 那么现在, 我们就要配置全站SSL了! 这次的工作主要是NGINX的配置, 同时会有一些我的博客本身的配置. 博客本身配置更改 ...
【读书笔记】组合计数-Tilings-正文学一半的笔记
Tilings-正文部分目录 9.2 转移函数方法例子补充 9.3 其余的方法 9.3.1 the path method 9.3.2 The permanent-determinant and ...
实现hypothesis在网页标注后同步到本地obsidian
实现hypothesis在网页标注后同步到本地obsidian 遇到的question 2023.3.21日在更改了自己的模板之后,可以能按照Todo的方式展现所有的标记,但是发现在同一个网页上增加 ...
系统评价——理想点TOPSIS法的R语言实现（五）
TOPSIS 法是一种常用的综合评价方法,能充分利用原始数据的信息,其结果能精确地反映各评价方案之间的差距.TOPSIS全称Technique for Order Preference by Simi ...
it必给装机小软件附源码
需要的包启动之后是这个样子的远吗如下: #authon fengimport zipfile as zfimport osimport win32apiimport win32conimport ...

pandas 数据处理 一些常用操作

pandas 数据处理 一些常用操作的更多相关文章

随机推荐

热门专题

pandas 数据处理一些常用操作

pandas 数据处理一些常用操作的更多相关文章