教练！我不想遍历了！——用bool运算有效减少dataframe的时间复杂度

方法参考：python - 降低python for循环的时间复杂度 - 堆栈内存溢出 (stackoom.com)

朋友们，朋友们，事情是这样的。

这几天博主在处理数据的时候遇到了这样的标注数据：

	文章编号	内容	是否是摘要
1	A1	我	0
2	A1	是xx	1
....	......	.......	.......
100000	A1044	啊哈	0

如上面这个表格所示，我们这里共计有100000条数据，我需要根据文章编号提取出每篇文章的内容，并且根据每篇文章的摘要标记(0为非摘要，1为是摘要)，将摘要从数据中提取出来。每篇文章都有一篇对应的摘要。

于是，我原来的想法是这样的：

1.已知这批数据中共有1044篇文章，那么我上来就是一个for循环，将所有文章编号为A1至A1044的文章挑选出来。

2.然后结合后面的摘要label，分割出每篇文章的内容与摘要。

这样看来是个很简单的任务，好，那么我们只需要进行 1044*100000 ≈ 一亿次循环就可以得到结果了，是不是很简单？

我真是￥#￥%#￥%#￥%*&（*&（&**&%* （广东粗口）

那么，为了不那么麻烦，我决定使用bool运算减少时间复杂度：

我们要做的事情其实很简单，首先先选择两个条件：

    m1 = data['doc_id']+data['para_class'] == id_list[i]

    m2 = data['abstract_type']==1

第一个条件是检查内容是否属于同一篇文章。

而第二个条件是检查这一内容token是否是摘要。

m1与m2是这一dataframe中每个元素对应于该条件的bool值索引。

那么如何使用这两个条件呢？也很简单：

contents = data['content'][m1].values

abstracts = data['content'][(m1 & m2)].values

通过上面两行代码，我们就找到了dataframe中符合条件的值，并存入到了两个不同的列表中。

通过测试，计算的时间复杂度对比原来弱智又粗暴的for循环降低了不止一点。

下面贴上原代码与新代码的对比：

原代码：

import pandas as pd

data = pd.read_excel(r'C:\Users\1.xlsx')

print(data.head())

id_list = []   #初始化文章id列表

content_list = []  #初始化文章内容列表

abstract_list = []  #初始化摘要内容列表

'''

接下来的思路是这样的：

先从总的数据中提取出一个id列表；

id列表相同的，归到文章内容中

id列表相同，且摘要标记为1的，划到摘要内容中

'''

#首先构造id列表

for i in range(len(data)):

    if data['doc_id'][i]+data['para_class'][i] not in id_list:

        id_list.append(data['doc_id'][i]+data['para_class'][i])

for i in range(len(id_list)):

    #对id列表中的每一个id,我们都去对它构造文章内容，以及摘要内容，大工程，嗯

    contents=''

    abstracts=''

    for j in range(len(data)):

        if data['doc_id'][j] == id_list[i]:

            try:

                contents += data['content'][j]

            except:

                pass

            if data['abstract_type'][j] == 1:

                try:

                    abstracts += data['content'][j]

                except:

                    pass

    content_list.append(contents)

    abstract_list.append(abstracts)

df = pd.DataFrame({'abstract':abstract_list, 'content':content_list})

df.to_excel('Abstract_to_Article.xlsx', index=False)

改进后的代码：

import pandas as pd

data = pd.read_excel(r'C:\Users\c1.xlsx')

print(data.head())

id_list = []   #初始化文章id列表

content_list = []  #初始化文章内容列表

abstract_list = []  #初始化摘要内容列表

'''

接下来的思路是这样的：

先从总的数据中提取出一个id列表；

id列表相同的，归到文章内容中

id列表相同，且摘要标记为1的，划到摘要内容中

'''

#首先构造id列表

for i in range(len(data)):

    if data['doc_id'][i]+data['para_class'][i] not in id_list:

        id_list.append(data['doc_id'][i]+data['para_class'][i])

for i in range(len(id_list)):

    #对id列表中的每一个id,我们都去对它构造文章内容，以及摘要内容，大工程，嗯

    contents=''

    abstracts=''

    for j in range(len(data)):

        if data['doc_id'][j]+data['para_class'][j] == id_list[i]:

            try:

                contents += data['content'][j]

            except:

                pass

            if data['abstract_type'][j] == 1:

                try:

                    abstracts += data['content'][j]

                except:

                    pass

    content_list.append(contents)

    abstract_list.append(abstracts)

教练！我不想遍历了！——用bool运算有效减少dataframe的时间复杂度的更多相关文章

迭代器遍历列表构造方法 constructor ArrayList Vector LinkedList Array List 时间复杂度
package priceton; import java.io.IOException; import java.util.concurrent.CyclicBarrier; import java ...
BOOL运算符号（从C#入门经典第五版中摘录）
只总结自己觉得难的哈: (1) var1=!var2; //(非) (2) var1=var2&var3; //(与) (3)var1=var2|var3; //(或) (4 ...
Windows编程之模块遍历(C++实现)
Windows编程之模块遍历 PS: 主要扣代码使用,直接滑动到最下面使用. 遍历模块需要几个API,和一个结构体 1.创建进程快照 2.遍历首次模块 3.继续下次遍历 4.模块信息结构体 API 分 ...
二进制与十进制的转化,bool str int 之间的转化,str的常用操作,
1.基础数据类型总览(7种) int: 整型,用于进行+-*/运算 str: 存储少量的数据;可加str,可乘数字,可切片,可进行9种常用操作 bool: True False 判断真假 list: ...
Elasticsearch查询——布尔查询Bool Query
Elasticsearch在2.x版本的时候把filter查询给摘掉了,因此在query dsl里面已经找不到filter query了.其实es并没有完全抛弃filter query,而是它的设计与 ...
iOS开发之遍历Model类的属性并完善使用Runtime给Model类赋值
在上篇博客<iOS开发之使用Runtime给Model类赋值>中介绍了如何使用运行时在实体类的基类中添加给实体类的属性赋值的方法,这个方法的前提是字典的Key必须和实体类的Property ...
map的四种遍历方式
map是Java中非常常用的一种数据结构,但map不同于set和list都继承自Collection接口. 所以map没有实现Collection的Iterator 方法,自身没有迭代器来遍历元素. ...
C# 遍历类的属性并取出值
最近悟出来一个道理,在这儿分享给大家:学历代表你的过去,能力代表你的现在,学习代表你的将来. 十年河东十年河西,莫欺少年穷学无止境,精益求精今天有点胡思乱想,想遍历MVC Model的属性并 ...
(转)LitJson 遍历key
本文转载自:http://blog.csdn.net/inlet511/article/details/47127579 用LitJson插件获取到的对象,如果想遍历对象中包含的子对象的key,可以用 ...
Cocos2dx3.0过渡篇各种遍历与范围for语句的使用【转】
1.CCArray的遍历看到这里,有些人又按耐不住的要举起西瓜刀了:你不是说3.0beta后已经没有CCArray这货了吗?现在又拿出来作甚?其实我也很无辜,CCArray确实是没了,但在某个不为人知 ...

随机推荐

Pytorch GPU加速
import torch import torch.nn.functional as F import torch import torch.nn as nn import torch.nn.func ...
读取nrf52832的ADC，并且获取N个数组中的中间值
//****读取中间值****// short GetMedianNum(short * bArray, short iFilterLen) { short i,j,bTemp;// 排序循环 for ...
c语言动态数组
动态数组根据用户的需要开创空间避免造成空间的浪费 #include<stdio.h> #include<stdlib.h> typedef struct { int *par ...
批量IP 查询脚本
脚本简单,找到一个免费的IP 查询接口不容易 #-*-coding:utf-8-*- import requests import csv import re header = { 'User-Age ...
简单的python格网算法算数据密集度demo
# 格网算法计算数据集区域数据密集度 import time import random import numpy as np import pandas as pd # 模拟数据集 def crea ...
axios的cancelToken
参考的博客地址核心代码 import axios from 'axios' // Base64可自行安装依赖或实现 import Base64 from './Base64' class Pendi ...
2021.01.08 oss is not defined
背景: 视频点播使用阿里云的oss(Object storage services),然后总是报错oss is not defined, 在网上搜索了一些文章,基本上都是一模一样的,我也就不吐槽啦(这 ...
ios装包
一.下载爱思助手二.找到本机设备注:如果未弹出允许.拒绝调试选项可尝试换根数据线解决三.将对应包体文件拖入本机设备
Springboot jar 打包脚本和启动脚本
说明: SpringBoot极大的提高了工作效率,集成了各大厂优秀的组件,好处就不多说了,使用配置也非常方便,本文主要讲解如何使用更方便的方式打包发布,利用SpringBoot的新特性内置tomcat ...
Oracle-登录的用户名和密码大小写敏感
Oracle-登录的用户名和密码大小写敏感

教练！我不想遍历了！——用bool运算有效减少dataframe的时间复杂度

教练！我不想遍历了！——用bool运算有效减少dataframe的时间复杂度的更多相关文章

随机推荐

热门专题