# python 使用set对列表去重,并保持列表原来顺序 list1 = ['cc', 'bbbb', 'afa', 'sss', 'bbbb', 'cc', 'shafa'] for item in list1: print('word: %6s index: %2s' % (item, list1.index(item))) print('==========================') list2 = list(set(list1)) list2.sort(key=list1.i…
前言 在看一个聊天机器人的神经网络模型训练前准备训练数据,需要对训练材料做处理(转化成张量)需要先提炼词干,然后对词干做去重和排序 words = sorted(list(set(words))) 对这三个方法做一下整理: 1.set() 语法:set([iterable]) 参数:可迭代对象(可选),a sequence (string, tuple, etc.) or collection (list, set, dictionary, etc.) or an iterator object…
导入依赖 '''导入依赖''' from pathlib import Path import filecmp 函数说明 ''' filecmp.cmp(path1, path2, shallow=True) path1/path2:待比较的两个文件路径. shallow :默认为True,即只比较os.stat()获取的元数据(创建时间,大小等信息)是否相同, 设置为False的话,在对比文件的时候还要比较文件内容. ''' 提取待去重文件路径 # 初始化文件路径列表 path_files_l…
题目: 列表去掉重复元素,并保持原来的排序 方法一: # 待处理的列表 L1 = [111,44,55,33,22,11] # 利用集合set的属性,去重 s1 = set(L1) # 把集合转化为列表 L2 = list(s1) # 按照 L1中的index进行排序 L2.sort(key = L1.index) # 得到去重并且维持排序的列表 print(L2) 方法二: # 待处理的列表 L1 = [111,44,55,33,22,11] # 定义一个空列表 L2 = [] # 通过遍历L…
2.用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数,并解答以下问题?(标点符号可忽略) (1) 创建文件对象f后,解释f的readlines和xreadlines方法的区别? (2) 追加需求:引号内元素需要算作一个单词,如何实现? cat /root/text.txt hello world 2018 xiaowei,good luckhello kitty 2017 wangleai,ha hehello kitty ,hasd hehe…
二维数组的去重,能和一维的方法类似吗?import numpyc=np.array(((1,2),(3,4),(5,6),(7,8),(7,8),(3,4),(1,2)))print('二维数组:\n',c)print('去重后:',np.unique(c))然而并不能达到预期,好伤心....原因:unique()只是将二位数据转化为一维,然后再去重 下面来点干货!#方案1:转化为虚数x=c[:,0]+c[:,1]*1jprint('转化为虚数:',x)print('虚数去重后:',np.uni…
# -*- coding: utf-8 -*- import redisfrom constant import redis_ip, redis_db, redis_pw, logger, redis_zset_clean_date, redis_zset_name, \ move_file_lm pool = redis.ConnectionPool(host=redis_ip, db=redis_db, password=redis_pw)# pool = redis.ConnectionP…
from fuzzywuzzy import fuzz, process a = {'嫦娥四号探测器是用哪个型号的火箭发射的?': ['长征3B'], '嫦娥四号探测器是在我国[]发射成功的.': ['西昌发射基地']} b = {'嫦娥四号探测器是在我国[ ]发射成功的.': ['B.西昌发射基地'], '嫦娥四号探测器是用[ ]火箭发射的.': ['B.长征3B']} res = {**a, **b} c = dict(**res) n = 0 print(c) print(len(res)…
testlist = ['cc', 'bbbb', 'afa', 'sss', 'bbbb', 'cc', 'shafa'] set2list = list(set(testlist)) print set2list set2list.sort(key = testlist.index) print set2list 运行结果: ['cc', 'shafa', 'bbbb', 'afa', 'sss'] ['cc', 'bbbb', 'afa', 'sss', 'shafa']…
list_one=re.findall(r"^\s{0}[A-Za-z]*\b", txt,re.M) #匹配一级目录 addr_to = list(set(list_one))addr_to.sort(key=list_one.index) #从列表中找出某个值第一个匹配项的索引位置,并实现按目录的顺序排序…