目录 1. 背景描述 2. 问题描述 3. 解决方案 1. 背景描述 目前在做音乐推荐项目,前期做排序模型优化,任务是使用模型对用户的历史音乐进行排序,有6800多万个用户,约40G的用户数据,使用HBase作为数据仓库. 利用HBase可以存储多个版本数据的特性,数据运算完后入库时,将用户id作为rowkey,songInfo:songid的值为歌曲id,使用自定义时间戳,将排序模型输出的歌曲得分(分值越高)作为时间戳.因为HBase数据存储默按照时间戳降序存储,这样只要取出用户的songIn…
Sub fun1() '统计每一个sheet有多少行数据 Set s1 = Sheets("Sheet1") 'totalok = 0 To Sheets.Count s1.Cells(i, ) = Sheets(i).Name r = Sheets(i).Range("A65535").End(xlUp).Row s1.Cells(i, ) = r Then totalok = totalok + r End If Next s1.Cells(, ) = tota…
修改数据库配置文件:vim /etc/my.cnf [client] user=username password=password 使用shell脚本统计表中的行数据:count.sh #!/bin/bash dbname=test ip=192.168.1.100 for i in `mysql -h$ip -e "show tables from $dbname;" | egrep -v "\||Tables_in_$dbname"` do sleep 1 c…
在数据处理过程中,大量的非预期格式结构需要作转换,有大家熟知的多维转一维(准确来说应该是交叉表结构的数据转二维表标准数据表结构),也同样有一些需要透视操作的数据源,此篇同样提供更便捷的方法实现此类数据的转换. 功能起源场景 在Excel催化剂的持续性功能和文章输出的过程中,相信不少读者会觉得功能又多又杂,没有很好的系统性. 这个现状的确是存在,Excel催化剂的系统功能,并且凭空产生,而是大量地在实际的工作过程中所带出来的需求(开始开发插件后只能在开发过程中,在一些功能开发好之后,也带出了其他的…
当表格记录比较多时,常常会有重复数据,而重复记录往往只希望保存一条,因此需要把多余的删除:在 Excel 中,删除重复数据有两种方法,一种是用"删除重复数据"删除,另一种是用"高级筛选"删除:其中前者删除重复数据后会在表格末尾留下空行,而后者不会.如果只想查看重复数据而不必删除,可以给重复数据标记颜色突出显示,这样会一目了然.另外,还可以用公式统计每条重复数据有几条或筛选出重复数据.以下是Excel删除重复数据及用公式筛选重复项并标记颜色的具体操作方法,操作中所用版…
  -- ---------------------------- -- Table structure for `TabName` -- ---------------------------- DROP TABLE IF EXISTS `TabName`; CREATE TABLE `TabName` (   `Id` int(11) NOT NULL AUTO_INCREMENT,   `Name` varchar(20) DEFAULT NULL,   `Date` date DEFAU…
1. 同列多行数据组合成一个字段cell的方法, top N 问题的hive方案 如下: hive 列转行 to json与to array list set等复杂结构,hive topN的提取的窗口统计方法 select ll, collect_list(n) , -- 将topN 转换成 List or Json with the help of collect_set(xx) collect_list(xx) collect_list(nn), collect_list(ll), coll…
1. Gitee 地址 https://gitee.com/fyxiaobai/wordcount 2. PSP表格 PSP2.1 PSP阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 30 25 · Estimate · 估计这个任务需要多少时间 30 25 Development 开发 700 1000 · Analysis · 需求分析 (包括学习新技术) 100 120 · Design Spec · 生成设计文档 60 80 · Design Review · 设…
为什么要写这样一个函数 在使用SoftConsole开发M3程序时,生成的hex文件,必须要把第一行数据删除,才能在Libero中使用,所以写了这个小工具,这是2.0版本了,第一版是直接删除第一行数据,有可能会导致误操作. 实现原理 主要使用到了bat批处理命令和文件IO操作. 创建bat批处理文件,内容为dir *.hex /b>hex_file_name.txt 运行bat命令,这个命令能将当前目录下的hex文件的名称如filename.hex存入到txt文件中 打开存有hex文件名的txt…
Expression构建DataTable to Entity 映射委托   1 namespace Echofool.Utility.Common { 2 using System; 3 using System.Collections.Generic; 4 using System.Data; 5 using System.Linq.Expressions; 6 using System.Reflection; 7 using System.Reflection.Emit; 8 9 publ…