数据挖掘实战 - o2o优惠券使用预测 一.前言 大家好,家人们.今天是2021/12/14号.上次更新是2021/08/29.上篇文章中说到要开两个专题,果不其然我鸽了,这一鸽就是三个多月.今天,我不鸽(还要鸽).那两个专题关于ResNet和GoogLeNet的文章还等缓缓一缓(一月份一定发),今天这篇文章是关于数据挖掘实战入门的例子,题目及数据集来源于 天池新人实战赛o2o优惠券使用预测,题目地址:https://tianchi.aliyun.com/competition/entrance…
第一次参加天池新人赛,主要目的还是想考察下自己对机器学习上的成果,以及系统化的实现一下所学的东西.看看自己的掌握度如何,能否顺利的完成一个分析工作.为之后的学习奠定基础. 这次成绩并不好,只是把整个机器学习的流程熟悉了下.我本人总结如下: 步骤一:读懂题目含义,分析赛题的数据 步骤二:特征工程的设计,这部分非常重要,好的特征工程能大大提高模型的准确率 步骤三:训练算法.区分训练集.测试集等. 步骤四:测试模型,看效果如何. 赛题可以去天池的官网查看,里面有赛题说明,赛题数据等等 https://…
第一次参加数据预测竞赛,发现还是挺有意思的.本文中的部分内容参考第一名“诗人都藏在水底”的解决方案. 从数据划分.特征提取.模型设计.模型融合/优化,整个业务流程得到了训练.作为新手在数据划分和模型训练以及模型融合上做的不够好(都是套路). 首先,数据划分方式最自然的按照月份->后面的月份这种自然顺序(滑窗)即可,在整个数据集上做特征提取实在是不能发挥出 特征的优势,因为数据量本身挺大,太多的脏数据,会导致训练出的模型不准确. 看来这个竞赛并没有涉及到太多的数据清洗处理等工作. 用户特征.商户特…
前沿: 这是天池的一个新人实战塞题目,原址 https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.e1321db7ydQmSB&raceId=231593 ,下文会分析以下几个过程. 1.数据预处理 2.特征的选取 3.算法的说明 4.结果分析 5.其他 第一部分:数据预处理 原始数据可以从上边链接中下载,拿到.csv文件,可以使用pandas处理. 比如: dfoff = pd.read_csv('…
赛事链接:https://tianchi.aliyun.com/competition/entrance/231593/introduction?spm=5176.12281925.0.0.7e157137DpLQO6 代码下载:https://github.com/luxuantao/alibaba_tianchi_book 请自己阅读赛题描述和下载代码 1.数据探索 1.1数据说明 本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取…
天池新闻推荐比赛1:赛题理解+baseline 一.比赛信息 比赛链接: ​ https://tianchi.aliyun.com/competition/entrance/531842/information 比赛简介: ​ 赛题以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示.为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户…
最近蒜头君喜欢上了U型数字,所谓U型数字,就是这个数字的每一位先严格单调递减,后严格单调递增.比如 212212 就是一个U型数字,但是 333333, 9898, 567567, 3131331313,就是不是U型数字. 现在蒜头君问你,[1,100000][1,100000] 有多少U型数字? 提示:请不要输出多余的符号. import java.util.Scanner; public class Main1{ public static String mp[] = new String[…
转载请注明出处: http://www.cnblogs.com/fraud/          ——by fraud 下午在HDU上打了一下今年北京区域赛的重现,过了5题,看来单挑只能拿拿铜牌,呜呜. 先将这五题的题解放上来,剩余题目等搞出来再补上 A题 A Curious Matt Time Limit: 2000/2000 MS (Java/Others)    Memory Limit: 512000/512000 K (Java/Others) Problem Description T…
题目链接  校赛签到 对每个操作之间建立关系. 比较正常的是前$3$种操作,若第$i$个操作属于前$3$种,那么就从操作$i-1$向$i$连一条有向边. 比较特殊的是第$4$种操作,若第$i$个操作属于第$4$种这个时候我们需要从操作$k$向操作$i$连一条有向边. 那么一共有$q+1$个结点,$q$条边,很明显是一个树的结构.$0$号点为根结点. 那么从根结点出发,依次操作就可以了~,遇到操作$3$则打标记 我太懒  用bitset + fread挂过去了. 时间复杂度$O(\frac{mq}…
前几天liu_runda来机房颓废,顺便扔给我们一个网址,说这上面有模拟赛,让我们感兴趣的去打一打.一开始还是没打算去看一下的,但是听std说好多人都打,想了一下,还是打一打吧,打着玩,然后就丢脸了. 一开始注册了一个Hzoi_joker的号,后来反应过来貌似靠挂了挺丢Hzoi的人的,赶紧又注册了一个joker…… 于是乎一批人开始快乐的颓废,直到教练员都看不下去威胁我们要断网才安安静静的答题.由于Hz奇怪的作息时间,我们平均也就打了2个小时多一点的题,连结果都是第二天早上跑完操看的.果然,炸了…