Event Recommendation Engine Challenge分步解析第七步

一、请知晓

　本文是基于：

　　Event Recommendation Engine Challenge分步解析第一步

　　Event Recommendation Engine Challenge分步解析第二步

　　Event Recommendation Engine Challenge分步解析第三步

　　Event Recommendation Engine Challenge分步解析第四步

　　Event Recommendation Engine Challenge分步解析第五步

　　Event Recommendation Engine Challenge分步解析第六步

　需要读者先阅读前六篇文章解析

二、模型构建和预测

　实际上在上述特征构造好了之后，我们有很多的办法去训练得到模型和完成预测，这里用了sklearn中的SGDClassifier 事实上xgboost有更好的效果（显然我们的特征大多是密集型的浮点数，很适合GBDT这样的模型）

　注意交叉验证，我们这里用了10折的交叉验证

import pandas as pd

import numpy as np

from sklearn.linear_model import SGDClassifier

from sklearn.model_selection import KFold

import warnings

warnings.filterwarnings('ignore')

def train():

    """

    在我们得到的特征上训练分类器，target为1（感兴趣），或者是0（不感兴趣）

    """

    trainDf = pd.read_csv('data_train.csv')

    X = np.matrix( pd.DataFrame(trainDf, index=None, columns=['invited', 'user_reco', 'evt_p_reco',

                    'evt_c_reco','user_pop', 'frnd_infl', 'evt_pop']) )

    y = np.array(trainDf.interested)

    clf = SGDClassifier(loss='log', penalty='l2')

    clf.fit(X, y)

    return clf

def validate():

    """

    10折的交叉验证，并输出交叉验证的平均准确率

    """

    trainDf = pd.read_csv('data_train.csv')

    X = np.matrix(pd.DataFrame(trainDf, index=None, columns=['invited', 'user_reco', 'evt_p_reco',

                    'evt_c_reco','user_pop', 'frnd_infl', 'evt_pop']) )

    y = np.array(trainDf.interested)

    nrows = len(trainDf)

    kfold = KFold(n_splits=10,shuffle=False)

    avgAccuracy = 0

    run = 0

    for train, test in kfold.split(X, y):

        Xtrain, Xtest, ytrain, ytest = X[train], X[test], y[train], y[test]

        clf = SGDClassifier(loss='log', penalty='l2')

        clf.fit(Xtrain, ytrain)

        accuracy = 0

        ntest = len(ytest)

        for i in range(0, ntest):

            yt = clf.predict(Xtest[i, :])

            if yt == ytest[i]:

                accuracy += 1

        accuracy = accuracy / ntest

        print('accuracy(run %d) : %f' % (run, accuracy) )

def test(clf):

    """

    读取test数据，用分类器完成预测

    """

    origTestDf = pd.read_csv("test.csv")

    users = origTestDf.user

    events = origTestDf.event

    testDf = pd.read_csv("data_test.csv")

    fout = open("result.csv", 'w')

    fout.write(",".join(["user", "event", "outcome", "dist"]) + "\n")

    nrows = len(testDf)

    Xp = np.matrix(testDf)

    yp = np.zeros((nrows, 2))

    for i in range(0, nrows):

        xp = Xp[i, :]

        yp[i, 0] = clf.predict(xp)

        yp[i, 1] = clf.decision_function(xp)

        fout.write(",".join( map( lambda x: str(x), [users[i], events[i], yp[i, 0], yp[i, 1]] ) ) + "\n")

    fout.close()

clf = train()

validate()

test(clf)

print('done')

三、感谢

　本文参考请点击，感谢作者的分享，但是觉得里面有些小问题

Event Recommendation Engine Challenge分步解析第七步的更多相关文章

Event Recommendation Engine Challenge分步解析第六步
一.请知晓本文是基于: Event Recommendation Engine Challenge分步解析第一步 Event Recommendation Engine Challenge分步解析第 ...
Event Recommendation Engine Challenge分步解析第五步
一.请知晓本文是基于: Event Recommendation Engine Challenge分步解析第一步 Event Recommendation Engine Challenge分步解析第 ...
Event Recommendation Engine Challenge分步解析第四步
一.请知晓本文是基于: Event Recommendation Engine Challenge分步解析第一步 Event Recommendation Engine Challenge分步解析第 ...
Event Recommendation Engine Challenge分步解析第三步
一.请知晓本文是基于: Event Recommendation Engine Challenge分步解析第一步 Event Recommendation Engine Challenge分步解析第 ...
Event Recommendation Engine Challenge分步解析第二步
一.请知晓本文是基于Event Recommendation Engine Challenge分步解析第一步,需要读者先阅读上篇文章解析二.用户相似度计算第二步:计算用户相似度信息由于用到:u ...
Event Recommendation Engine Challenge分步解析第一步
一.简介此项目来自kaggle:https://www.kaggle.com/c/event-recommendation-engine-challenge/ 数据集的下载需要账号,并且需要手机验证 ...
Netty 源码解析（七）: NioEventLoop 工作流程
原创申明:本文由公众号[猿灯塔]原创,转载请说明出处标注今天是猿灯塔“365篇原创计划”第七篇. 接下来的时间灯塔君持续更新Netty系列一共九篇 Netty 源码解析(一): 开始 Netty 源 ...
(转) Quick Guide to Build a Recommendation Engine in Python
本文转自:http://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/ Int ...
卷积神经网络 cnnff.m程序中的前向传播算法数据分步解析
最近在学习卷积神经网络,哎,真的是一头雾水!最后决定从阅读CNN程序下手! 程序来源于GitHub的DeepLearnToolbox 由于确实缺乏理论基础,所以,先从程序的数据流入手,虽然对高手来讲, ...

随机推荐

codeforces/gym/101291/B
题意:给你n个杠铃的杆子,在给你m个杠铃片,问你能组成多少个重量不同的完整杠铃(杠铃杆子也算一个完整的的杠铃) 解题思路:dfs直接搜,数据很小,每个杠铃片有三种状态(放杆子左边,放杆子右边,两边都不 ...
训练赛-Move Between Numbers
题意:给你n个数,每个数有20个数字,每两个数字之间如果相等的数字数量为17个(一定是17),就能从一个数字到达另一个数字,给你两个数字编号,求从第一个数字编号到第二个数字编号之间最少需要走几次: 解 ...
高仿Readhub小程序微信小程序项目【原】
# News #### 项目介绍微信小程序项目涉及功能 https://gitee.com/richard1015/News https://github.com/richard1015/News 高 ...
webpack 打包编译-webkit-box-orient: vertical 后消失
/* autoprefixer: off */ -webkit-box-orient: vertical; // 参考 https://github.com/postcss/autoprefixer/ ...
python 脚本之获取远程主机的hostname
import sys, socket try: result = socket.gethostbyaddr("查询的IP") #查询完后获得一个元组 print (result) ...
DRF 权限和频率
Django Rest Framework 权限组件 DRF的权限权限组件源码解析我们之前说过了DRF的版本和认证~也知道了权限和频率跟版本认证都是在initial方法里初始化的~~ 其实我们版本 ...
Cetos 中添加bbr服务
说明:此方法只适用于KVM架构的,OpenVZ平台无法使用: 一:安装bbr服务: # wget --no-check-certificate https://github.com/teddysun/ ...
python爬取豆瓣前25个影片内容的正则表达式练习
通过python正则表达式获取豆瓣top250的第一页的25个影片排名,影片名字,影片连接,导演,主演,上映日期,国家,剧情,评分,评价人数的内容网页html内容: <ol class=&qu ...
VIM 光标移动常用命令
h或^h 向左移一个字符 k或^p 向上移一行 j或^j或^n 向下移一行 l或空格向右移一个字符 G 移到文件的最后一行 nG 移到文件的第n行 w 移到下一个字的开头 W 移到下一个字 ...
Educational Codeforces Round 54 [Rated for Div. 2] （CF1076）
第一次在宿舍打CF 把同宿舍的妹子吵得不行... 特此抱歉QAQ A 题意:给定一个字符串, 最多删掉一个字符,使得剩余字符串字典序最小 n<=2e5 当然"最多"是假的删 ...

Event Recommendation Engine Challenge分步解析第七步

Event Recommendation Engine Challenge分步解析第七步的更多相关文章

随机推荐

热门专题