个性化排序算法实践(二)—

场感知分解机（Field-aware Factorization Machine ，简称FFM）在FM的基础上进一步改进，在模型中引入类别的概念，即field。将同一个field的特征单独进行one-hot，因此在FFM中，每一维特征都会针对其他特征的每个field，分别学习一个隐变量，该隐变量不仅与特征相关，也与field相关。假设样本的n个特征属于f个field，那么FFM的二次项有nf个隐向量。而在FM模型中，每一维特征的隐向量只有一个。FM可以看做FFM的特例，把所有特征都归属到一个field的FFM模型。通过引入field的概念，FFM把相同性质的特征归于同一个field。

主要步骤如下：

1、生成数据。这里使用numpy生成了1000行数据。

2、定义权重项。在ffm中，有三个权重项，首先是bias，然后是一维特征的权重，最后是交叉特征的权重：

3、计算估计值。估计值的计算这里不能项FM一样先将公式化简再来做，对于交叉特征，只能写两重循环，所以对于特别多的特征的情况下，计算量巨大。

4、定义损失函数，训练。

#-*-coding:utf-8-*-

"""

author:jamest

date:20191031

FFM function

"""

import tensorflow as tf

import numpy as np

import os

input_x_size = 20

field_size = 2

vector_dimension = 3

total_plan_train_steps = 1000

# 使用SGD，每一个样本进行依次梯度下降，更新参数

batch_size = 1

all_data_size = 1000

lr = 0.01

MODEL_SAVE_PATH = "TFModel"

MODEL_NAME = "FFM"

def createTwoDimensionWeight(input_x_size,field_size,vector_dimension):

    weights = tf.truncated_normal([input_x_size,field_size,vector_dimension])

    tf_weights = tf.Variable(weights)

    return tf_weights

def createOneDimensionWeight(input_x_size):

    weights = tf.truncated_normal([input_x_size])

    tf_weights = tf.Variable(weights)

    return tf_weights

def createZeroDimensionWeight():

    weights = tf.truncated_normal([1])

    tf_weights = tf.Variable(weights)

    return tf_weights

def inference(input_x,input_x_field,zeroWeights,oneDimWeights,thirdWeight):

    """计算回归模型输出的值"""

    secondValue = tf.reduce_sum(tf.multiply(oneDimWeights,input_x,name='secondValue'))

    firstTwoValue = tf.add(zeroWeights, secondValue, name="firstTwoValue")

    thirdValue = tf.Variable(0.0,dtype=tf.float32)

    input_shape = input_x_size

    for i in range(input_shape):

        featureIndex1 = i

        fieldIndex1 = int(input_x_field[i])

        for j in range(i+1,input_shape):

            featureIndex2 = j

            fieldIndex2 = int(input_x_field[j])

            vectorLeft = tf.convert_to_tensor([[featureIndex1,fieldIndex2,i] for i in range(vector_dimension)])

            weightLeft = tf.gather_nd(thirdWeight,vectorLeft)

            weightLeftAfterCut = tf.squeeze(weightLeft)

            vectorRight = tf.convert_to_tensor([[featureIndex2,fieldIndex1,i] for i in range(vector_dimension)])

            weightRight = tf.gather_nd(thirdWeight,vectorRight)

            weightRightAfterCut = tf.squeeze(weightRight)

            tempValue = tf.reduce_sum(tf.multiply(weightLeftAfterCut,weightRightAfterCut))

            indices2 = [i]

            indices3 = [j]

            xi = tf.squeeze(tf.gather_nd(input_x, indices2))

            xj = tf.squeeze(tf.gather_nd(input_x, indices3))

            product = tf.reduce_sum(tf.multiply(xi, xj))

            secondItemVal = tf.multiply(tempValue, product)

            tf.assign(thirdValue, tf.add(thirdValue, secondItemVal))

    return tf.add(firstTwoValue,thirdValue)

def gen_data():

    labels = [-1,1]

    y = [np.random.choice(labels,1)[0] for _ in range(all_data_size)]

    x_field = [0 for i in range(input_x_size//2)] + [1 for i in range(input_x_size//2)]

    x = np.random.randint(0,2,size=(all_data_size,input_x_size))

    return x,y,x_field

if __name__ == '__main__':

    global_step = tf.Variable(0,trainable=False)

    trainx,trainy,trainx_field = gen_data()

    #

    input_x = tf.placeholder(tf.float32,[input_x_size ])

    input_y = tf.placeholder(tf.float32)

    #

    lambda_w = tf.constant(0.001, name='lambda_w')

    lambda_v = tf.constant(0.001, name='lambda_v')

    zeroWeights = createZeroDimensionWeight()

    oneDimWeights = createOneDimensionWeight(input_x_size)

    thirdWeight = createTwoDimensionWeight(input_x_size,  # 创建二次项的权重变量

                                           field_size,

                                           vector_dimension)  # n * f * k

    y_ = inference(input_x, trainx_field,zeroWeights,oneDimWeights,thirdWeight)

    l2_norm = tf.reduce_sum(

        tf.add(

            tf.multiply(lambda_w, tf.pow(oneDimWeights, 2)),

            tf.reduce_sum(tf.multiply(lambda_v, tf.pow(thirdWeight, 2)),axis=[1,2])

        )

    )

    loss = tf.log(1 + tf.exp(input_y * y_)) + l2_norm

    train_step = tf.train.GradientDescentOptimizer(learning_rate=lr).minimize(loss)

    saver = tf.train.Saver()

    with tf.Session() as sess:

        sess.run(tf.global_variables_initializer())

        for i in range(total_plan_train_steps):

            for t in range(all_data_size):

                input_x_batch = trainx[t]

                input_y_batch = trainy[t]

                predict_loss,_, steps = sess.run([loss,train_step, global_step],

                                               feed_dict={input_x: input_x_batch, input_y: input_y_batch})

                print("After  {step} training   step(s)   ,   loss    on    training    batch   is  {predict_loss} "

                      .format(step=steps, predict_loss=predict_loss))

                saver.save(sess, os.path.join(MODEL_SAVE_PATH, MODEL_NAME), global_step=steps)

                writer = tf.summary.FileWriter(os.path.join(MODEL_SAVE_PATH, MODEL_NAME), tf.get_default_graph())

                writer.close()

参考：

FM系列

 Github

推荐系统遇上深度学习(二)--FFM模型理论和实践

个性化排序算法实践(二)——FFM算法的更多相关文章

个性化召回算法实践(二)——LFM算法
LFM算法核心思想是通过隐含特征(latent factor)联系用户兴趣和物品,找出潜在的主题和分类.LFM(latent factor model)通过如下公式计算用户u对物品i的兴趣: \[ P ...
个性化排序算法实践(五)——DCN算法
wide&deep在个性化排序算法中是影响力比较大的工作了.wide部分是手动特征交叉(负责memorization),deep部分利用mlp来实现高阶特征交叉(负责generalizatio ...
个性化排序算法实践(三)——deepFM算法
FM通过对于每一位特征的隐变量内积来提取特征组合,最后的结果也不错,虽然理论上FM可以对高阶特征组合进行建模,但实际上因为计算复杂度原因,一般都只用到了二阶特征组合.对于高阶特征组合来说,我们很自然想 ...
最短路径算法之二——Dijkstra算法
Dijkstra算法 Dijkstra算法主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止. 注意该算法要求图中不存在负权边. 首先我们来定义一个二维数组Edge[MAXN][MAXN]来存储 ...
个性化排序算法实践(一)——FM算法
因子分解机(Factorization Machine,简称FM)算法用于解决大规模稀疏数据下的特征组合问题.FM可以看做带特征交叉的LR. 理论部分可参考FM系列,通过将FM的二次项化简,其复杂度可 ...
个性化召回算法实践(一)——CF算法
协同过滤推荐(Collaborative Filtering Recommendation)主要包括基于用户的协同过滤算法与基于物品的协同过滤算法. 下面,以movielens数据集为例,分别实践这两 ...
个性化召回算法实践(三)——PersonalRank算法
将用户行为表示为二分图模型.假设给用户\(u\)进行个性化推荐,要计算所有节点相对于用户\(u\)的相关度,则PersonalRank从用户\(u\)对应的节点开始游走,每到一个节点都以\(1-d\) ...
个性化召回算法实践(四)——ContentBased算法
ContentBased算法的思想非常简单:根据用户过去喜欢的物品(本文统称为 item),为用户推荐和他过去喜欢的物品相似的物品.而关键就在于这里的物品相似性的度量,这才是算法运用过程中的核心. C ...
算法实践--最小生成树(Kruskal算法)
什么是最小生成树(Minimum Spanning Tree) 每两个端点之间的边都有一个权重值,最小生成树是这些边的一个子集.这些边可以将所有端点连到一起,且总的权重最小下图所示的例子,最小生成树 ...

随机推荐

【Python开发】【编程开发】各种系统的清屏操作命令
mac os x terminal清屏快捷键 cammand+k linux系统清屏快捷键 ctrl+l linux系统命令行清屏命令 clear windows 命令行清屏命令 cls Matlab ...
tween算法
tween算法 https://www.cnblogs.com/cloudgamer/archive/2009/01/06/Tween.html 参数说明: t: current time:当前时间: ...
对QT多线程以及事件投递的理解
1.使用QObject子类的movetothread方法代替 QThread子类的run 实现多线程. 使用原始QThread对象的start方法启动线程==>连接原始QThread对象的st ...
逸鹏说道公众号福利：逆天常用的一些谷歌浏览器插件V1.3
插件导出:http://www.cnblogs.com/dunitian/p/5426552.html 插件导入:https://www.cnblogs.com/dotnetcrazy/p/97537 ...
SpringBoot系列教程web篇之Beetl环境搭建
前面两篇分别介绍了目前流行的模板引擎Freemaker和Thymeleaf构建web应用的方式,接下来我们看一下号称性能最好的国产模板引擎Beetl,如何搭建web环境本文主要来自官方文档,如有疑问 ...
Jmeter3.1 使用及新增报告功能
一.JMeter官网下载地址http://jmeter.apache.org/download_jmeter.cgi Jmeter wikihttps://wiki.apache.org/jmete ...
Java基础笔试练习（十一）
1.下面的方法,当输入为2的时候返回值是多少? public static int getValue(int i) { int result = 0; switch (i) { case 1: res ...
STL源码剖析——序列式容器#1 Vector
在学完了Allocator.Iterator和Traits编程之后,我们终于可以进入STL的容器内部一探究竟了.STL的容器分为序列式容器和关联式容器,何为序列式容器呢?就是容器内的元素是可序的,但未 ...
postman接口测试-参数化-测试数据Text文本
全局变量参数化在环境变量里面设置好参数,比如url=http://www.baidu.com 某一类型的BaseUrl全部都是www.baidu.com,参数化之后倘若哪天URL变更之后,改一个环境 ...
SQL——AS别名
一.SQL别名的基本用法 SQL可以为表或者列指定别名. 语法格式如下(表): SELECT 列名1,列名2... FROM 表名 AS 别名; 语法格式如下(列): SELECT 列名1 AS 别名 ...

个性化排序算法实践(二)——FFM算法

个性化排序算法实践(二)——FFM算法的更多相关文章

随机推荐

热门专题