一. 数据集的准备与预处理

1 . 收集dataset

(大量用户名--包含正常用户名与非法用户名)

包含两个txt文件 legal_name.txt ilegal_name.txt. 如下图所示

2. 用文件进行预处理

# Data sets

import os

import pandas as pd

DATAPATH = "../dataset"

POS = os.path.join(DATAPATH, "legal_name.txt")

POS_OUTPUT = os.path.join(DATAPATH, "legal_name.csv")

NEG = os.path.join(DATAPATH, "ilegal_name.txt")

NEG_OUTPUT = os.path.join(DATAPATH, "ilegal_name.csv")

def process_org_data(input_data, output_data, lable):

    reader = pd.read_csv(input_data, iterator=True)

    while True:

        try:

            train = reader.get_chunk(10000)

            train['username'] = train['username'].astype(str)

            train['username'] = map(lambda x: x.strip(), train['username'])

            train['length'] = train['username'].apply(len)

            ... ...

            train['label'] = map(lambda x: lable, train['username'])

            train.to_csv(output_data, encoding='utf-8', mode='a', index=False, header=False)

        except StopIteration:

            print "Iteration is stopped."

            break

if __name__ == '__main__':

    process_org_data(POS, POS_OUTPUT, 1)

    process_org_data(NEG, NEG_OUTPUT, 0)

根据需求提取相应的特征, 输出成 csv 格式，包含特征列与label列

把合法用户dataset与非法用户dataset,合并打乱，切割成 train.csv 和 test.csv

pos_dataset = read_dataset(POS)

neg_dataset = read_dataset(NEG)

dataset = pd.concat([pos_dataset, neg_dataset])

dataset = dataset.sample(frac=1).reset_index(drop=True)

train_data = dataset.loc[:200000, :]

test_data = dataset.loc[200000:, :]

train_data.to_csv(os.path.join(DataPath, "train.csv"), index=False)

test_data.to_csv(os.path.join(DataPath, "test.csv"), index=False)

二. Keras 构建DNN模型进行训练与模型保存

import pandas as pd

import os

import tensorflow as tf

import matplotlib.pyplot as plt

from sklearn.metrics import confusion_matrix

from sklearn.metrics import classification_report

import numpy as np

tf.logging.set_verbosity(tf.logging.INFO)

DataPath = "../dataset"

TRAIN = os.path.join(DataPath, "train.csv")

TEST = os.path.join(DataPath, "test.csv")

COLUMNS = ["username", ... , "label"]

train_dataset = pd.read_csv(TRAIN, skipinitialspace=True, skiprows=1, names=COLUMNS)

test_dataset = pd.read_csv(TEST, skipinitialspace=True, skiprows=1, names=COLUMNS)

for col in train_dataset.columns[1:]:

    train_dataset[col] = pd.to_numeric(train_dataset[col], errors='coerce')

for col in test_dataset.columns[1:]:

    test_dataset[col] = pd.to_numeric(test_dataset[col], errors='coerce')

X_train = train_dataset.iloc[:, range(1, 19)].values

y_train = train_dataset.iloc[:, 19].values

X_test = test_dataset.iloc[:, range(1, 19)].values

y_test = test_dataset.iloc[:, 19].values

def build_model():

    ############

    model = tf.keras.models.Sequential()

    model.add(tf.keras.layers.Dense(64, input_dim=18))

    # model.add(tf.keras.layers.BatchNormalization())

    model.add(tf.keras.layers.Activation('relu'))

    model.add(tf.keras.layers.Dense(32))

    # model.add(tf.keras.layers.BatchNormalization())

    model.add(tf.keras.layers.Activation('relu'))

    model.add(tf.keras.layers.Dense(16))

    # model.add(tf.keras.layers.BatchNormalization())

    model.add(tf.keras.layers.Activation('relu'))

    model.add(tf.keras.layers.Dense(1, activation='sigmoid'))

    return 

if __name__ == '__main__':

    model_file = './my_model.h5'

    if (os.path.isfile(model_file)):

        print('model file detected. Loading.')

        model = tf.keras.models.load_model(model_file)

    else:

        print('No model file detected.  Starting from scratch.')

        model = build_model()

        model.compile(loss='binary_crossentropy', optimizer="adam", metrics=['accuracy'])

        model.fit(X_train, y_train, batch_size=100, epochs=1, validation_data=(X_test, y_test))

模型输出为 my_model.h5 , 准确率百分之90%

三. 导出tensorflow-serving 模型, 运行在线预测服务

def save_model_for_production(model, version, path='prod_models'):

    tf.keras.backend.set_learning_phase(1)

    if not os.path.exists(path):

        os.mkdir(path)

    export_path = os.path.join(

        tf.compat.as_bytes(path),

        tf.compat.as_bytes(version))

    builder = tf.saved_model.builder.SavedModelBuilder(export_path)

    model_input = tf.saved_model.utils.build_tensor_info(model.input)

    model_output = tf.saved_model.utils.build_tensor_info(model.output)

    prediction_signature = (

        tf.saved_model.signature_def_utils.build_signature_def(

            inputs={'inputs': model_input},

            outputs={'output': model_output},

            method_name=tf.saved_model.signature_constants.PREDICT_METHOD_NAME))

    with tf.keras.backend.get_session() as sess:

        builder.add_meta_graph_and_variables(

            sess=sess, tags=[tf.saved_model.tag_constants.SERVING],

            signature_def_map={

                'predict':

                    prediction_signature,

            })

        builder.save()

导出为 tensorflow serving 模型

export_path = "tf-model"

save_model_for_production(model, "7", export_path)

运行在线预测服务（tensorflow 官方方法）

/serving/bazel-bin/tensorflow_serving/model_servers/tensorflow_model_server --port=9000 --model_name=username --model_base_path=/data/model/tf-model

四. client通过grpc 调用预测服务

#!/usr/bin/env python

# encoding: utf-8  

"""

@version: v1.0

@author: zwqjoy

@contact: zwqjoy@163.com

@site: https://blog.csdn.net/zwqjoy

@file: client

@time: 2018/6/29 15:02

"""

from grpc.beta import implementations

import tensorflow as tf

from tensorflow_serving.apis import predict_pb2

from tensorflow_serving.apis import prediction_service_pb2

import numpy as np

tf.app.flags.DEFINE_string('server', '172.xxx.xxx.xxx:9000',

                           'PredictionService host:port')

tf.app.flags.DEFINE_string('username', 'demo_user',

                           '传入一个username')

FLAGS = tf.app.flags.FLAGS

def nametovec(username):

    username = username.astype(str)

    length = len(username)

    ... ...

    return np.array([length, ...])

def main(_):

    host, port = FLAGS.server.split(':')

    channel = implementations.insecure_channel(host, int(port))

    stub = prediction_service_pb2.beta_create_PredictionService_stub(channel)

    # Send request

    # See prediction_service.proto for gRPC request/response details.

    data = nametovec(FLAGS.username)

    data = data.astype(np.float32)

    request = predict_pb2.PredictRequest()

    request.model_spec.name = 'username'  # 这个name跟tensorflow_model_server  --model_name="username" 对应

    request.model_spec.signature_name = 'predict'  # 这个signature_name  跟signature_def_map 对应

    request.inputs['inputs'].CopyFrom(

        tf.contrib.util.make_tensor_proto(data, shape=(1, 18)))

    result = stub.Predict(request, 10.0)  # 10 secs timeout

    print(result)

if __name__ == '__main__':

    tf.app.run()

Keras 构建DNN 对用户名检测判断是否为非法用户名（从数据预处理到模型在线预测）的更多相关文章

数据挖掘入门系列教程（十一）之keras入门使用以及构建DNN网络识别MNIST
简介在上一篇博客:数据挖掘入门系列教程(十点五)之DNN介绍及公式推导中,详细的介绍了DNN,并对其进行了公式推导.本来这篇博客是准备直接介绍CNN的,但是想了一下,觉得还是使用keras构建一个D ...
【新人赛】阿里云恶意程序检测 -- 实践记录10.13 - Google Colab连接 / 数据简单查看 / 模型训练
1. 比赛介绍比赛地址:阿里云恶意程序检测新人赛这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛. 2. 前期准备因为训练数据量比较大,本地CPU跑不起来,所以决定用Go ...
数据挖掘入门系列教程（十二）之使用keras构建CNN网络识别CIFAR10
简介在上一篇博客:数据挖掘入门系列教程(十一点五)之CNN网络介绍中,介绍了CNN的工作原理和工作流程,在这一篇博客,将具体的使用代码来说明如何使用keras构建一个CNN网络来对CIFAR-10数 ...
如何用js检测判断时间日期的间距
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
Jenkins+PMD构建自动化静态代码检测
前言:软件缺陷是不可避免的,要尽量减少错误并提高软件质量,主要有两在类技术,即缺陷预防和缺陷检测缺陷预防包括编写更好的设计规范.实施代码审核制度.运行代码静态分析工具.运行单元测试等 PMD是一种开 ...
Python：判断文本中的用户名在数据库中是否存在，存在返回1，不存在返回0
下面是我写的python的一个小脚本,作用是:判断文本中的用户名在数据库中是否存在,存在返回1,不存在返回0.用的是MySQL数据库. 要注意的是:strip函数的使用,该函数的作用是去除字符串两端多 ...
ajax实现注册用户名时动态显示用户名是否已经被注册（1、ajax可以实现我们常见的注册用户名动态判断）（2、jquery里面的ajax也是类似我们这样封装了的函数）
ajax实现注册用户名时动态显示用户名是否已经被注册(1.ajax可以实现我们常见的注册用户名动态判断)(2.jquery里面的ajax也是类似我们这样封装了的函数) 一.总结 1.ajax可以实现我 ...
人脸检测及识别python实现系列（3）——为模型训练准备人脸数据
人脸检测及识别python实现系列(3)——为模型训练准备人脸数据机器学习最本质的地方就是基于海量数据统计的学习,说白了,机器学习其实就是在模拟人类儿童的学习行为.举一个简单的例子,成年人并没有主动 ...
转：Android 判断用户2G/3G/4G移动数据网络
Android 判断用户2G/3G/4G移动数据网络在做 Android App 的时候,为了给用户省流量,为了不激起用户的愤怒,为了更好的用户体验,是需要根据用户当前网络情况来做一些调整的,也可以 ...

随机推荐

js 控制光标到指定位置
js控制光标到指定节点位置(适用于富文本编辑器中) function placeCaretAtEnd(el) { //传入光标要去的jq节点对象 el.focus(); if (typeof wind ...
UGUI小技巧之Text随文本内容自动变化大小
看了网上很多帖子,都是说在 Text 上面加上 Content Size Fitter 组件,并将对应的轴向改成 Preferred size 就可以实现 Text 大小随着文本内容自适应,如下图: ...
Day07 (黑客成长日记) 函数的参数及作用
定义函数: 1.定义函数注意: (1)位置参数:直接定义函数. def func(a,b): print(a,b) func(1,2) (2)默认参数:关键字参数:参数名= ‘默认的值‘ def fu ...
Spring核心
方法区与常量池 BeanFactoryPostProcessor与BeanPostProcessor使用创建pc过程 https://www.liangzl.com/get-article-deta ...
outlook VSTO
https://files.cnblogs.com/files/maooveyu/OutlookPhotoSync.rar
js中创建对象的5种方法
1.原始模式 var dog = { name: jack, length: 70, wang:function(){ console.log(this.name); } 2.工厂模式(批量) fun ...
安装easygui
1.下载0.96的easygui 官网: http://easygui.sourceforge.net/ 2.解压后得到文件夹,里面有两个文件分别为,setup.py和easygui.py 3.在py ...
HTML 列表中的dl,dt,dd,ul,li,ol区别及应用
无序列表无序列表是一个项目的列表,此列项目使用粗体圆点(典型的小黑圆圈)进行标记. 无序列表始于 <ul> 标签.每个列表项始于 <li>. 有序列表同样,有序列表也是 ...
hive 函数 nvl()
首先用desc function,查看hive给出的函数解释 nvl(value,default_value) - Returns default value if value is null els ...
Openvswitch手册(6): QoS
这一节我们看QoS,Qos的设置往往是和flow中的policy一起使用的 Open vSwitch QoS capabilities 1 Interface rate limiting 2 Port ...

Keras 构建DNN 对用户名检测判断是否为非法用户名（从数据预处理到模型在线预测）