首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
【新人赛】阿里云恶意程序检测 -- 实践记录11.10 - XGBoost学习 / 代码阅读、调参经验总结
】的更多相关文章
【新人赛】阿里云恶意程序检测 -- 实践记录11.10 - XGBoost学习 / 代码阅读、调参经验总结
XGBoost学习: 集成学习将多个弱学习器结合起来,优势互补,可以达到强学习器的效果.要想得到最好的集成效果,这些弱学习器应当"好而不同". 根据个体学习器的生成方法,集成学习方法可以分为两大类,序列化方法,并行化方法.序列化方法的代表就是Boosting方法,其中XGBoost和lightGBN都属于此类. Boosting的方法是先从初始训练集训练出一个基学习器.然后再对训练样本的分布做一些调整,使得前一个学习器分类错误的样本得到更多的关注,再以此训练下一个基学习器. 依次类推,…
【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost
使用word2vec训练词向量 使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右. 求和:然后再将每行数据中的每个词的词向量加和,得到每行的词向量表示. 其他还可以通过求平均,求众数或者最大值等等方法得到每行的词向量表示. 代码如下: import time import csv import pickle import numpy as np import xgboost as xgb from sklearn.model_sele…
【新人赛】阿里云恶意程序检测 -- 实践记录11.3 - n-gram模型调参
主要工作 本周主要是跑了下n-gram模型,并调了下参数.大概看了几篇论文,有几个处理方法不错,准备下周代码实现一下. xgboost参数设置为: param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1, 'objective': 'multi:softprob', 'num_class': 8, 'subsample': 0.5, 'colsample_bytree': 0.85} n-gram模型…
【新人赛】阿里云恶意程序检测 -- 实践记录10.13 - Google Colab连接 / 数据简单查看 / 模型训练
1. 比赛介绍 比赛地址:阿里云恶意程序检测新人赛 这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛. 2. 前期准备 因为训练数据量比较大,本地CPU跑不起来,所以决定用Google的Colaboratory来跑,期间也遇到了几个坑. 首先是文件上传比较慢,几个G的文件直接上传比较耗时,上传压缩包后解压又出现了问题,最后还是得等着上传完,期间换了好几个VPN节点. 解压缩的问题:用unzip命令解压,速度很慢,经常解压到一半就不动了或者与colab的连接断掉了(可能是网…
【新人赛】阿里云恶意程序检测 -- 实践记录10.20 - 数据预处理 / 训练数据分析 / TF-IDF模型调参
Colab连接与数据预处理 Colab连接方法见上一篇博客 数据预处理: import pandas as pd import pickle import numpy as np # 训练数据和测试数据路径 train_path = './security_train.csv' test_path = './security_test.csv' # 将csv格式的训练数据处理为txt文本,只包含文件标签和api序列 def read_train_file(path): labels = [] #…
【新人赛】阿里云恶意程序检测 -- 实践记录10.27 - TF-IDF模型调参 / 数据可视化
TF-IDF模型调参 1. 调TfidfVectorizer的参数 ngram_range, min_df, max_df: 上一篇博客调了ngram_range这个参数,得出了ngram_range=(1, 4)时效果最好这个结论,并在线上验证了下. 本篇博客继续调其他的参数.考虑到训练的速度,先将ngram_range设置为(1, 1),调min_df: min_df train-mlogloss val-mlogloss 1 0.103793 0.406085 2 0.1091895 0.…
阿里云小程序云应用环境DIY,延长3倍免费期
阿里云清明节前刚刚推出了小程序云应用扶持计划一期活动 (活动链接见文章底部).假期研究了下以后,发觉不太给力.基本上就是给了2个月的免费测试环境,和平均2个月的基础版生产环境.而如果选用标准版生产环境,则免费天数只有15天,等于没有.2个月时间对一个项目的初始试验往往不太够.对比小程序云的套餐思路, 我们自主搭建小程序部署环境, 可以有半年(6个月)的免费期, 这就足以支撑一个项目的初始试验了. 首先,仔细研究了下测试环境和生产环境的配置,发现阿里其实就是把云服务器(ECS),云数据库RDS…
【¥200代金券、iPad等您来拿】 阿里云9大产品免费公测#10月9日-11月6日#
#10.09-11.06#200元代金券.iPad大奖, 9大产品评测活动! 亲爱的阿里云小伙伴们: 云产品的多样性(更多的云产品)也是让用户深度使用云计算的关键.今年阿里云产品线越来越丰富,小云搜罗了一下,居然有9个产品在免费公测. 为了协助您上手新的云产品,借助阿里云9大产品免费公测活动,您可以测试工作负载,运行应用程序:还可以通过评测文章交流,学习到更多知识,为您构建合适的云产品解决方案. 活动要点如下:首先:申请产品公测资格,申请方式如下方Q&A所示:http://bbs.aliyun.…
Android手机安全软件的恶意程序检测靠谱吗--LBE安全大师、腾讯手机管家、360手机卫士恶意软件检测方法研究
转载请注明出处,谢谢. Android系统开放,各大论坛活跃,应用程序分发渠道广泛,这也就为恶意软件的传播提供了良好的环境.好在手机上安装了安全软件,是否能有效的检测出恶意软件呢?下边针对LBE安全大师.腾讯安全管家和360手机卫士做出一系列实验. 1. Android恶意样本实验. Android Malware Genome Project(http://www.malgenomeproject.org/)收集了2010年8月到2011年10月的涵盖主要恶意软件类型的超过1200个恶意程序样…
阿里云centos安装docker-engine实践
近日在阿里云ECS服务器(centos系统)中安装docker,参考官方指南 https://docs.docker.com/engine/installation/linux/centos/ 大概流程都能跑通,但是中途发生了一些意外情况,特记录备案以免后来再次踩坑. 一.需要有登录ECS的工具(推荐Xshell)和拥有root权限的用户. 二.确保linux内核版本是3.10以上并且是64位的centos版本.如果不能满足这个前提,建议看官绕道走吧. 检查linux版本…