首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
【新人赛】阿里云恶意程序检测 -- 实践记录10.20 - 数据预处理 / 训练数据分析 / TF-IDF模型调参
】的更多相关文章
【新人赛】阿里云恶意程序检测 -- 实践记录10.20 - 数据预处理 / 训练数据分析 / TF-IDF模型调参
Colab连接与数据预处理 Colab连接方法见上一篇博客 数据预处理: import pandas as pd import pickle import numpy as np # 训练数据和测试数据路径 train_path = './security_train.csv' test_path = './security_test.csv' # 将csv格式的训练数据处理为txt文本,只包含文件标签和api序列 def read_train_file(path): labels = [] #…
【新人赛】阿里云恶意程序检测 -- 实践记录10.13 - Google Colab连接 / 数据简单查看 / 模型训练
1. 比赛介绍 比赛地址:阿里云恶意程序检测新人赛 这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛. 2. 前期准备 因为训练数据量比较大,本地CPU跑不起来,所以决定用Google的Colaboratory来跑,期间也遇到了几个坑. 首先是文件上传比较慢,几个G的文件直接上传比较耗时,上传压缩包后解压又出现了问题,最后还是得等着上传完,期间换了好几个VPN节点. 解压缩的问题:用unzip命令解压,速度很慢,经常解压到一半就不动了或者与colab的连接断掉了(可能是网…
【新人赛】阿里云恶意程序检测 -- 实践记录10.27 - TF-IDF模型调参 / 数据可视化
TF-IDF模型调参 1. 调TfidfVectorizer的参数 ngram_range, min_df, max_df: 上一篇博客调了ngram_range这个参数,得出了ngram_range=(1, 4)时效果最好这个结论,并在线上验证了下. 本篇博客继续调其他的参数.考虑到训练的速度,先将ngram_range设置为(1, 1),调min_df: min_df train-mlogloss val-mlogloss 1 0.103793 0.406085 2 0.1091895 0.…
【新人赛】阿里云恶意程序检测 -- 实践记录11.10 - XGBoost学习 / 代码阅读、调参经验总结
XGBoost学习: 集成学习将多个弱学习器结合起来,优势互补,可以达到强学习器的效果.要想得到最好的集成效果,这些弱学习器应当"好而不同". 根据个体学习器的生成方法,集成学习方法可以分为两大类,序列化方法,并行化方法.序列化方法的代表就是Boosting方法,其中XGBoost和lightGBN都属于此类. Boosting的方法是先从初始训练集训练出一个基学习器.然后再对训练样本的分布做一些调整,使得前一个学习器分类错误的样本得到更多的关注,再以此训练下一个基学习器. 依次类推,…
【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost
使用word2vec训练词向量 使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右. 求和:然后再将每行数据中的每个词的词向量加和,得到每行的词向量表示. 其他还可以通过求平均,求众数或者最大值等等方法得到每行的词向量表示. 代码如下: import time import csv import pickle import numpy as np import xgboost as xgb from sklearn.model_sele…
【新人赛】阿里云恶意程序检测 -- 实践记录11.3 - n-gram模型调参
主要工作 本周主要是跑了下n-gram模型,并调了下参数.大概看了几篇论文,有几个处理方法不错,准备下周代码实现一下. xgboost参数设置为: param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1, 'objective': 'multi:softprob', 'num_class': 8, 'subsample': 0.5, 'colsample_bytree': 0.85} n-gram模型…
阿里云小程序云应用环境DIY,延长3倍免费期
阿里云清明节前刚刚推出了小程序云应用扶持计划一期活动 (活动链接见文章底部).假期研究了下以后,发觉不太给力.基本上就是给了2个月的免费测试环境,和平均2个月的基础版生产环境.而如果选用标准版生产环境,则免费天数只有15天,等于没有.2个月时间对一个项目的初始试验往往不太够.对比小程序云的套餐思路, 我们自主搭建小程序部署环境, 可以有半年(6个月)的免费期, 这就足以支撑一个项目的初始试验了. 首先,仔细研究了下测试环境和生产环境的配置,发现阿里其实就是把云服务器(ECS),云数据库RDS…
Android手机安全软件的恶意程序检测靠谱吗--LBE安全大师、腾讯手机管家、360手机卫士恶意软件检测方法研究
转载请注明出处,谢谢. Android系统开放,各大论坛活跃,应用程序分发渠道广泛,这也就为恶意软件的传播提供了良好的环境.好在手机上安装了安全软件,是否能有效的检测出恶意软件呢?下边针对LBE安全大师.腾讯安全管家和360手机卫士做出一系列实验. 1. Android恶意样本实验. Android Malware Genome Project(http://www.malgenomeproject.org/)收集了2010年8月到2011年10月的涵盖主要恶意软件类型的超过1200个恶意程序样…
阿里云centos安装docker-engine实践
近日在阿里云ECS服务器(centos系统)中安装docker,参考官方指南 https://docs.docker.com/engine/installation/linux/centos/ 大概流程都能跑通,但是中途发生了一些意外情况,特记录备案以免后来再次踩坑. 一.需要有登录ECS的工具(推荐Xshell)和拥有root权限的用户. 二.确保linux内核版本是3.10以上并且是64位的centos版本.如果不能满足这个前提,建议看官绕道走吧. 检查linux版本…
阿里云HBase全新发布X-Pack 赋能轻量级大数据平台
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻炼.4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核中超过200+重要的feature是阿里贡献.集团内部超过万台的规模,单集群超过千台,全球领先. 二.HBase技术团队重磅发布X-Pack,重新赋能轻量级大数据平台 阿里云自从17年8月提供HBas…