今天是2017年12月30日,2017年的年尾,2018年马上就要到了,回顾2017过的确实很快,不知不觉就到年末了,再次开篇对2016.2017年的学习数据挖掘,机器学习方面的知识做一个总结,对自己所学的知识也做一个梳理,查漏补缺关于数据挖据、数据分析,可视化,ML,DL,NLP等。

作者:csj
更新时间:2017.12.27

email:59888745@qq.com

说明:因内容较多,会不断更新 *学习总结;

2016.10 主要看的书 《Python3-廖雪峰》,《Python核心编程》
  通过这些书籍的学习,能掌握python常用的基本知识:

  1.python数据类型、判断与循环流程,list,tuple,dict,map,filter,reduce等
  2.文件/数据读写、面向对象、第三方库等;
       3.python高级特性等等;

python学习总结-【原】

2016.11 主要看的书是关于数据获取,scrapy等方面的知识,如《用python写网路爬虫》李斌译;
  1.requests抓取与静态网页解析,bs4的使用; 
  2.user-agent模拟登陆与分布式爬虫;
  3.selenium与动态网站爬取
数据获取,解析,存储等知识的学习总结-【原】

2016.12 主要看的书是关于数据挖据&数据分析方面的知识.如 pandas,numpy,scipy
1.pandas数据统计与分析技能
2.用pandas完成机器学习数据预处理与特征工程

pandas的学习总结-【原
numpy的学习总结-[原]
  scipy的学习总结-原

2017.01 主要看的书是关于数据可视化方面的知识.如 matplotlib,d3,process等数据可视化
1.好用的python可视化利器matplotlib
2.自带各种数据拟合分析的可视化利器seaborn
matplotlib的学习总结【原】
  d3的学习总结
  process的学习总结

2017.02 主要看的书是关于Spark,hadoop,map-reduce大数据处理等方面的知识

Spark快速数据处理》 余璜,张磊译,《spark sql编程指南》 韩保礼 译

Spark与大数据处理【原】 未完

2017.03-04--- 主要看的书是关于机器学习原理到实战方面的书,如
《统计学习方法-李航》--介绍统计学常用的算法和模型;
《机器学习实战-李博》--介绍机器学习常用算法及阿里巴巴PAI平台使用的机器算法解决方案模型
《推荐系统实践-项亮》--介绍推荐系统方面的知识。

机器学习 周志华
  1.机器学习 基本概念,常用经典模型总结【原】
  2..机器学习流程、预处理、特征工程实例总结
  3.机器学习算法特点总结
  4.人工智能,机器学习,深度学习,数据挖掘流程 介绍总结

项目:

阿里天池 大航杯“智造扬中”电力AI大赛 的案例分析实现

Kaggle 自行车租赁预测比赛项目分析实现

京东2017 猪脸识别 项目分析实现

百度PaddlePaddle AI大赛 项目分析实现

2017.05-06-- 主要学习是深度学习原理到实战方面的知识,了解常用深度学习模型Tensorflow,caffe
  1.深度神经网络、deep模型
  2.卷积神经网络、
  3.循环神经网络、

2017.07-08-- 主要学习的是自然语言处理方面的知识,了解常用NLP方面的知识如分词,词向量,词云,文本分类,jieba,gensim等

0.NLP自然语言处理 jieba中文分词,关键词提取,词性标注,NLP WordEmbedding的概念和实现

1.用机器学习方法完成中文文本分类
NB模型
SVM模型

(数据清洗 + 特征提取(tfidf,textrank) + 抽取有用的特征,如对文本抽取,词代模型,NB模型测试, 参数调优,交叉验证(kf,分组),用不同的算法svm,tfidf模型测试;
输出结果和分析,tfidf在多文本类别的分类效果不错。

2.用Tensorflow深度学习做文本分类
CNN做文本分类
数据预处理
停用词
构建数据集
神经网络搭建
训练和预测

3.LSTM/GRU文本分类 捕捉时序信息的长短时记忆神经网络
词袋模型
GRU文本分类

4.推荐系统

根据不同用户的喜好挖掘生成用户画像,为每位用户提供“千人千面”的个性化推荐内容,帮助传媒、
电商等行业有效提升点击率、转化率及用户粘性,极大地增加客户的经营效益。

推荐系统主要功能:
1.多维度挖掘用户长短期兴趣画像,精准把脉用户偏好诉求.
2.基于用户行为历史数据挖掘多样性的个性化推荐结果.
3.对用户兴趣和个性化需求进行精准预测.
4.主要解决两个问题,一个是信息过载,一个是用户需求的多样性.

实现方法:
1. 相似度,通过用户对物品的历史行为,例如评分、访问、下单、收藏等等行为,判断用户之间的相似情况输出推荐列表.
2. 组合推荐:基于用户推荐(UserCF),物品推荐(ItemCF)和内容的推荐可能会达到比较好的效果.

推荐系统简介

2017.09-10-11-12 机器学习,深度学习,NLP等方面知识深化学习

2017 年 机器学习之数据挖据、数据分析,可视化,ML,DL,NLP等知识记录和总结的更多相关文章

  1. 2017年CCF大数据与计算智能大赛,梳理总结新鲜出炉啦~~~

    0 序言 比赛已经过去一段时间,现在才来写总结似乎有点儿晚,但是挡不住内心发出的强烈呼唤的声音,所以决定静下心来梳理一遍,查缺补漏. 参赛契机: 2017年9月偶然在学校的官方微信推送中看到2017年 ...

  2. R学习:《机器学习与数据科学基于R的统计学习方法》中文PDF+代码

    当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通. <机器学习与数据科学基于R的统计学习方法>试图指导读者掌握如何完成涉及机器学习的数据科学项目.为数据科学家 ...

  3. 机器学习PAL数据可视化

    机器学习PAL数据可视化 本文以统计全表信息为例,介绍如何进行数据可视化. 前提条件 完成数据预处理,详情请参见数据预处理. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训练 >  ...

  4. 机器学习PAL数据预处理

    机器学习PAL数据预处理 本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件 完成数据准备,详情请参见准备数据. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...

  5. 中国大学MOOC课程信息之数据分析可视化一

    版权声明:本文为博主原创文章,转载 请注明出处:https://blog.csdn.net/sc2079/article/details/82263391 9月2日更:中国大学MOOC课程信息之数据分 ...

  6. 抓取摩拜单车API数据,并做可视化分析

    抓取摩拜单车API数据,并做可视化分析 纵聊天下 百家号|04-19 15:16 关注 警告:此篇文章仅作为学习研究参考用途,请不要用于非法目的. 摩拜是最早进入成都的共享单车,每天我从地铁站下来的时 ...

  7. 大数据时代的图表可视化利器——highcharts,D3和百度的echarts

    大数据时代的图表可视化利器——highcharts,D3和百度的echarts https://blog.csdn.net/minidrupal/article/details/42153941   ...

  8. K-means + PCA + T-SNE 实现高维数据的聚类与可视化

    使用matlab完成高维数据的聚类与可视化 [idx,Centers]=kmeans(qy,) [COEFF,SCORE,latent] = pca(qy); SCORE = SCORE(:,:); ...

  9. 豆瓣读书top250数据爬取与可视化

    爬虫–scrapy 题目:根据豆瓣读书top250,根据出版社对书籍数量分类,绘制饼图 搭建环境 import scrapy import numpy as np import pandas as p ...

随机推荐

  1. 【Servlet】java web 文件下载功能实现

    需求:实现一个具有文件下载功能的网页,主要下载压缩包和图片 两种实现方法: 一:通过超链接实现下载 在HTML网页中,通过超链接链接到要下载的文件的地址 <!DOCTYPE html> & ...

  2. Postgresql: UUID的使用

    默认安装的 Postgresql 是不带 UUID 函数的,为了生成一个 UUID,我们必须装载它到数据库中. CREATE EXTENSION "uuid-ossp"; 然后就可 ...

  3. Markdown 轻量级标记语言

    1.Markdown 语言 1.1 Markdown 简介 Markdown 是一种轻量级的标记语言,它的优点很多,目前也被越来越多的写作爱好者,撰稿者广泛使用.看到这里请不要被「标记」.「语言」所迷 ...

  4. 【struts2】自定义拦截器

    1)什么是自定义的拦截器 所谓自定义的拦截器,就是由我们自己定义并实现的拦截器,而不是由Struts2定义好的拦截器.虽然Struts2的预定义拦截器已经满足了大多数情况的需要.但在有些时候,我们可能 ...

  5. python练习笔记——组合恒等式

    排列组合结合恒等式 已知从n个物品中取出m个,则存在一个组合恒等式. C(n, m)=C(n, n-m)=C(n-1, m-1)+C(n-1,m) 其中C(n,0) = 1 求:从5取3 和 10 取 ...

  6. sqlserver不太常见的,可能常见但又疑问的tsql语句

    2013年10月29日16:01:58 当数据有 time类型列时候,比如 打电话的通话时长,我们查询时候不方便,我们可以添加一个冗余列,直接统计秒 ,但是 后期知道的,现在我把例如 00:12:23 ...

  7. [转]用GSON 五招之内搞定任何JSON数组

    关于GSON的入门级使用,这里就不提了,如有需要可以看这篇博文 <Google Gson的使用方法,实现Json结构的相互转换> ,写的很好,通俗易懂. 我为什么写这篇文章呢?因为前几晚跟 ...

  8. unity, shader中获得当前像素深度

    frag shader中直接访问i.pos.z就是深度,不必除以i.pos.w,因为系统已经自动进行过了透视除法且已将i.pos.w置为0.

  9. hbase操作

    名称命令表达式 创建表create '表名称','列簇名称1','列簇名称2'....... 添加记录put '表名称', '行名称','列簇名称:','值' 查看记录get '表名称','行名称' ...

  10. Atitit atiplat_reader 基于url阅读器的新特性

    Atitit atiplat_reader 基于url阅读器的新特性 1.1. feature功能特性1 1.2. note1 1.1. feature功能特性 支持url数据源,实际就是只支持一层连 ...