哪个平台有最新的机器学习发展现状和最先进的代码?没错——Github!本文将会分享近期发布的七大GitHub机器学习项目。这些项目广泛覆盖了机器学习的各个领域,包括自然语言处理(NLP)、计算机视觉、大数据等。

最顶尖的Github机器学习项目

1. PyTorch-Transformers(NLP)

传送门:https://github.com/huggingface/pytorch-transformers

自然语言处理(NLP)的力量令人叹服。NLP改变了文本的处理方式,几乎到了无法用语言描述的程度。

在最先进的一系列NLP库中,PyTorch-Transformers出现最晚,却已打破各种NLP任务中已有的一切基准。它最吸引人的地方在于涵盖了PyTorch实现、预训练模型权重及其他重要元素,可以帮助用户快速入门。

运行最先进的模型需要庞大的计算能力。PyTorch-Transformers在很大程度上解决了这个问题,它能够帮助这类人群建立起最先进的NLP模型。

这里有几篇深度剖析PyTorch-Transformers的文章,可以帮助用户了解这一模型(及NLP中预训练模型的概念):

· PyTorch-Transformers:一款可处理最先进NLP的惊人模型库(使用Python)

https://www.analyticsvidhya.com/blog/2019/07/pytorch-transformers-nlp-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· 8个入门NLP最优秀的预训练模型

https://www.analyticsvidhya.com/blog/2019/03/pretrained-models-get-started-nlp/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· PyTorch——一个简单而强大的深度学习库

https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

2. NeuralClassifier (NLP)

传送门:https://github.com/Tencent/NeuralNLP-NeuralClassifier

在现实世界中,文本数据的多标签分类是一个巨大的挑战。早期面对NLP问题时,我们通常处理的是单一标签任务,但在真实生活中却远不是这么简单。

在多标签分类问题中,实例/记录具备多个标签,且每个实例的标签数量并不固定。

NeuralClassifier使我们能够在多层、多标签分类任务中快速实现神经模型。我最喜欢的是NeuralClassifier,提供了各种大众熟知的文本编码器,例如FastText、RCNN、Transformer等等。

用NeuralClassifier可以执行以下分类任务:

· 双层文本分类

· 多层文本分类

· 多标签文本分类

· 多层(多标签)文本分类

以下两篇优秀的文章介绍了究竟什么是多标签分类,以及如何在Python中执行多标签分类:

· 使用NLP预测电影类型——多标签分类的精彩介绍

https://www.analyticsvidhya.com/blog/2019/04/predicting-movie-genres-nlp-multi-label-classification/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· 使用Python构建你的第一个多标签图像分类模型

https://www.analyticsvidhya.com/blog/2019/04/build-first-multi-label-image-classification-model-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

3. TDEngine (大数据)

传送门:https://github.com/taosdata/TDengine

TDEngine数据库在几乎不到一个月的时间内就累积了近10,000个star。继续往下读,你立马就能明白这是为何。

TDEngine是一个开源大数据平台,针对:

· 物联网(IoT)

· 车联网

· 工业物联网

· IT基础架构等等

本质上,TDEngine提供了一整套与数据工程相关的任务,用户可以用极快的速度完成所有这些工作(查询处理速度将提高10倍,计算使用率将降低到1/5)。

目前有一点需要注意——TDEngine仅支持在Linux上执行。TDEngine数据库包含完整的文件资料以及包含代码的入门指南。

建议你阅读这一篇针对数据工程师的综合资源指南:

· 想成为数据工程师?这里列出了入门应看的综合资源

https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

4. Video Object Removal (计算机视觉)

传送门:https://github.com/zllrunning/video-object-removal

你是否接触过图像数据?计算机视觉是一种十分先进的技术,用于操纵和处理图像的。想要成为计算机视觉专家,图像的目标检测通常被认为是必经之路。

那么视频呢?如果要对几个视频中的目标绘制边界框,虽然看似简单,实际难度却远不止如此,而且目标的动态性会使任务更加复杂。

所以Video Object Removal非常棒,只要在视频中某一目标周围绘制边界框,即可将它删除。就是这么简单!以下是一个范例:

如果你在计算机视觉的世界里还是个小白,这里有两篇能帮助你入门并快速上手的文章:

· 对基础目标检测算法的全面介绍

https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· 使用深度学习2.0掌握计算机视觉

https://courses.analyticsvidhya.com/courses/computer-vision-using-deep-learning-version2/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

5. Python Autocomplete (编程)

传送门:https://github.com/vpj/python_autocomplete

你一定会爱上Python Autocomplete的。数据科学家的所有工作就是对各种算法进行试验(至少是大多数人),而Python Autocomplete可以利用一个LSTM简单模型自动写完Python代码。

下图中,灰色的部分就是LSTM模型自动填写的代码(结果位于图像底部):

开发人员如是描述:

首先清除Python代码中的注释、字符串和空行,然后进行训练和预测。模型训练的前提是对python代码进行标记化,相比使用字节编码来预测字节,这似乎更为有效。

如果你曾花费(浪费)时间编写一行行单调的Python代码,那么这一模型可能正是你所寻找的。不过它的开发还处于非常早期的阶段,操作中不可避免会出现一些问题。

如果你想知道LSTM到底是什么,请阅读这篇文章中的介绍:

· 深度学习的要点:长短时记忆(LSTM)入门

https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

6. tfpyth–从TensorFlow到PyTorch再到TensorFlow (编程)

传送门:https://github.com/BlackHC/tfpyth

TensorFlow和PyTorch两大模型都坐拥庞大的用户群,但后者的使用率高得惊人,在未来一两年内很可能超过前者。不过请注意:这并不会打击Tensorflow,因为它的地位相当稳固。

所以如果你曾经在TensorFlow中写了一串代码,后来又在PyTorch中写了另一串代码,现在希望将两者结合起来用以训练模型——那么tfpyth框架会是一个好选择。Tfpyth最大的优势就在于用户不需要重写先前写好的代码。

这一项目对tfpyth的使用方法给出了结构严谨的示例,这无疑是对TensorFlow与PyTorch争论的一种重新审视。

安装tfpyth易如反掌:

pip install tfpyth

以下是两篇深度介绍TensorFlow和PyTorch如何运作的文章:

· 深度学习指南:使用Python中的TensorFlow实现神经网络

https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

· PyTorch——一个简单而强大的深度学习库

https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

7. MedicalNet

MedicalNet中包含了一个PyTorch项目,该项目将《Med3D:用迁移学习分析3D医学图像》(https://arxiv.org/abs/1904.00625)这篇论文中的想法付诸实践。这一机器学习项目将医学数据集与不同的模态、目标器官和病理结合起来,以构建规模较大的数据集。

众所周知,深度学习模型(通常)需要大量训练数据,而TenCent发布的MedicalNet是一个相当出色的开源项目,希望大家都能尝试使用它。

MedicalNet的开发人员已经发布了四个预训练模型,这些模型基于23个数据集。如果你需要,下文对迁移学习进行了直观的介绍:

· 迁移学习及在深度学习中使用预训练模型的艺术

https://www.analyticsvidhya.com/blog/2017/06/transfer-learning-the-art-of-fine-tuning-a-pre-trained-model/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

留言 点赞 关注

我们一起分享AI学习与发展的干货

盘点当下大热的7大Github机器学习创新项目的更多相关文章

  1. 七大Github机器学习热门项目

    译者 | 小韩 来源 | analyticsvidhya.com[磐创AI导读]:让我们一起来看下近期热门的机器学习Github仓库,包括了自然语言处理(NLP).计算机视觉(CV)与大数据等多个领域 ...

  2. 近期 github 机器学习热门项目 top5

    欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 作者:Walker No1:NVIDIA's vid2vid Technique( ...

  3. 近期 github 机器学习热门项目top5

    磐创智能-专注机器学习深度学习的教程网站 http://panchuang.net/ 磐创AI-智能客服,聊天机器人,推荐系统 http://panchuangai.com/ [导读]:Github是 ...

  4. 为什么前两年大热的VR创业突然冷了?

    不得不说,如果不是<头号玩家>在国内的热映,人们似乎都要忘记VR这个行业了.<头号玩家>中那些带有极强真实色彩的游戏,其实就是VR进化的目标,甚至是巅峰!而里面的角色佩戴的设备 ...

  5. Go语言的9大优势和3大缺点, GO语言最初的定位就是互联网时代的C语言, 我为什么放弃Go语言

    Go语言的9大优势和3大缺点 转用一门新语言通常是一项大决策,尤其是当你的团队成员中只有一个使用过它时.今年 Stream 团队的主要编程语言从 Python 转向了 Go.本文解释了其背后的九大原因 ...

  6. bat坐拥大数据。数据挖掘/大数据给他们带来什么。

    阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了.   实际上,对于大数据究竟是什么业界并无共识.大数据并不是什么新鲜事物.信息革命带来的除了信息的更高效地生产.流通和消 ...

  7. 跟上节奏 大数据时代十大必备IT技能

    跟上节奏 大数据时代十大必备IT技能 新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT ...

  8. 学习Hadoop+Spark大数据巨量分析与机器学习整合开发-windows利用虚拟机实现模拟多节点集群构建

    记录学习<Hadoop+Spark大数据巨量分析与机器学习整合开发>这本书. 第五章 Hadoop Multi Node Cluster windows利用虚拟机实现模拟多节点集群构建 5 ...

  9. SWAP_JOIN_INPUTS Oracle Hint(处理hash join强制大表(segment_size大)作为被驱动表)

    SWAP_JOIN_INPUTS Oracle Hint(处理hash join强制大表(segment_size大)作为被驱动表) swap_join_inputs是针对哈希连接的hint,它的含义 ...

随机推荐

  1. 浙大&川大提出脉冲版ResNet:继承ResNet优势,实现当前最佳

    浙大&川大提出脉冲版ResNet:继承ResNet优势,实现当前最佳 选自arXiv,作者:Yangfan Hu等,机器之心编译. 脉冲神经网络(SNN)具有生物学上的合理性,并且其计算潜能和 ...

  2. Linux查看网卡传输速率总结

    1.使用ethtool命令 ethtool ens192   使用ethtool命令后面直接接网卡名称可以查看到部分信息,包括网卡协商速率等等.   还有一种如果服务器内有很多块网卡,我们想查看具体网 ...

  3. 动态规划 | 对输入进行hash处理的LIS 1045

    把序列M处理为有序序列,并且M不存在的序列要在A中删除. 对A进行了处理之后,执行LIS的操作(O(N^2)复杂度).当然可以优化为对数复杂度的,不过pat不卡这个. LCS解法:动态规划 | 保留重 ...

  4. c++的CreateFile导致内存不能为written错误

    LPCWSTR szFileName; szFileName=argv[2]; //LPCWSTR szFileName=L"test.txt";//文件名字可以根据自己的需要修改 ...

  5. 8.9 NOIP模拟测试15 建设城市(city)+轰炸行动(bomb)+石头剪刀布(rps)

    鉴于T3的惨烈程度,我决定先来颓篇题解. T1 建设城市(city) 挡板法+容斥 m个建设队分成n组,每组必须有一个,先不考虑上限,共有 C(m-1,n-1)种方案. 有i个组是超过k个的,容斥掉 ...

  6. [LeetCode] 871. Minimum Number of Refueling Stops 最少的加油站个数

    A car travels from a starting position to a destination which is target miles east of the starting p ...

  7. ADB/Fastboot刷机

    谷歌官方ADB/Fastboot等工具包下载地址(最新版/免.墙):WINDOWS :https://dl.google.com/android/repository/platform-tools-l ...

  8. java 多行注释

    public class Sample { public static void main(String[] args) { // java compiler ignores the comment ...

  9. css 在一定区域内滚动显示,不修改父级样式

    做项目时,会遇到一些零碎的技术点.记录下来以防忘记 需求:图中圈中的部门是滚动的.不修改父级样式 代码: <div class="right-text-bottom"> ...

  10. Python 中把一个list 列表分组/分块

    比如:将list:[1,2,3,4,5,6,7,8,9]按照下标顺序分成3组:[1,2,3] [4,5,6] [7,8,9]或分成5组:[1,2,] [3, 4] [5,6] [7, 8] [ 9 ] ...