收藏学习:2018年 Python 机器学习开源项目 Top20

来自集智百科
跳转到: 导航搜索

机器111.jpg

目录

前言

我们更新了顶级的AI和机器学习的python项目,由于贡献者数量经过三位数的增长,tensorflow已经上升为第一位,Scikit-learn下降至第二位,但仍然有非常大的贡献者基数。研究机器学习和AI不是一个容易的事情。许多有志研究的专业人士和爱好者发现,在当下有各种各样资源的情况下,要找到一条通往该领域的正确路径是一件很困难的事情。这个领域在不断发展,更重要的是我们要紧跟这个领域的发展。 为了紧跟这种日新月异的发展速度,一个保持了解和学习机器学习前沿的方法是,通过参与到开源社区,和为被很多专业人士使用的开源项目和工具做出贡献。我们在此更新数据并分析我们上一次发布的Top20 python机器学习开源项目(2016年11月)以来的发展趋势。由于贡献者数量经过三位数的增长,tensorflow已经上升为第一位。Scikit-learn下降至第二位,但仍然有非常大的贡献者基数。

和2016年的统计相比,2018年以下项目贡献者数量的增长速度最快:

1.TensorFlow,贡献者数量从493增长到1324,增长了168%
2.Deap,贡献者数量从21增长到39,增长了86%
3.Chainer,贡献者数量从84增长到154,增长了83%
4.Gensim,贡献者数量从145增长到262,增长了81%
5.Neon,贡献者数量从47增长到78,增长了66%
6.Nilearn,贡献者数量从46增长到69,增长了50%

机器11.jpg

Github上Top20 AI和机器学习python开源项目

如图所示,大小和贡献者数量成正比,颜色代表贡献者数量的变化,其中红色代表变化越大,蓝色代表变化越小,雪花形状的项目表示可用于深度学习,也可以用于其它机器学习。我们看到像TensorFlow,Theano和Caffe这样的深度学习项目是最受欢迎的项目之一。下面的排名是根据Github上贡献者的数量,并以降序给出的结果,其贡献者的数量的变化是与2016 KDnuggets发布前20名机器学习python开源项目相比较。我们希望您能够享受这一过程,即通过阅读文档,并以合作的方式和使用Python进行机器学习的研究。

No.1 TensorFlow

最初是由研究员和工程师开发出来的。一直以来,这些研究员和工程师都在致力于为谷歌机器智能研究机构下属的谷歌大脑团队服务。TensorFlow这个系统被设计出来的初衷,一是为了能给机器学习的相关研 究提供便利,二则是为了能让研究成果向生产应用的过渡变得简单高效。
代码贡献者数量:1324(增长了168%),代码提交次数:28476,Stars:92359。Github URL:https://github.com/tensorflow/tensorflow
机器1.jpg

No.2 Scikit-learn

是一种专门应用于数据挖掘和数据分析的简单而有效的工具。每个人都能运用这一工具,并且这个工具还能在各种文本中被重复利用。同时,它还建立在NumPy、SciPy和matplotlib、开放源代码以及具有商业使用价值的BSD许可证等工具的基础之上。
代码贡献者数量:1019(增长了39% ),代码提交次数:22575,Github URL:http://github.com/scikit-learn/scikit-learn
机器2.jpg

No.3 Keras

是一个高级的神经网络API,它主要用Python开发,并且能够在TensorFlow, CNTK或是在Theano.上运行。
代码贡献者数量:628(新的 ),代码提交次数:28476,Github URL:https://github.com/keras-team/keras
机器3.jpg

No.4 PyTorch

其张量和动态神经网络具有强大的GPU加速能力。
代码贡献者数量:399(新的 ),代码提交次数:6458,Github URL:https://github.com/pytorch/pytorch
机器4.png

No.5 Theano

能高效地定义、优化和评估涉及多维数组的数学表达式。
代码贡献者数量:327(增长了24% ),代码提交次数:27931,Github URL:https://github.com/Theano/Theano
机器5.jpg

No.6 Gensim

是一个具有诸多特征并可供免费使用的Python库。它具有可伸缩的统计语义,同时它也能分析纯文本文档的语义结构,并检索语义上相似的文档。
代码贡献者数量:262(增长了81% ),代码提交次数:3549,Github URL:https://github.com/RaRe-Technologies/gensim
机器6.jpg

No.7 Caffe

是一个融合了表达、速度和模块化思想的深层次学习框架。它是由伯克利视觉和学习中心(BVLC)以及社区贡献者共同开发的。
代码贡献者数量:260(增长了21%),代码提交次数:4099,Github URL:https://github.com/BVLC/caffe
机器7.png

No.8 Chainer

是一个基于Python的独立开源框架,主要用于深度学习模型。Chainer能够提供灵活、直观和高性能的手段来实现大规模的深度学习模型,包括诸如递归神经网络和变分自动编码器等最新的模型。
代码贡献者数量:154(增长了84% ),代码提交次数:12613,Github URL:https://github.com/pfnet/chainer
机器8.png

No.9 Statsmodels

是一个Python模块,它能让用户探索数据,估计统计模型,并执行统计测试。同时,一系列广泛的描述性统计、统计测试、绘图功能,和结果统计表均可用于不同类型的数据和各个估计元素。
代码贡献者数量:144(增长了33% ),代码提交次数:9729,Github URL:https://github.com/statsmodels/statsmodels/
机器9.png

No.10 Shogun

是一种机器学习工具箱,它能够提供大规模统一而高效的机器学习(ML)方法。这个工具箱能轻松地将多样的数据样本值、算法类和通用类工具紧密地结合在一起。
代码贡献者数量:139(增长了32%),代码提交次数:16362,Github URL:https://github.com/shogun-toolbox/shogun
机器10.png

No.11 Pylearn2

是一个机器学习库。它的大部分功能都是建立在Teano之上。这意味着您可以使用数学表达式编写Pylearn2插件(新模型、算法等),同时Teano也会帮助您优化并稳定这些表达式,并将这些表达式编译到您选择的后端(CPU或GPU)。
代码贡献者数量:119(增长了3.5%),代码提交次数:7119,Github URL:http://github.com/lisa-lab/pylearn2


No.12 NuPIC

是一个基于新皮质理论的开源项目,因此也被称为分级时间记忆(HTM)。HTM理论的部分内容已经在实际应用中被实践、测试和使用,并且HTM理论中的其他部分也仍在被发展中。
代码贡献者数量:85(增长了12% ),代码提交次数:6588,Github URL:http://github.com/numenta/nupic
机器1111.png

No.13 Neon

是Nervana开发的基于Python语言的深度学习库。它在提供便利的同时,也在传送最高的性能。
代码贡献者数量:78(增长了66%),代码提交次数:1112,Github URL:https://github.com/NervanaSystems/neon
机器12.jpg

No.14 Nilearn

是一个Python模块,主要用于神经影像数据快速而简单的统计学习。它主要将scikit-learn Python工具箱用于多元统计,并结合相关诸如预测建模,分类,解码,或连通性分析等的应用程序。
代码贡献者数量:69(增长了50%),代码提交次数:6198,Github URL:http://github.com/nilearn/nilearn 机器13.png

No.15 Orange3

是为新手和专家专门准备的开源机器学习和数据可视化工具。Orange3具有大工具箱的交互式数据分析功能。
代码贡献者数量:53(增长了33%),代码提交次数:8915,Github URL:https://github.com/biolab/orange3
机器14.jpg

No.16 Pymc

是一个python工具包,实现了贝叶斯统计模型和拟合算法,包括马可夫链、蒙特卡罗。它的灵活性和可拓展性可以适应很多的场景。
代码贡献者数量:39(增长了5.4%),代码提交次数:2721,Github URL:https://github.com/pymc-devs/pymc
机器15.jpg

No.17 Deap

是一个被用于快速原型设计和思想测试的新型的演化计算框架。它试图使算法变得明确,数据结构变得透明,它与multiprocessing和SCOOP等并行机制完美协调。
代码贡献者数量:39(增长了86%),代码提交次数:1960,Github URL:https://github.com/deap/deap
机器16.png

No18 Annoy(Approximate Nearest Neighbors Oh Yeah)

是一个带Python绑定的C ++库,用于搜索接近给定查询点的空间点.它也创建映射到内存的大型只读文件数据结构,这样许多进程可以共享相同的数据。
代码贡献者数量:35(增长了46%),代码提交次数:527,Github URL:https://github.com/spotify/annoy
机器17.png

No.19 PyBrain

是一个基于Python的模块化机器学习库,其目标是为机器学习任务提供灵活的、容易使用的、但仍有效的算法,以及各种预定义环境进行测试和比较。
代码贡献者数量:32(增长了3%),代码提交次数:992,Github URL:http://github.com/pybrain/pybrain
机器18.jpg

No.20 Fuel

是一个数据管道框架,它为机器学习模型提供其所需的数据。Fuel将被计划用于Block和Pylearn2神经网络库。
代码贡献者数量:32(增长了10%),代码提交次数:1116,Github URL:http://github.com/mila-udem/fuel

个人工具
名字空间
操作
导航
工具箱