awesome-machine-learning
awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。
它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。
其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。
使用场景
某初创公司的算法团队需要在两周内为电商客户构建一个基于用户行为的推荐系统原型,但团队成员对 Python 以外的语言(如 Go 和 C++)生态不够熟悉。
没有 awesome-machine-learning 时
- 搜索效率极低:工程师在 GitHub 上盲目关键词搜索,花费大量时间筛选出大量过时、文档缺失或已停止维护的仓库。
- 技术选型风险高:难以判断哪些库支持最新的深度学习框架,容易选错工具导致后期重构,甚至引入不再更新的“僵尸项目”。
- 学习资源分散:寻找配套的教程、免费书籍和行业会议信息需要跨多个平台检索,严重挤占了核心代码开发时间。
- 语言生态盲区:团队想尝试用 Go 语言提升推理性能,却因找不到靠谱的 NLP 或通用机器学习库而被迫放弃,只能退回熟悉的 Python 栈。
使用 awesome-machine-learning 后
- 精准锁定优质库:直接查阅按语言分类的清单,快速定位到经过社区验证、活跃维护的 Go 和 C++ 机器学习库,大幅缩短调研周期。
- 规避废弃项目:利用列表中明确的“已弃用”标记和最后提交时间提示,自动过滤掉不稳定的依赖,确保技术栈的长期可靠性。
- 一站式获取资源:通过内置链接直接访问免费的经典教材、在线课程及行业博客,团队成员能迅速补齐特定领域的理论知识。
- 拓展技术边界:发现 Clojure 和 Elixir 等小众语言也有成熟的深度学习方案,激发了团队多语言混合架构的灵感,提升了系统性能。
awesome-machine-learning 将原本数周的碎片化调研工作压缩至几天,让团队能专注于核心算法创新而非重复造轮子。
运行环境要求
未说明
未说明

快速开始
令人惊叹的机器学习

一份精心整理的、按语言分类的优秀机器学习框架、库和软件清单。灵感来源于 awesome-php。
如果您想为本列表贡献力量(请务必这样做),可以向我发送拉取请求,或通过 @josephmisiti 联系我。 此外,如果出现以下情况,被列出的仓库应被视为已弃用:
- 仓库所有者明确表示“该库不再维护”。
- 长时间未进行提交(2~3年)。
更多资源:
如需免费可下载的机器学习书籍列表,请访问 这里。
如需专业机器学习活动的列表,请访问 这里。
如需(大部分)免费的在线机器学习课程列表,请访问 这里。
如需数据科学和机器学习相关的博客与新闻通讯列表,请访问 这里。
如需免费参加的线下聚会和本地活动列表,请访问 这里。
目录
框架和库
- Awesome 机器学习
工具
APL
通用机器学习
- naive-apl - APL 中的朴素贝叶斯分类器实现。[已弃用]
C
通用机器学习
- Darknet - Darknet 是一个用 C 语言和 CUDA 编写的开源神经网络框架。它速度快、易于安装,并支持 CPU 和 GPU 计算。
- Recommender - 一个使用协同过滤(CF)进行产品推荐/建议的 C 语言库。
- Hybrid Recommender System - 基于 scikit-learn 算法的混合推荐系统。[已弃用]
- neonrvm - neonrvm 是一个基于 RVM 技术的开源机器学习库,使用 C 语言编写,并提供 Python 语言绑定。
- cONNXr - 一个纯 C (99) 编写的
ONNX运行时,无任何依赖,专注于小型嵌入式设备。无论你使用哪种框架训练模型,都可以在你的设备上运行推理。安装简单,可在任何地方编译,甚至在非常老旧的设备上也能运行。 - libonnx - 一个轻量级、可移植的纯 C99 ONNX 推理引擎,适用于具有硬件加速支持的嵌入式设备。
- onnx-c - 一个轻量级的 C 语言库,用于 ONNX 模型推理,针对性能和跨平台可移植性进行了优化。
- qsmm - 一个 C 语言库,实现了用于处理自适应概率汇编程序的工具链的基本功能。
计算机视觉
- CCV - 基于 C 的缓存核心计算机视觉库,一个现代的计算机视觉库。
- VLFeat - VLFeat 是一个开放且可移植的计算机视觉算法库,附带 Matlab 工具箱。
- YOLOv8 - Ultralytics 的 YOLOv8 实现,支持 C++,用于实时目标检测和跟踪,专为边缘设备优化。
- SpecX - 专门用于从 PDF/JPG 中提取工程规格并转换为 Excel 的 AI 视觉工具。
C++
计算机视觉
- DLib - DLib 提供 C++ 和 Python 接口,用于人脸检测以及通用目标检测器的训练。
- EBLearn - Eblearn 是一个面向对象的 C++ 库,实现了多种机器学习模型 [已弃用]
- OpenCV - OpenCV 提供 C++、C、Python、Java 和 MATLAB 接口,支持 Windows、Linux、Android 和 Mac OS。
- VIGRA - VIGRA 是一个通用的跨平台 C++ 计算机视觉和机器学习库,适用于任意维度的数据集,并提供 Python 绑定。
- Openpose - 一个实时多人关键点检测库,用于人体、面部、手部和脚部姿态估计。
通用机器学习
- Agentic Context Engine - 一种基于上下文的学习框架,允许智能体从执行反馈中学习。
- Speedster - 自动应用最先进的优化技术,以在您的硬件上实现最大的推理加速。[深度学习]
- BanditLib - 一个简单的多臂老虎机库。[已弃用]
- Caffe - 一个以简洁、可读性和速度为核心开发的深度学习框架。[深度学习]
- CatBoost - 一个通用的梯度提升树库,开箱即支持分类特征。它易于安装,具有快速的推理实现,并支持CPU和GPU(甚至多GPU)计算。
- CNTK - 微软研究院的计算网络工具包(CNTK),是一个统一的深度学习工具包,通过有向图将神经网络描述为一系列计算步骤。
- CUDA - 这是一个快速的C++/CUDA卷积实现。[深度学习]
- DeepDetect - 一个用C++11编写的机器学习API和服务器。它使最先进的机器学习技术易于使用并集成到现有应用程序中。
- 分布式机器学习工具包(DMTK) - 微软推出的分布式机器学习(参数服务器)框架。能够在多台机器上对大规模数据集进行模型训练。当前包含的工具包括:LightLDA和分布式(多感官)词嵌入。
- DLib - 一套旨在易于嵌入其他应用的机器学习工具。
- DSSTNE - 亚马逊开发的一个用于使用GPU训练和部署深度神经网络的软件库,强调速度和规模而非实验灵活性。
- DyNet - 一个动态神经网络库,适用于每轮训练结构都会变化的网络。用C++编写,并提供Python绑定。
- Fido - 一个高度模块化的C++机器学习库,专为嵌入式电子设备和机器人设计。
- FlexML - 一个易于使用且灵活的Python自动机器学习库。
- igraph - 一个通用的图库。
- 英特尔® oneAPI 数据分析库 - 由英特尔开发并针对其架构优化的高性能软件库。该库提供了数据分析各个阶段的算法构建块,支持批量、在线和分布式模式的数据处理。
- LightGBM - 微软推出的一种快速、分布式、高性能的梯度提升框架(GBDT、GBRT、GBM或MART),基于决策树算法,用于排序、分类及许多其他机器学习任务。
- libfm - 一种通用方法,可通过特征工程模拟大多数因子分解模型。
- MCGrad - 一个可用于生产环境的库,用于机器学习模型的多校准、公平性和偏差纠正。
- MLDB - 机器学习数据库是一个专为机器学习设计的数据库。通过RESTful API发送命令来存储数据,使用SQL探索数据,然后训练机器学习模型并将它们作为API公开。
- mlpack - 一个可扩展的C++机器学习库。
- MXNet - 轻量级、可移植、灵活的分布式/移动深度学习框架,具有动态、支持突变的数据流依赖调度器;支持Python、R、Julia、Go、JavaScript等多种语言。
- N2D2 - CEA-List的CAD框架,用于设计和仿真深度神经网络,并在嵌入式平台上构建完整的基于DNN的应用程序。
- oneDNN - 一个开源的跨平台性能库,专为深度学习应用设计。
- Opik - 一个开源的工程平台,用于调试、评估和监控您的LLM应用、RAG系统和智能体工作流,提供全面的追踪、自动化评估和生产就绪的仪表板。(源代码)
- ParaMonte - 一个通用库,提供C/C++接口,用于通过串行/并行蒙特卡洛和MCMC模拟进行贝叶斯数据分析和可视化。文档可在此处找到。
- proNet-core - 一个通用的网络嵌入框架:成对表示优化网络编辑。
- PyCaret - 一个开源的低代码机器学习库,用Python实现机器学习流程的自动化。
- PyCUDA - CUDA的Python接口
- ROOT - 一个模块化的科学软件框架。它提供了处理大数据、统计分析、可视化和存储所需的所有功能。
- shark - 一个快速、模块化、功能丰富的开源C++机器学习库。
- Shogun - Shogun机器学习工具箱。
- sofia-ml - 一套快速的增量算法。
- Stan - 一个概率编程语言,实现了基于哈密顿蒙特卡洛采样的完整贝叶斯统计推断。
- Timbl - 一个软件包/C++库,实现了多种基于内存的学习算法,其中包括IB1-IG——一种最近邻分类的实现,以及IGTree——IB1-IG的决策树近似。常用于自然语言处理。
- Vowpal Wabbit (VW) - 一个快速的外存学习系统。
- Warp-CTC - 在CPU和GPU上都实现了快速的并行连接时序分类(CTC)。
- XGBoost - 一个并行优化的通用梯度提升库。
- ThunderGBM - 一个用于GPU上的GBDT和随机森林的快速库。
- ThunderSVM - 一个在GPU和CPU上运行的快速SVM库。
- LKYDeepNN - 一个仅包含头文件的C++11神经网络库。依赖性低,原生繁体中文文档。
- xLearn - 一个高性能、易用且可扩展的机器学习包,可用于解决大规模机器学习问题。xLearn尤其适用于处理大规模稀疏数据的机器学习问题,这类数据在在线广告和推荐系统等互联网服务中非常常见。
- Featuretools - 一个用于自动化特征工程的库。它擅长将事务型和关系型数据集转换为可用于机器学习的特征矩阵,利用可重用的特征工程“基元”。
- skynet - 一个用于训练神经网络的库,具有C接口,网络配置以JSON格式定义。用C++编写,并提供Python、C++和C#绑定。
- Feast - 一个用于管理、发现和访问机器学习特征的特征存储库。Feast为模型训练和模型服务提供一致的特征数据视图。
- Hopsworks - 一个数据密集型AI平台,拥有业界首个开源特征存储库。Hopsworks特征存储既是一个基于Apache Hive的用于训练和批处理的特征仓库,也是一个基于MySQL Cluster的用于在线应用的特征服务数据库。
- Polyaxon - 一个用于可重复且可扩展的机器学习和深度学习的平台。
- QuestDB - 一个面向列的关系型数据库,专为时间序列和事件数据的实时分析而设计。
- Phoenix - 发现洞察、识别问题、监控并微调您的生成式LLM、CV和表格模型。
- XAD - 一个功能全面的C++反向传播工具。
- Truss - 一个用于打包和部署机器学习模型的开源框架。
- nndeploy - 一个易于使用且高性能的AI部署框架。
自然语言处理
- BLLIP Parser - BLLIP 自然语言解析器(也称为 Charniak-Johnson 解析器)。
- colibri-core - C++ 库、命令行工具及 Python 绑定,用于以快速且内存高效的方式提取和处理 n-gram 和 skipgram 等基本语言结构。
- CRF++ - 用于序列数据分割/标注及其他自然语言处理任务的条件随机场(CRFs)开源实现。[已弃用]
- CRFsuite - CRFsuite 是用于标注序列数据的条件随机场(CRFs)实现。[已弃用]
- frog - 面向荷兰语开发的基于记忆的 NLP 工具集:词性标注器、词形还原器、依存句法分析器、命名实体识别器、浅层句法分析器、形态分析器。
- libfolia - 用于 FoLiA 格式 的 C++ 库。
- MeTA - MeTA : ModErn Text Analysis 是一个 C++ 数据科学工具包,便于挖掘大规模文本数据。
- MIT 信息抽取工具包 - 用于命名实体识别和关系抽取的 C、C++ 和 Python 工具。
- ucto - 适用于多种语言的 Unicode 感知正则表达式分词器。同时提供工具和 C++ 库,支持 FoLiA 格式。
- SentencePiece - 用于无监督文本分词和去分词的 C++ 库,广泛应用于现代 NLP 模型。
语音识别
- Kaldi - Kaldi 是一个用 C++ 编写的语音识别工具包,采用 Apache License v2.0 许可证。Kaldi 主要面向语音识别研究人员使用。
- Vosk - 一款支持 C++ 的离线语音识别工具包,专为低资源设备和多语言环境设计。
序列分析
- ToPS - 这是一个面向对象的框架,便于将概率模型集成到用户自定义字母表上的序列中。[已弃用]
手势检测
- grt - 手势识别工具包(GRT)是一个跨平台、开源的 C++ 机器学习库,专为实时手势识别而设计。
强化学习
- RLtools - 最快的连续控制深度强化学习库,完全用纯 C++ 实现,无需依赖,并采用头文件方式提供(同时也提供 Python 绑定)。
Common Lisp
通用机器学习
- mgl - 神经网络(玻尔兹曼机、前馈网络和循环网络)、高斯过程。
- mgl-gpr - 进化算法。[已弃用]
- cl-libsvm - libsvm 支持向量机库的封装。[已弃用]
- cl-online-learning - 在线学习算法(感知器、AROW、SCW、逻辑回归)。
- cl-random-forest - 在 Common Lisp 中实现的随机森林。
Clojure
自然语言处理
- Clojure-openNLP - 在 Clojure 中使用 opennlp 进行自然语言处理。
- Infections-clj - 类似于 Rails 的动词变位库,适用于 Clojure 和 ClojureScript。
通用机器学习
- scicloj.ml - 基于 tech.ml.dataset 的惯用 Clojure 机器学习库,采用独特的不可变数据处理管道方法。
- clj-ml - 构建在 Weka 及其相关工具之上的 Clojure 机器学习库。
- clj-boost - XGBoost 的封装库。
- Touchstone - Clojure A/B 测试库。
- Clojush - 用 Clojure 实现的 Push 编程语言及 PushGP 遗传编程系统。
- lambda-ml - Clojure 中简单、简洁的机器学习技术和工具实现。
- Infer - Clojure 中的推理与机器学习。[已弃用]
- Encog - Encog(v3)的 Clojure 封装(专注于神经网络的机器学习框架)。[已弃用]
- Fungp - Clojure 的遗传编程库。[已弃用]
- Statistiker - Clojure 中的基础机器学习算法。[已弃用]
- clortex - 使用 Numenta 的皮层学习算法的通用机器学习库。[已弃用]
- comportex - 使用 Numenta 的皮层学习算法的功能组合式机器学习库。[已弃用]
深度学习
- MXNet - Apache MXNet 的绑定,属于 MXNet 项目的一部分。
- Deep Diamond - 快速的 Clojure 张量与深度学习库。
- jutsu.ai - deeplearning4j 的 Clojure 封装,并添加了一些语法糖。
- cortex - Clojure 中的神经网络、回归和特征学习。
- Flare - Clojure 中的动态张量图库(类似 PyTorch、DynNet 等)。
- dl4clj - Deeplearning4j 的 Clojure 封装。
数据分析与数据可视化
- tech.ml.dataset - Clojure 数据框库及用于数据处理和机器学习的管道。
- Tablecloth - 基于 tech.ml.dataset 的数据框语法,受多个 R 库启发。
- Panthera - 包装 Python Pandas 库的 Clojure API。
- Incanter - 基于 Clojure 的类 R 平台,用于统计计算和图形绘制。
- PigPen - 适用于 Clojure 的 Map-Reduce 框架。
- Geni - 运行在 Apache Spark 上的 Clojure 数据框库。
数据可视化
- Hanami - 基于 Vega-Lite (VGL) 和/或 Vega (VG) 规范的 Clojure(Script) 库和框架,用于创建交互式可视化应用。具有自动布局和强大的模板系统,可抽象化可视化规范。
- Saite - Clojure(Script) 客户端/服务器应用程序,用于动态交互式探索,并使用 Vega/Vega-Lite、CodeMirror、Markdown 和 LaTeX 创建可共享的实时文档。
- Oz - 使用 Vega/Vega-Lite 和 Hiccup 进行数据可视化,并提供文学编程的实时重载平台。
- Envision - 基于 Statistiker 和 D3 的 Clojure 数据可视化库。
- Pink Gorilla Notebook - 基于 Gorilla-REPL 的 Clojure/Clojurescript 笔记本应用/库。
- clojupyter - Clojure 的 Jupyter 内核,可在 Jupyter Lab、Notebook 和 Console 中运行 Clojure 代码。
- notespace - 在你的 Clojure 命名空间中体验笔记本环境。
- Delight - 一个监听器,将你的 Spark 事件日志流式传输到 Delight,一个免费且改进的 Spark UI。
互操作性
- Java 互操作 - Clojure 具有原生 Java 互操作能力,可以访问 Java 的机器学习生态系统。
- JavaScript 互操作 - ClojureScript 具有原生 JavaScript 互操作能力,可以访问 JavaScript 的机器学习生态系统。
- Libpython-clj - 与 Python 的互操作。
- ClojisR - 与 R 和 Renjin(JVM 上的 R)的互操作。
其他
- Neanderthal - 高性能 Clojure 矩阵库(支持原生 CPU、GPU、OpenCL、CUDA)。
- kixistats - 一组用于统计分布采样和转换的函数库。
- fastmath - 一系列用于数学、统计计算、机器学习等的函数集合,封装了多个 JVM 库。
- matlib - 基于 Neanderthal 的优化和控制理论工具及便利函数的 Clojure 库。
补充
- Scicloj - 精选的 Clojure 机器学习相关资源列表。
Crystal
通用机器学习
- machine - 简单的机器学习算法。
- crystal-fann - FANN(快速人工神经网络)的绑定。
CUDA PTX
神经符号人工智能
- Knowledge3D (K3D) - 自主的GPU原生空间AI架构,配备PTX优先的认知引擎(RPN/TRM推理)、三模态融合(文本/视觉/音频)以及3D持久化内存(“Houses”)。具有100微秒以下的推理速度、程序化知识压缩(69:1压缩比)和多智能体群体架构。核心推理路径无需任何外部依赖。
Elixir
通用机器学习
- Simple Bayes - Elixir中的简单贝叶斯/朴素贝叶斯实现。
- emel - 用Elixir编写的简单且功能齐全的机器学习库。
- Tensorflex - Elixir编程语言的TensorFlow绑定。
自然语言处理
- Stemmer - Elixir中的英语(Porter2)词干提取实现。
Erlang
通用机器学习
- Disco - Erlang中的Map Reduce。[已弃用]
Fortran
通用机器学习
- neural-fortran - 一个并行神经网络微型框架。 论文请见这里。
数据分析/数据可视化
Go
自然语言处理
- Cybertron - Cybertron:变形金刚的故乡,用Go语言实现。
- snowball - Snowball词干提取器,适用于Go语言。
- word-embedding - 词嵌入:Word2Vec和GloVe的完整Go语言实现。
- sentences - Punkt句子分隔工具的Go语言实现。
- go-ngram - 带有压缩功能的内存中n-gram索引。[已弃用]
- paicehusk - Paice/Husk词干提取算法的Go语言实现。[已弃用]
- go-porterstemmer - Porter词干提取算法的原生Go语言纯代码实现。[已弃用]
通用机器学习
- Spago - 自包含的Go语言机器学习与自然语言处理库。
- birdland - Go语言推荐库。
- eaopt - 进化优化库。
- leaves - GBRTs预测部分的纯Go语言实现,包括XGBoost和LightGBM。
- gobrain - 用Go语言编写的神经网络。
- go-featureprocessing - 面向低延迟机器学习的快速便捷特征处理工具。
- go-mxnet-predictor - MXNet c_predict_api的Go绑定,用于对预训练模型进行推理。
- go-ml-benchmarks — Go语言机器学习推理性能基准测试。
- go-ml-transpiler - 开源的机器学习模型Go语言转译器。
- golearn - Go语言机器学习库。
- goml - 纯Go语言编写的机器学习库。
- gorgonia - Go语言深度学习框架。
- goro - 类似Keras风格的高级机器学习库。
- gorse - 基于协同过滤的离线推荐系统后端,使用Go语言编写。
- therfoo - 适用于Go语言的嵌入式深度学习库。
- neat - 即插即用、并行化的Go语言NeuroEvolution of Augmenting Topologies(NEAT)框架。[已弃用]
- go-pr - Go语言模式识别包。[已弃用]
- go-ml - 线性/逻辑回归、神经网络、协同过滤及多元高斯分布。[已弃用]
- GoNN - GoNN是用Go语言实现的神经网络,包括BPNN、RBF、PCN。[已弃用]
- bayesian - Golang朴素贝叶斯分类器。[已弃用]
- go-galib - 用Go/Golang编写的遗传算法库。[已弃用]
- Cloudforest - Go/Golang决策树集成。[已弃用]
- go-dnn - Golang深度神经网络(基于MXNet)。
空间分析与几何
数据分析/数据可视化
- dataframe-go - 用于机器学习和统计的数据框(类似于pandas)。
- gota - 数据框。
- gonum/mat - Go语言线性代数包。
- gonum/optimize - 优化算法实现。
- gonum/plot - 绘图库。
- gonum/stat - 统计学库。
- SVGo - 用于生成SVG的Go语言库。
- glot - 基于gnuplot构建的Golang绘图库。
- globe - 地球线框可视化。
- gonum/graph - 通用图论库。
- go-graph - Go/Golang语言的图论库。[已弃用]
- RF - Go语言随机森林实现。[已弃用]
计算机视觉
- GoCV - 使用OpenCV 4及以上版本的计算机视觉包。
强化学习
- gold - 强化学习库。
- stable-baselines3 - Stable Baselines强化学习算法的PyTorch实现。
Haskell
通用机器学习
- haskell-ml - Haskell多种机器学习算法的实现。[已弃用]
- HLearn - 一套根据机器学习模型的代数结构来解释其行为的库。[已弃用]
- hnn - Haskell神经网络库。
- hopfield-networks - Haskell无监督学习中的Hopfield网络。[已弃用]
- DNNGraph - 深度神经网络的DSL。[已弃用]
- LambdaNet - 可配置的Haskell神经网络。[已弃用]
Java
自然语言处理
- Cortical.io - Retina:一个执行复杂自然语言处理操作(消歧义、分类、流式文本过滤等)的API,其速度和直观性堪比人脑。
- IRIS - Cortical.io 的免费 NLP Retina API 分析工具(使用 JavaFX 编写!)- 观看教程视频。
- CoreNLP - 斯坦福 CoreNLP 提供了一套自然语言分析工具,能够接收原始英文文本输入,并给出单词的基本形式。
- 斯坦福句法分析器 - 自然语言句法分析器是一种用于确定句子语法结构的程序。
- 斯坦福词性标注器 - 一种词性标注工具(POS 标注器)。
- 斯坦福命名实体识别器 - 斯坦福 NER 是一个基于 Java 的命名实体识别器实现。
- 斯坦福分词器 - 对原始文本进行分词是许多自然语言处理任务的标准预处理步骤。
- Tregex、Tsurgeon 和 Semgrex - Tregex 是一种基于树形关系和节点上的正则表达式匹配来在树中查找模式的工具(其名称是“tree regular expressions”的缩写)。
- 斯坦福 Phrasal:基于短语的机器翻译系统
- 斯坦福英语分词器 - 斯坦福 Phrasal 是一个最先进的基于统计的短语式机器翻译系统,使用 Java 编写。
- 斯坦福分词正则表达式 - 分词器会将文本分割成一系列标记,这些标记大致对应于“词”。
- 斯坦福时间标注器 - SUTime 是一个用于识别和规范化时间表达式的库。
- 斯坦福 SPIED - 通过迭代方式利用模式从无标签文本中学习实体,起始于种子集合。
- Twitter Text Java - Twitter 文本处理库的 Java 实现。
- MALLET - 一个基于 Java 的软件包,用于统计自然语言处理、文档分类、聚类、主题建模、信息抽取以及其他文本相关的机器学习应用。
- OpenNLP - 一个基于机器学习的工具包,用于处理自然语言文本。
- LingPipe - 一个使用计算语言学处理文本的工具包。
- ClearTK - ClearTK 提供了一个框架,用于在 Java 中开发统计自然语言处理(NLP)组件,并构建在 Apache UIMA 之上。[已弃用]
- Apache cTAKES - Apache 临床文本分析与知识提取系统(cTAKES)是一个开源的自然语言处理系统,用于从电子病历中的自由文本中提取信息。
- NLP4J - NLP4J 项目提供自然语言处理的软件和资源。该项目最初由计算语言与教育研究中心发起,目前由埃默里大学语言与信息研究中心开发。[已弃用]
- CogcompNLP - 该项目收集了伊利诺伊大学认知计算小组开发的多个自然语言处理核心库,例如
illinois-core-utilities,它提供了一系列适合 NLP 的数据结构以及多种支持编写 NLP 应用程序、运行实验等的实用工具;还有illinois-edison,这是一个从illinois-core-utilities数据结构中提取特征的库,以及其他许多软件包。
通用机器学习
- aerosolve - Airbnb 开发的机器学习库,从设计之初就注重易用性。
- AMIDST Toolbox - 用于可扩展概率机器学习的 Java 工具箱。
- Chips-n-Salsa - 一个专注于自适应/自调优以及并行执行的 Java 库,适用于遗传算法、进化计算和随机局部搜索。
- Datumbox - 用于快速开发机器学习和统计应用的机器学习框架。
- ELKI - 用于数据挖掘的 Java 工具包。(无监督:聚类、异常检测等)
- Encog - 一个先进的神经网络和机器学习框架。Encog 包含用于创建各种网络的类,以及用于对这些神经网络的数据进行归一化和预处理的支持类。Encog 使用多线程弹性传播算法进行训练,并且还可以利用 GPU 进一步加速处理速度。此外,还提供了一个基于 GUI 的工作台,以帮助构建和训练神经网络。
- Apache Flink 中的 FlinkML - Flink 中的分布式机器学习库。
- H2O - 一个支持通过 R、Python、Scala、REST/JSON 等 API 在 Hadoop、Spark 或本地笔记本上进行分布式学习的机器学习引擎。
- htm.java - 基于 Numenta 皮层学习算法的通用机器学习库。
- jSciPy - SciPy 信号处理模块的 Java 移植版,提供滤波器、变换及其他科学计算工具。
- liblinear-java - liblinear 的 Java 版本。
- Mahout - 分布式机器学习。
- Meka - 多标签分类与评估方法的开源实现(Weka 的扩展)。
- Apache Spark 中的 MLlib - Spark 中的分布式机器学习库。
- Hydrosphere Mist - 一个用于将 Apache Spark MLLib 机器学习模型部署为实时、批处理或响应式 Web 服务的服务。
- Neuroph - Neuroph 是一个轻量级的 Java 神经网络框架。
- ORYX - 基于 Apache Spark 和 Apache Kafka 的 Lambda 架构框架,专门用于实时大规模机器学习。
- Samoa SAMOA 是一个包含面向数据流的分布式机器学习的框架,具有可插拔不同流处理平台的接口。
- RankLib - RankLib 是一个排序学习算法库。[已弃用]
- rapaio - 一个用于统计、数据挖掘和机器学习的 Java 工具箱。
- RapidMiner - RapidMiner 可集成到 Java 代码中。
- Stanford Classifier - 分类器是一种机器学习工具,能够将数据项分配到 k 个类别中的一个。
- Smile - 统计机器智能与学习引擎。
- SystemML - 一种灵活、可扩展的机器学习 (ML) 语言。
- Tribou - 由 Oracle 用 Java 编写的机器学习库。
- Weka - Weka 是一组用于数据挖掘任务的机器学习算法集合。
- LBJava - 基于学习的 Java 是一种用于快速开发软件系统的建模语言,它提供了一种便捷的声明式语法,可以直接用程序员应用程序中的对象来定义分类器和约束条件。
- knn-java-library - 仅是一个使用多种相似度度量的 K 最近邻算法的简单实现。
语音识别
- CMU Sphinx - 完全基于 Java 的开源语音识别工具包。
数据分析 / 数据可视化
- Flink - 一个用于分布式流式和批处理数据的开源平台。
- Hadoop - Hadoop/HDFS。
- Onyx - 一个完全用 Clojure 编写的分布式、无主节点、高性能、容错的数据处理系统。
- Spark - Spark 是一个用于大规模数据处理的快速通用引擎。
- Storm - Storm 是一个分布式实时计算系统。
- Impala - 用于 Hadoop 的实时查询。
- DataMelt - 用于数值计算、统计、符号计算、数据分析和数据可视化的数学软件。
- 迈克尔·托马斯·弗拉纳根博士的 Java 科学库 [已弃用]
深度学习
- Deeplearning4j - 面向工业界的可扩展深度学习,支持并行 GPU 加速。
- Keras 初学者教程 - 一份关于如何使用 Keras 在 Python 中实现简单神经网络的友好指南。
- deepjavalibrary/djl - 深度 Java 库 (DJL) 是一个开源、高级、与具体引擎无关的 Java 深度学习框架,旨在让 Java 开发人员易于上手且使用简单。
JavaScript
自然语言处理
- Twitter-text - Twitter 文本处理库的 JavaScript 实现。
- natural - Node.js 平台上的通用自然语言处理工具。
- Knwl.js - 一个基于 JS 的自然语言处理器。
- Retext - 一个可扩展的自然语言分析和操作系统。
- NLP Compromise - 浏览器端的自然语言处理。
- nlp.js - 一个基于 Natural 构建的 NLP 库,具备实体提取、情感分析、自动语言识别等功能。
数据分析 / 数据可视化
- D3.js
- High Charts
- NVD3.js
- dc.js
- chartjs
- dimple
- amCharts
- D3xter - 基于 D3 的简单绘图工具。[已弃用]
- statkit - JavaScript 统计工具包。[已弃用]
- datakit - 用于 JavaScript 数据分析的轻量级框架
- science.js - JavaScript 中的科学与统计计算。[已弃用]
- Z3d - 基于 Three.js 轻松创建交互式 3D 图表 [已弃用]
- Sigma.js - 专用于图谱绘制的 JavaScript 库。
- C3.js - 基于 D3.js 的可定制图表库,易于使用。
- Datamaps - 使用 D3.js 构建的可定制 SVG 地图/地理可视化工具。[已弃用]
- ZingChart - 基于原生 JavaScript 的大数据可视化库。
- cheminfo - 基于 visualizer 项目的数据可视化与分析平台。
- Learn JS Data
- AnyChart
- FusionCharts
- Nivo - 构建在强大的 d3 和 React.js 库之上
通用机器学习
- Auto ML - 自动化机器学习,用于竞赛和探索的数据格式化、集成学习及超参数优化——只需提供一个CSV文件即可![已弃用]
- Catniff - 类似PyTorch的JavaScript深度学习框架,支持张量、自动微分、优化器及其他神经网络组件。
- Convnet.js - ConvNetJS是一个用于训练深度学习模型的JavaScript库[深度学习] [已弃用]
- Creatify MCP - 一种模型上下文协议服务器,将Creatify AI的视频生成能力开放给AI助手,从而实现自然语言驱动的视频创作流程。
- Clusterfck - 使用JavaScript实现的凝聚层次聚类算法,适用于Node.js和浏览器。[已弃用]
- Clustering.js - 在Node.js和浏览器中实现的聚类算法。[已弃用]
- Decision Trees - 基于ID3算法的Node.js决策树实现。[已弃用]
- DN2A - 数字神经网络架构。[已弃用]
- figue - K均值、模糊C均值及凝聚聚类算法。
- Gaussian Mixture Model - 基于多变量高斯混合模型的无监督机器学习。
- Node-fann - FANN(快速人工神经网络库)的Node.js绑定 [已弃用]
- Keras.js - 在浏览器中运行Keras模型,并通过WebGL 2提供GPU加速。
- Kmeans.js - 简单的JavaScript实现的k均值算法,适用于Node.js和浏览器。[已弃用]
- LDA.js - Node.js中的LDA主题建模
- Learning.js - JavaScript实现的逻辑回归/C4.5决策树 [已弃用]
- machinelearn.js - 面向Web、Node.js及开发者的机器学习库
- mil-tokyo - 若干机器学习库的列表。
- Node-SVM - Node.js中的支持向量机
- Brain - JavaScript中的神经网络 [已弃用]
- Brain.js - JavaScript中的神经网络——Brain的社区延续分支。
- Bayesian-Bandit - Node.js和浏览器上的贝叶斯多臂老虎机实现。[已弃用]
- Synaptic - 不依赖特定架构的神经网络库,适用于Node.js和浏览器。
- kNear - JavaScript实现的k近邻算法,用于监督学习。
- NeuralN - C++编写的Node.js神经网络库。在处理大规模数据集和多线程训练方面具有优势。[已弃用]
- kalman - JavaScript中的卡尔曼滤波器。[已弃用]
- shaman - 一个支持简单和多元线性回归的Node.js库。[已弃用]
- ml.js - 面向Node.js和浏览器的机器学习与数值分析工具!
- ml5 - 友好的Web端机器学习库!
- Pavlov.js - 基于马尔可夫决策过程的强化学习。
- MXNet - 轻量级、可移植、灵活的分布式/移动深度学习框架,配备动态且能感知突变的数据流调度器;支持Python、R、Julia、Go、JavaScript等多种语言。
- TensorFlow.js - 一个基于WebGL加速的浏览器端JavaScript库,用于训练和部署机器学习模型。
- JSMLT - 一个包含分类和聚类功能的Node.js机器学习工具包;支持可视化(参见visualml.io)。
- xgboost-node - 在Node.js中运行XGBoost模型并进行预测。
- Netron - 机器学习模型的可视化工具。
- tensor-js - 一个基于WebGL和WebAssembly加速的浏览器端深度学习库。
- WebDNN - 快速深度神经网络JavaScript框架。WebDNN使用下一代JavaScript API、WebGPU进行GPU计算,以及WebAssembly进行CPU计算。
- WebNN - 一种新的Web标准,允许Web应用和框架利用设备端硬件(如GPU、CPU或专用AI加速器)加速深度神经网络。
- Kandle - 一个原生JavaScript的PyTorch兼容机器学习框架,完全基于WebGPU从零构建。
其他
- stdlib - JavaScript和Node.js的标准库,专注于数值计算。该库提供了一系列强大且高性能的数学、统计、流处理、实用工具等库。
- sylvester - JavaScript中的向量和矩阵数学。[已弃用]
- simple-statistics - JavaScript实现的描述性、回归和推断统计。采用无依赖的文学式JavaScript编写,旨在兼容所有现代浏览器(包括IE)以及Node.js。
- regression-js - 包含一系列最小二乘拟合方法的JavaScript库,用于在数据集中寻找趋势。
- Lyric - 线性回归库。[已弃用]
- GreatCircle - 计算大圆距离的库。
- MLPleaseHelp - MLPleaseHelp是一个简单的机器学习资源搜索引擎。您现在可以通过GitHub Pages访问该搜索引擎:https://jgreenemi.github.io/MLPleaseHelp/。
- Pipcook - 一个面向机器学习及其工程应用的JavaScript应用框架。
演示与脚本
- The Bot - 使用Synaptic创建的神经网络学习预测两点之间角度的示例。
- Half Beer - 使用Synaptic创建的啤酒杯分类器。
- NSFWJS - 基于TensorFlow.js的不雅内容检测工具。
- Rock Paper Scissors - 使用TensorFlow.js在浏览器中训练的石头剪刀布游戏。
- Heroes Wear Masks - 一个有趣的基于TensorFlow.js的预言机,可以判断用户是否佩戴了口罩,甚至能识别出佩戴方式是否正确。
Julia
通用机器学习
- MachineLearning - Julia机器学习库。[已弃用]
- MLBase - 一组用于支持机器学习算法开发的函数。
- PGM - 用于概率图模型的Julia框架。
- DA - 用于正则化判别分析的Julia包。
- Regression - 用于回归分析的算法(例如线性回归和逻辑回归)。[已弃用]
- Local Regression - 局部回归,非常平滑!
- Naive Bayes - Julia中的简单朴素贝叶斯实现。[已弃用]
- Mixed Models - 用于拟合混合效应模型的Julia包。
- Simple MCMC - 在Julia中实现的基本MCMC采样器。[已弃用]
- Distances - 用于距离计算的Julia模块。
- Decision Tree - 决策树分类器和回归器。
- Neural - Julia中的神经网络。
- MCMC - Julia中的MCMC工具。[已弃用]
- Mamba - 用于Julia中贝叶斯分析的马尔可夫链蒙特卡洛方法。
- GLM - Julia中的广义线性模型。
- Gaussian Processes - 用于高斯过程的Julia包。
- Online Learning [已弃用]
- GLMNet - 使用glmnet拟合Lasso/ElasticNet GLM模型的Julia封装。
- Clustering - 用于数据聚类的基本函数:k-means、dp-means等。
- SVM - Julia中的支持向量机。[已弃用]
- Kernel Density - Julia中的核密度估计器。
- MultivariateStats - 用于降维的方法。
- NMF - 用于非负矩阵分解的Julia包。
- ANN - Julia的人工神经网络。[已弃用]
- Mocha - 受Caffe启发的Julia深度学习框架。[已弃用]
- XGBoost - Julia中的极端梯度提升包。
- ManifoldLearning - 用于流形学习和非线性降维的Julia包。
- MXNet - 轻量级、可移植、灵活的分布式/移动深度学习框架,具有动态且感知突变的数据流调度器;适用于Python、R、Julia、Go、JavaScript等多种语言。
- Merlin - Julia中的灵活深度学习框架。
- ROCAnalysis - 用于评估概率二分类器的接收者操作特征及相关函数。
- GaussianMixtures - 大规模高斯混合模型。
- ScikitLearn - scikit-learn API的Julia实现。
- Knet - 科奇大学深度学习框架。
- Flux - 放松吧!Flux是一个不会让你感到困惑的机器学习库。
- MLJ - Julia机器学习框架。
- CluGen - Julia中的多维聚类生成工具。
自然语言处理
- Topic Models - Julia中的主题模型。[已弃用]
- Text Analysis - 用于文本分析的Julia包。
- Word Tokenizers - 用于Julia中自然语言处理的分词工具。
- Corpus Loaders - 提供多种NLP语料加载器的Julia包。
- Embeddings - 用于加载各种词嵌入的函数及数据依赖。
- Languages - 用于处理多种人类语言的Julia包。
- WordNet - Princeton WordNet的Julia实现。
数据分析 / 数据可视化
- Graph Layout - 纯 Julia 实现的图布局算法。
- LightGraphs - 图建模与分析工具。
- Data Frames Meta - 用于 DataFrames 的元编程工具。
- Julia Data - 用于在 Julia 中处理表格数据的库。[已弃用]
- Data Read - 读取 Stata、SAS 和 SPSS 格式的文件。
- Hypothesis Tests - Julia 中的假设检验工具。
- Gadfly - 为 Julia 打造的精美统计图形。
- Stats - Julia 中的统计检验工具。
- RDataSets - 用于加载 R 中许多数据集的 Julia 包。
- DataFrames - 用于在 Julia 中处理表格数据的库。
- Distributions - 提供概率分布及相关函数的 Julia 包。
- Data Arrays - 支持缺失值的数据结构。[已弃用]
- Time Series - Julia 中的时间序列工具包。
- Sampling - Julia 中的基本采样算法。
其他 / 演示文稿
- DSP - 数字信号处理(滤波、周期图、谱图、窗函数)。
- JuliaCon 演示文稿 - JuliaCon 大会的演示文稿。
- SignalProcessing - 用于 Julia 的信号处理工具。
- Images - Julia 的图像处理库。
- DataDeps - 为可复现科学研究提供可复现的数据准备。
Kotlin
深度学习
- KotlinDL - 使用 Kotlin 编写的深度学习框架。
Lua
通用机器学习
- Torch7
- cephes - Cephes 数学函数库,为 Torch 封装。提供了由 Stephen L. Moshier 开发的 Cephes 数学库中的 180 多种特殊数学函数,并对其进行封装。它被广泛应用于 SciPy 等多个项目中。[已弃用]
- autograd - Autograd 可自动对原生 Torch 代码进行微分。灵感来源于最初的 Python 版本。
- graph - Torch 的图处理包。[已弃用]
- randomkit - Numpy 的 randomkit,为 Torch 封装。[已弃用]
- signal - Torch-7 的信号处理工具箱。包括 FFT、DCT、希尔伯特变换、倒谱、短时傅里叶变换等。
- nn - Torch 的神经网络包。
- torchnet - 一个基于 Torch 的框架,提供一系列抽象,旨在鼓励代码重用和模块化编程。
- nngraph - 该包为 Torch7 中的 nn 库提供图形化计算功能。
- nnx - 一个完全不稳定且实验性的包,扩展了 Torch 内置的 nn 库。
- rnn - 一个递归神经网络库,扩展了 Torch 的 nn 库。包括 RNN、LSTM、GRU、BRNN、BLSTM 等。
- dpnn - 提供了许多不属于主 nn 包的功能。
- dp - 一个深度学习库,专为使用 Torch7 发行版进行研发而设计。它通过优雅地运用面向对象的设计模式来强调灵活性。[已弃用]
- optim - Torch 的优化库。包括 SGD、Adagrad、共轭梯度法、LBFGS、RProp 等。
- unsup - Torch 中用于无监督学习的包。提供与 nn 兼容的模块(LinearPsd、ConvPsd、AutoEncoder 等)以及独立的算法(k-means、PCA)。[已弃用]
- manifold - 一个用于操作流形的包。
- svm - Torch-SVM 库。[已弃用]
- lbfgs - liblbfgs 的 FFI 封装。[已弃用]
- vowpalwabbit - Torch 的旧版 vowpalwabbit 接口。[已弃用]
- OpenGM - OpenGM 是一个用于图模型和推理的 C++ 库。Lua 绑定提供了一种简单的方法,可以从 Lua 中描述图结构,然后使用 OpenGM 对其进行优化。[已弃用]
- spaghetti - @MichaelMathieu 为 torch7 编写的稀疏线性模块。[已弃用]
- LuaSHKit - SHKit 局部敏感哈希库的 Lua 封装。[已弃用]
- kernel smoothing - KNN、核加权平均、局部线性回归平滑器。[已弃用]
- cutorch - Torch 的 CUDA 实现。
- cunn - Torch 的 CUDA 神经网络实现。
- imgraph - Torch 的图像/图库。该包提供在图像上构建图、分割图像、从中构建树状结构并将其转换回图像的例程。[已弃用]
- videograph - Torch 的视频/图库。该包提供在视频上构建图、分割视频、从中构建树状结构并将其转换回视频的例程。[已弃用]
- saliency - 关于积分图像的代码和工具。一个基于快速积分直方图寻找兴趣点的库。[已弃用]
- stitch - 允许我们使用 Hugin 拼接图像,并将相同的拼接应用到视频序列上。[已弃用]
- sfm - 一个光束调整/运动恢复结构的包。[已弃用]
- fex - Torch 中用于特征提取的包。提供 SIFT 和 dSIFT 模块。[已弃用]
- OverFeat - 一种最先进的通用密集特征提取器。[已弃用]
- wav2letter - 来自 Facebook AI Research 的一个简单高效的端到端自动语音识别 (ASR) 系统。
- Numeric Lua
- Lunatic Python
- SciLua
- Lua - Numerical Algorithms [已弃用]
- Lunum [已弃用]
- Keras GPT Copilot - 一个将 LLM 合作伙伴集成到 Keras 模型开发工作流中的 Python 包。
演示和脚本
- Core torch7 演示仓库。
- 线性回归、逻辑回归
- 人脸检测器(训练和检测作为单独的演示)
- 基于最小生成树的分割器
- 训练数字分类器
- 训练自编码器
- 光流演示
- 在房屋号码数据集上训练
- 在 CIFAR 数据集上训练
- 使用深度网络进行跟踪
- Kinect 演示
- 滤波器组可视化
- 注意力网络
- 为 Galaxy-Zoo Kaggle 挑战训练卷积神经网络(CUDA 演示)
- torch-datasets - 用于加载多个流行数据集的脚本,包括:
- BSR 500
- CIFAR-10
- COIL
- 街景房屋号码
- MNIST
- NORB
- Atari2600 - 用于从街机学习环境生成静态帧数据集的脚本。
Matlab
计算机视觉
- Contourlets - 实现轮廓波变换及其辅助函数的 MATLAB 源代码。
- Shearlets - 用于剪切波变换的 MATLAB 代码。
- Curvelets - 曲线波变换是小波变换的高维推广,旨在以不同尺度和不同角度表示图像。
- Bandlets - 用于带状波变换的 MATLAB 代码。
- mexopencv - OpenCV 库的 MATLAB mex 函数集合及开发工具包。
自然语言处理
- NLP - 适用于 Matlab 的自然语言处理库。
通用机器学习
- 在 MNIST 数字数据集上训练深度自编码器或分类器 - 在 MNIST 数字数据集上训练深度自编码器或分类器[深度学习]。
- 用于 3D 物体分类的卷积递归深度学习 - 用于 3D 物体分类的卷积递归深度学习[深度学习]。
- Spider - Spider 是一个完整的面向对象的机器学习环境,专为 Matlab 设计。
- LibSVM - 支持向量机库。
- ThunderSVM - 基于 GPU 和 CPU 的开源 SVM 库。
- LibLinear - 大规模线性分类库。
- 机器学习模块 - 包含 PDF、讲义和代码的机器学习课程。
- Caffe - 一个以简洁、易读和速度为核心理念开发的深度学习框架。
- 模式识别工具箱 - 一个完整的面向对象的机器学习环境,专为 Matlab 设计。
- 模式识别与机器学习 - 该软件包包含 C. Bishop 所著《模式识别与机器学习》一书中描述算法的 MATLAB 实现。
- Optunity - 一个专注于自动化超参数优化的库,提供简单轻量级的 API,便于直接替代网格搜索。Optunity 使用 Python 编写,但可与 MATLAB 无缝对接。
- MXNet - 轻量级、可移植、灵活的分布式/移动深度学习框架,具有动态且能感知突变的数据流依赖调度器;支持 Python、R、Julia、Go、JavaScript 等多种语言。
- MatLab/Octave 中的机器学习 - 包含常见机器学习算法(神经网络、线性/逻辑回归、K-Means 等)的示例,并配有代码及背后的数学原理说明。
- MOCluGen - 在 MATLAB/Octave 中进行多维聚类生成。
数据分析 / 数据可视化
- ParaMonte - 一个通用的 MATLAB 库,用于通过串行/并行蒙特卡洛和 MCMC 模拟进行贝叶斯数据分析和可视化。相关文档可在 这里 查阅。
- matlab_bgl - MatlabBGL 是一个用于处理图的 Matlab 工具包。
- gaimc - 高效的纯 Matlab 图算法实现,可作为 MatlabBGL 的 mex 函数补充。
.NET
计算机视觉
- OpenCVDotNet - OpenCV项目的.NET应用封装库。
- Emgu CV - OpenCV的跨平台封装,可在Mono环境下编译,支持Windows、Linux、Mac OS X、iOS和Android平台。
- AForge.NET - 面向计算机视觉和人工智能领域的开源C#框架,专为开发者和研究人员设计。目前开发已迁移至GitHub。
- Accord.NET - 结合AForge.NET,该库可为Windows、Windows RT和Windows Phone提供图像处理与计算机视觉算法。部分组件也适用于Java和Android。
自然语言处理
- Stanford.NLP for .NET - Stanford NLP工具包的完整.NET移植版本,并以NuGet包形式预编译发布。
通用机器学习
- Accord-Framework - Accord.NET框架是一个完整的机器学习、计算机视觉、听觉计算、信号处理及统计应用开发框架。
- Accord.MachineLearning - 支持向量机、决策树、朴素贝叶斯模型、K均值聚类、高斯混合模型等,以及RANSAC、交叉验证和网格搜索等通用算法,适用于机器学习应用。该包是Accord.NET框架的一部分。
- DiffSharp - 自动微分(AD)库,可高效精确地计算导数(梯度、海森矩阵、雅可比矩阵、方向导数以及无矩阵形式的海森-和雅可比-向量乘积),适用于机器学习和优化任务。运算可任意嵌套,因此能够计算高阶导数,并对内部使用微分的函数进行求导,例如超参数优化。
- Encog - 先进的神经网络与机器学习框架。Encog包含用于构建多种网络的类,以及用于数据归一化和预处理的支持类。Encog采用多线程弹性传播法进行训练,并可通过GPU加速计算。此外还提供基于GUI的工作台,帮助用户建模和训练神经网络。
- GeneticSharp - 针对.NET Core和.NET Framework的跨平台遗传算法库。该库提供了多种遗传算法算子实现,包括选择、交叉、变异、重插入和终止条件等。
- Infer.NET - Infer.NET是一个用于在图模型中执行贝叶斯推断的框架。用户可以利用Infer.NET解决各类机器学习问题,从标准的分类、推荐或聚类问题,到针对特定领域问题的定制化解决方案。Infer.NET已被广泛应用于信息检索、生物信息学、流行病学、计算机视觉等多个领域。
- ML.NET - ML.NET是一个跨平台的开源机器学习框架,旨在让.NET开发者更容易使用机器学习技术。ML.NET最初由微软研究院开发,在过去十年中逐渐发展成为一个重要的框架,并被微软多个产品团队广泛使用,如Windows、Bing、PowerPoint、Excel等。
- Neural Network Designer - 神经网络的数据库管理系统与设计器。该设计应用基于WPF开发,提供友好的用户界面,允许用户设计自己的神经网络、查询网络内容,并创建和配置聊天机器人,这些机器人能够提问并根据用户的反馈进行学习。聊天机器人甚至可以从互联网上抓取信息,用于输出结果或进一步学习。
- Synapses - F#语言编写的神经网络库。
- Vulpes - 使用F#编写的深度信念网络和深度学习实现,借助Alea.cuBase支持CUDA GPU加速。
- MxNet.Sharp - Apache MxNet的.NET Standard绑定,提供命令式、符号式和Gluon接口,用于在C#中开发、训练和部署机器学习模型。https://mxnet.tech-quantum.com/
数据分析/数据可视化
- numl - numl是一个机器学习库,旨在简化预测和聚类等标准建模技术的使用。
- Math.NET Numerics - Math.NET项目的核心数值计算基础,致力于为科学、工程及日常应用提供数值计算方法和算法。支持Windows、Linux和Mac上的.NET 4.0、.NET 3.5和Mono;Silverlight 5、WindowsPhone/SL 8、WindowsPhone 8.1和Windows 8上的PCL Portable Profiles 47和344;以及Xamarin支持下的Android/iOS平台。
- Sho - Sho是一个交互式的数据分析和科学计算环境,允许用户无缝连接IronPython脚本与.NET编译代码,从而实现快速灵活的原型开发。该环境内置功能强大且高效的线性代数库和数据可视化工具,可从任何.NET语言调用,并配备丰富的交互式Shell,便于快速开发。
Objective-C
通用机器学习
- YCML - 一个适用于 Objective-C 和 Swift 的机器学习框架(OS X / iOS)。
- MLPNeuralNet - 适用于 iOS 和 Mac OS X 的快速多层感知器神经网络库。MLPNeuralNet 可以通过训练好的神经网络预测新样本。它基于 Apple 的 Accelerate 框架构建,利用向量化操作,并在硬件支持的情况下进行加速。[已弃用]
- MAChineLearning - 一个 Objective-C 多层感知器库,完全支持通过反向传播进行训练。该库使用 vDSP 和 vecLib 实现,速度是 Java 对应实现的 20 倍。包含从 Swift 调用的示例代码。
- BPN-NeuralNetwork - 实现了三层神经网络(输入层、隐藏层和输出层),称为反向传播神经网络(BPN)。该网络可用于产品推荐、用户行为分析、数据挖掘和数据分析。[已弃用]
- Multi-Perceptron-NeuralNetwork - 基于反向传播神经网络(BPN)实现了多感知器神经网络,并设计为可扩展任意数量的隐藏层。
- KRHebbian-Algorithm - 这是一种无监督的自学习算法,在机器学习的神经网络中用于调整权重。[已弃用]
- KRKmeans-Algorithm - 实现了 K-Means 聚类与分类算法。可用于数据挖掘和图像压缩。[已弃用]
- KRFuzzyCMeans-Algorithm - 实现了模糊 C 均值(FCM)模糊聚类/分类算法,应用于机器学习领域。可用于数据挖掘和图像压缩。[已弃用]
OCaml
通用机器学习
- Oml - 一个通用的统计与机器学习库。
- GPR - OCaml 中高效的高斯过程回归。
- Libra-Tk - 用于离散概率模型的学习与推理算法。
- TensorFlow - TensorFlow 的 OCaml 绑定。
OpenCV
开源计算机视觉
- OpenCV - 一个开源计算机视觉库
Perl
数据分析 / 数据可视化
- Perl Data Language,一种用于数据和图像处理的插件式架构,可以 被用于机器学习。
通用机器学习
- MXnet 深度学习的 Perl 版本, 也已在 CPAN 上发布(AI::MXNet)。
- Perl Data Language, 通过 Perl 使用 AWS 机器学习平台。
- Algorithm::SVMLight, 实现了基于 SVMLight 的支持向量机。[已弃用]
- 几个机器学习和人工智能模型都包含在
AI命名空间中。例如,你可以找到朴素贝叶斯。
Perl 6
数据分析 / 数据可视化
- Perl Data Language, 一种用于数据和图像处理的插件式架构,可以 被 用于机器学习。
通用机器学习
PHP
自然语言处理
- jieba-php - 中文分词工具。
通用机器学习
- PHP-ML - PHP 的机器学习库。算法、交叉验证、神经网络、预处理、特征提取等一应俱全。
- PredictionBuilder - 一个基于线性回归构建预测的机器学习库。
- Rubix ML - 一个高级机器学习(ML)库,允许你使用 PHP 语言构建能够从数据中学习的程序。
- 19 Questions - 一个机器学习/贝叶斯推断项目,用于为对象分配属性。
Python
计算机视觉
- LightlyTrain - 在无标签数据上预训练用于工业应用的计算机视觉模型
- Scikit-Image - 一个用于 Python 的图像处理算法集合。
- Scikit-Opt - Python 中的群体智能(遗传算法、粒子群优化、模拟退火、蚁群算法、免疫算法、人工鱼群算法)
- SimpleCV - 一个开源的计算机视觉框架,提供了对多个高性能计算机视觉库的访问,例如 OpenCV。基于 Python 编写,可在 Mac、Windows 和 Ubuntu Linux 上运行。
- Vigranumpy - VIGRA C++ 计算机视觉库的 Python 绑定。
- OpenFace - 基于深度神经网络的免费开源人脸识别系统。
- PCV - 开源的计算机视觉 Python 模块。[已弃用]
- face_recognition - 一个从 Python 或命令行识别和操作人脸的人脸识别库。
- deepface - 一个轻量级的人脸识别与面部属性分析(年龄、性别、情绪和种族)框架,适用于 Python,涵盖了 VGG-Face、FaceNet、OpenFace、DeepFace、DeepID、Dlib 和 ArcFace 等前沿模型。
- retinaface - 基于深度学习的先进人脸检测器,适用于 Python,并附带面部关键点。
- dockerface - 易于安装和使用的 Docker 容器中的深度学习 Faster R-CNN 人脸检测工具,适用于图像和视频。[已弃用]
- Detectron - FAIR 实现最先进目标检测算法(包括 Mask R-CNN)的软件系统。使用 Python 编写,基于 Caffe2 深度学习框架。[已弃用]
- detectron2 - FAIR 的下一代目标检测与分割研究平台。它是对前一代 Detectron 的全新重写,基于 PyTorch 深度学习框架。
- albumentations - 一个快速且与框架无关的图像增强库,实现了多样化的增强技术。开箱即用支持分类、分割和检测任务。曾帮助用户在 Kaggle、Topcoder 以及 CVPR 工作坊的相关竞赛中多次获胜。
- pytessarct - Python-tesseract 是一个用于 Python 的光学字符识别(OCR)工具。它可以识别并“读取”嵌入在图像中的文本。Python-tesseract 是 Google 的 Tesseract-OCR 引擎 的封装。
- imutils - 一个包含便捷函数的库,旨在通过 OpenCV 和 Python 更轻松地实现图像的基本处理操作,如平移、旋转、缩放、骨架化以及显示 Matplotlib 图像。
- PyTorchCV - 一个基于 PyTorch 的计算机视觉深度学习框架。
- joliGEN - 基于 GAN 和扩散模型的生成式 AI 图像工具集,适用于实际应用。
- Gempix2 - 使用 Nano Banana V2 模型进行文本到图像生成的免费生产平台。
- 自监督学习
- neural-style-pt - Justin Johnson 的神经风格迁移的 PyTorch 实现。
- Detecto - 仅需 5–10 行代码即可训练和运行计算机视觉模型。
- neural-dream - DeepDream 的 PyTorch 实现。
- Openpose - 一个实时多人关键点检测库,用于人体、面部、手部和脚部姿态估计。
- Deep High-Resolution-Net - CVPR2019 论文《用于人体姿态估计的深度高分辨率表征学习》的 PyTorch 实现。
- TF-GAN - TF-GAN 是一个用于训练和评估生成对抗网络(GAN)的轻量级库。
- dream-creator - DeepDream 的 PyTorch 实现。允许个人快速简便地使用自定义数据集训练自己的 GoogleNet 模型,以用于 DeepDream。
- Lucent - TensorFlow 和 OpenAI Clarity 的 Lucid 被适配到 PyTorch。
- lightly - Lightly 是一个用于自监督学习的计算机视觉框架。
- Learnergy - 基于 PyTorch 构建的能量驱动机器学习模型。
- OpenVisionAPI - 基于开源模型的开源计算机视觉 API。
- IoT Owl - 一款功能强大的轻量级人脸检测与识别系统,基于 Microsoft Face API 和 TensorFlow,专为树莓派等小型 IoT 设备设计。
- Exadel CompreFace - 一种无需任何机器学习基础即可轻松集成到任何系统的人脸识别系统。CompreFace 提供 REST API,用于人脸识别、身份验证、人脸检测、口罩检测、关键点检测、年龄和性别识别,并可通过 Docker 轻松部署。
- computer-vision-in-action - 又称
L0CV,是新一代的计算机视觉开源在线学习媒体,一个跨平台的交互式学习框架,集成了图形、源代码和 HTML。L0CV 生态系统——笔记本、数据集、源代码,以及从入门到进阶的内容——还有 L0CV 中心。 - timm - PyTorch 图像模型、脚本和预训练权重——ResNet、ResNeXT、EfficientNet、EfficientNetV2、NFNet、Vision Transformer、MixNet、MobileNet-V3/V2、RegNet、DPN、CSPNet 等。
- segmentation_models.pytorch - 一个基于 PyTorch 的工具包,提供用于计算机视觉任务的预训练分割模型。它通过提供 UNet、PSPNet 等流行架构的实现以及预训练权重,简化了图像分割应用程序的开发,使研究人员和开发者更容易在图像中实现高质量的像素级目标分割。
- segmentation_models - 一个基于 TensorFlow Keras 的工具包,提供用于计算机视觉任务的预训练分割模型。它通过提供 UNet、PSPNet 等流行架构的实现以及预训练权重,简化了图像分割应用程序的开发,使研究人员和开发者更容易在图像中实现高质量的像素级目标分割。
- MLX - MLX 是苹果机器学习研究部门开发的,用于 Apple Silicon 平台上的机器学习数组框架。
自然语言处理
- pkuseg-python - 北京大学开发的更好版本的结巴分词。
- NLTK - 用于构建处理人类语言数据的 Python 程序的领先平台。
- Pattern - Python 编程语言的网络挖掘模块。它拥有自然语言处理、机器学习等工具。
- Quepy - 一个将自然语言问题转换为数据库查询语言查询的 Python 框架。
- TextBlob - 提供一致的 API 来进行常见的自然语言处理 (NLP) 任务。基于 NLTK 和 Pattern 构建,并与两者良好兼容。
- YAlign - 句子对齐工具,用于从可比较语料库中提取平行句子的友好工具。[已弃用]
- jieba - 中文分词工具。
- SnowNLP - 用于处理中文文本的库。
- spammy - 基于 NLTK 构建的电子邮件垃圾邮件过滤库。
- loso - 另一个中文分词库。[已弃用]
- genius - 基于条件随机场的中文分词工具。
- KoNLPy - 韩语自然语言处理的 Python 包。
- nut - 自然语言理解工具包。[已弃用]
- Rosetta - 文本处理工具和封装器(例如 Vowpal Wabbit)。
- BLLIP Parser - BLLIP 自然语言解析器(也称为 Charniak-Johnson 解析器)的 Python 绑定。[已弃用]
- PyNLPl - Python 自然语言处理库。通用的 Python NLP 库。还包含一些用于解析常见 NLP 格式的特定模块,最著名的是 FoLiA,但也包括 ARPA 语言模型、Moses 短语表和 GIZA++ 对齐文件。
- PySS3 - 实现了一种新颖的白盒机器学习模型 SS3 的 Python 包,用于文本分类。由于 SS3 能够直观地解释其推理过程,该包还附带易于使用的交互式可视化工具(在线演示)。
- python-ucto - ucto(一种支持 Unicode 的多语言规则分词器)的 Python 绑定。
- python-frog - Frog 的 Python 绑定,Frog 是一套用于荷兰语的 NLP 工具。(词性标注、词形还原、依存句法分析、命名实体识别)
- python-zpar - ZPar 的 Python 绑定,ZPar 是一款用于英语的统计词性标注器、句法结构分析器和依存句法分析器。
- colibri-core - C++ 库的 Python 绑定,用于以快速且节省内存的方式提取和处理基本的语言学结构,如 n-gram 和 skip-gram。
- spaCy - 使用 Python 和 Cython 的工业级 NLP。
- PyStanfordDependencies - 将 Penn Treebank 树转换为 Stanford Dependencies 的 Python 接口。
- Distance - 用于计算 Levenshtein 距离和 Hamming 距离。[已弃用]
- Fuzzy Wuzzy - Python 中的模糊字符串匹配。
- Neofuzz - 使用与 fuzzywuzzy/thefuzz 兼容的 API,在 Python 中实现极速、轻量且可定制的模糊和语义文本搜索。
- jellyfish - 一个用于近似匹配和音素匹配的 Python 库。
- editdistance - 快速实现编辑距离计算。
- textacy - 基于 Spacy 构建的高级 NLP。
- stanford-corenlp-python - 斯坦福 CoreNLP 的 Python 封装。[已弃用]
- CLTK - 古典语言工具箱。
- Rasa - “用于自动化基于文本和语音对话的机器学习框架”。
- yase - 将句子(或其他序列)转码为单词向量列表。
- Polyglot - 多语言文本(NLP)处理工具箱。
- DrQA - 通过阅读维基百科来回答开放域问题。
- Dedupe - 一个用于准确且可扩展的模糊匹配、记录去重和实体解析的 Python 库。
- Snips NLU - 用于意图分类和实体抽取的自然语言理解库。
- NeuroNER - 使用神经网络进行命名实体识别,可提供最先进的结果。
- DeepPavlov - 包含大量预训练俄语 NLP 模型的对话式 AI 库。
- BigARTM - 主题建模平台。
- NALP - 基于 TensorFlow 构建的自然对抗性语言处理框架。
- DL Translate - 基于深度学习的 50 种语言之间的翻译库,使用
transformers构建。 - Haystack - 用于构建基于 Transformer 模型和 LLM 的工业级应用的框架。
- CometLLM - 跟踪、记录、可视化并评估您的 LLM 提示词及提示链。
- NobodyWho - 在本地运行 LLM 的最简单方法。支持工具调用和语法约束采样。
- Transformers - 一个包含数千个不同任务预训练模型的深度学习库。任何与大型语言模型相关的事宜首选之地。
- TextCL - 用于 NLP 任务的文本预处理包。
- VeritasGraph - 企业级图 RAG,用于安全的本地部署 AI,并具有可验证的归因。
通用机器学习
- ray3.run - 基于AI的工具和应用,专为开发者和企业打造,旨在提升生产力和工作流自动化。 * XAD -> 快速且易用的反向传播工具。
- Aim -> 一款简单易用、功能强大的开源AI元数据追踪工具。
- RexMex -> 一个通用的推荐系统指标库,用于公平评估。
- TopFreePrompts by LucyBrain -> 涵盖23个类别、超过10,000条专业AI提示,提供系统化培训,帮助自动化机器学习工作流和分析。
- ChemicalX -> 基于PyTorch的深度学习库,用于药物对评分
- Microsoft ML for Apache Spark -> 一个基于Apache Spark的分布式机器学习框架
- Shapley -> 一个数据驱动的框架,用于量化机器学习集成中分类器的价值。
- igel -> 一个令人愉悦的机器学习工具,允许用户在无需编写代码的情况下训练/拟合、测试和使用模型
- ML Model building -> 包含分类、聚类、回归、推荐系统等笔记本的仓库,并配有示例说明。
- ML/DL project template
- PyTorch Frame -> 一个用于多模态表格学习的模块化框架。
- PyTorch Geometric -> PyTorch的图神经网络库。
- PyTorch Geometric Temporal -> PyTorch Geometric的时序扩展,用于动态图表示学习。
- Little Ball of Fur -> NetworkX的一个图采样扩展库,具有类似Scikit-Learn的API。
- Karate Club -> NetworkX的一个无监督机器学习扩展库,具有类似Scikit-Learn的API。
- Auto_ViML -> 快速自动构建可解释的机器学习模型!Auto_ViML发音为“auto vimal”,是一个全面且可扩展的Python AutoML工具包,支持不平衡数据处理、集成、堆叠以及内置特征选择。曾在Medium文章中被介绍。
- PyOD -> Python异常检测工具,是一个全面且可扩展的Python工具包,用于检测多变量数据中的异常点。以先进的模型著称,包括神经网络/深度学习和异常集合模型。
- steppy -> 轻量级Python库,用于快速且可重复的机器学习实验。它引入了一个非常简单的接口,能够实现清晰的机器学习流水线设计。
- steppy-toolkit -> 精选的神经网络、Transformer及模型集合,使您的机器学习工作更快、更高效。
- CNTK - 微软认知工具包(CNTK),一个开源的深度学习工具包。文档可在这里找到。
- Couler - 一个统一的界面,用于在不同的工作流引擎上构建和管理机器学习工作流,例如Argo Workflows、Tekton Pipelines和Apache Airflow。
- auto_ml - 面向生产和分析的自动化机器学习。让您专注于机器学习中有趣的部分,同时输出生产就绪的代码以及对数据集和结果的详细分析。支持NLP、XGBoost、CatBoost、LightGBM,以及即将推出的深度学习。
- dtaidistance - 高性能的时间序列距离(DTW)和时间序列聚类库。
- einops - 重新定义的深度学习操作(适用于PyTorch、TensorFlow、JAX等)。
- machine learning - 自动化构建,包含一个web界面,以及一组程序化接口 API,用于支持向量机。相应的数据集存储在SQL数据库中,生成的模型则用于预测,并存储在NoSQL数据库中。
- XGBoost - eXtreme Gradient Boosting(树)库的Python绑定。
- InterpretML - InterpretML实现了可解释增强机器学习模型(EBM),这是一种基于广义加性模型(GAMs)的现代、完全可解释的机器学习模型。该开源软件包还提供了EBM、其他白盒模型以及黑盒解释的可视化工具。
- ChefBoost - 一个轻量级的Python决策树框架,支持分类特征,涵盖ID3、C4.5、CART、CHAID等常规决策树算法,以及梯度提升、随机森林和AdaBoost等高级袋装和提升技术。
- Apache SINGA - 一个正在孵化中的Apache项目,旨在开发一个开源的机器学习库。
- Bayesian Methods for Hackers - 关于Python概率编程的书籍/iPython笔记本。
- Featureforge 一套用于创建和测试机器学习特征的工具,具有与scikit-learn兼容的API。
- MLlib in Apache Spark - Spark中的分布式机器学习库
- Hydrosphere Mist - 一项服务,用于将Apache Spark MLLib机器学习模型部署为实时、批处理或响应式Web服务。
- Towhee - 一个Python模块,可以将非结构化数据编码为嵌入向量。
- scikit-learn - 一个基于SciPy构建的Python机器学习模块。
- metric-learn - 一个用于度量学习的Python模块。
- MCP Memory Service - 一种通用内存服务,具备语义搜索、自主整合以及多客户端支持,适用于AI应用。
- OpenMetricLearning - 一个基于PyTorch的框架,用于训练和验证能够生成高质量嵌入的模型。
- Intel(R) Extension for Scikit-learn - 一种无缝的方式,可以在不损失精度和修改代码的情况下加速您的Scikit-learn应用。
- SimpleAI 是书中《人工智能:一种现代方法》中描述的许多人工智能算法的Python实现。它专注于提供一个易于使用、文档完善且经过充分测试的库。
- astroML - 天文学领域的机器学习和数据挖掘。
- graphlab-create - 一个包含多种机器学习模型(回归、聚类、推荐系统、图分析等)的库,这些模型构建在基于磁盘的DataFrame之上。
- BigML - 一个与外部服务器交互的库。
- pattern - 一个用于Python的网络挖掘模块。
- Neurolink - 一个企业级LLM集成框架,用于构建生产就绪的AI应用,内置幻觉预防、RAG和MCP支持。
- NuPIC - Numenta智能计算平台。
- Pylearn2 - 一个基于Theano的机器学习库。[已弃用]
- keras - 一个面向TensorFlow、CNTK和Theano的高级神经网络前端。
- Lasagne - 一个轻量级的库,用于在Theano中构建和训练神经网络。
- hebel - 一个GPU加速的Python深度学习库。[已弃用]
- Chainer - 一个灵活的神经网络框架。
- prophet - Facebook推出的一个快速且自动化的时间序列预测框架。
- skforecast - 一个使用机器学习模型进行时间序列预测的Python库。它可以与任何兼容scikit-learn API的回归器一起使用,包括流行的选项如LightGBM、XGBoost、CatBoost、Keras等。
- Feature-engine - 一个开源库,提供基于pandas和scikit-learn的全面特征工程和选择方法。
- gensim - 面向人类的主题建模。
- Gower Express - Python中最快速的Gower距离实现。GPU加速的混合数据类型相似度匹配,比其他方案快15-25%,同时具备生产就绪的可靠性。
- tweetopic - 一个超快速的Python短文本主题建模工具。
- topicwizard - 一个交互式主题模型可视化/解释框架。
- topik - 主题建模工具包。[已弃用]
- PyBrain - 另一个Python机器学习库。
- Brainstorm - 快速、灵活且有趣的神经网络。它是PyBrain的继任者。
- Surprise - 一个用于构建和分析推荐系统的scikit。
- implicit - 一个针对隐式数据集的快速Python协同过滤工具。
- LightFM - 一个Python实现,涵盖了多种流行的推荐算法,适用于隐式和显式反馈。
- Crab - 一个灵活、快速的推荐引擎。[已弃用]
- python-recsys - 一个用于实现推荐系统的Python库。
- thinking bayes - 一本关于贝叶斯分析的书。
- Image-to-Image Translation with Conditional Adversarial Networks - 根据Isola等人论文实现的图像到图像(pix2pix)转换。[深度学习]
- Restricted Boltzmann Machines - Python中的受限玻尔兹曼机。[深度学习]
- Bolt - Bolt在线学习工具箱。[已弃用]
- CoverTree - Python中覆盖树的实现,可直接替代scipy.spatial.kdtree [已弃用]
- nilearn - Python中的神经影像学机器学习。
- neuropredict - 面向初学者和非专业程序员,这个包提供简单(无需编码)且全面的机器学习(评估和完整的预测性能报告,无需您编写代码),适用于神经影像学及其他类型的特征。它的目标是接管大部分机器学习工作流程,不同于nilearn和pymvpa等其他包,那些需要您学习其API并编写代码才能产生有用的结果。
- imbalanced-learn - 一个用于通过各种技术进行欠采样和过采样的Python模块。
- imbalanced-ensemble - 一个Python工具箱,用于快速实施、修改、评估和可视化针对类别不平衡数据的集成学习算法。支持开箱即用的多类别不平衡(长尾)分类。
- Shogun - Shogun机器学习工具箱。
- Pyevolve - 遗传算法框架。[已弃用]
- Caffe - 一个以清洁、可读性和速度为核心开发的深度学习框架。
- breze - 一个基于Theano的深度和循环神经网络库。
- Cortex - 一个开源平台,用于在生产环境中部署机器学习模型。
- pyhsmm - 一个用于近似无监督推断的贝叶斯隐马尔可夫模型(HMMs)和显式持续时间隐半马尔可夫模型(HSMMs)的库,重点在于贝叶斯非参数扩展,即HDP-HMM和HDP-HSMM,主要采用弱极限近似。
- SKLL - 一个围绕scikit-learn的封装,使其更容易进行实验。
- neurolab
- Spearmint - Spearmint是一个根据论文《机器学习算法的实用贝叶斯优化》中概述的算法执行贝叶斯优化的包。作者为Jasper Snoek、Hugo Larochelle和Ryan P. Adams。发表于2012年的神经信息处理系统进展会议。[已弃用]
- Pebl - 一个用于贝叶斯学习的Python环境。[已弃用]
- Theano - 一个优化GPU元编程代码的数组导向优化数学编译器,在Python中运行。
- TensorFlow - 一个基于数据流图的开源数值计算软件库。
- pomegranate - Python中的隐马尔可夫模型,使用Cython实现以提高速度和效率。
- python-timbl - 一个Python扩展模块,封装了完整的TiMBL C++编程接口。Timbl是一个复杂的k-最近邻机器学习工具包。
- deap - 进化算法框架。
- pydeep - Python中的深度学习。[已弃用]
- mlxtend - 一个包含对数据科学和机器学习任务有用的工具的库。
- neon - Nervana的高性能基于Python的深度学习框架 [深度学习]。[已弃用]
- Optunity - 一个致力于自动化超参数优化的库,拥有简单轻巧的API,便于直接替换网格搜索。
- Neural Networks and Deep Learning - 我的书《神经网络和深度学习》中的代码示例 [深度学习]。
- Annoy - 近似最近邻实现。
- TPOT - 一个利用遗传编程自动创建和优化机器学习管道的工具。可以把它看作您的个人数据科学助手,自动完成机器学习中繁琐的部分。
- pgmpy 一个用于处理概率图模型的Python库。
- DIGITS - DIGITS深度学习GPU训练系统是一个用于训练深度学习模型的Web应用程序。
- Orange - 开源的数据可视化和数据分析工具,适合初学者和专家。
- MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态、能感知突变的数据流调度器;适用于Python、R、Julia、Go、JavaScript等多种语言。
- milk - 一个专注于监督分类的机器学习工具包。[已弃用]
- TFLearn - 一个具有更高层次API的深度学习库,专为TensorFlow设计。
- REP - 一个基于IPython的环境,用于以一致且可重复的方式进行数据驱动的研究。REP并不试图取代scikit-learn,而是对其进行扩展并提供更好的用户体验。[已弃用]
- rgf_python - 正则贪婪森林(树)库的Python绑定。
- skbayes - 一个使用scikit-learn API的Python贝叶斯机器学习包。
- fuku-ml - 一个简单的机器学习库,包括感知器、回归、支持向量机、决策树等,易于使用且初学者容易掌握。
- Xcessiv - 一个基于Web的应用程序,用于快速、可扩展且自动化的超参数调优和堆叠集成。
- PyTorch - 在Python中具有强大GPU加速的张量和动态神经网络
- PyTorch Lightning - 一个轻量级的PyTorch封装,专为高性能AI研究设计。
- PyTorch Lightning Bolts - 一个包含模型、回调和数据集的工具箱,供AI/ML研究人员使用。
- skorch - 一个与scikit-learn兼容的神经网络库,封装了PyTorch。
- ML-From-Scratch - 从头开始用Python实现机器学习模型,注重透明度。旨在以易于理解的方式展示ML的核心原理。
- Edward - 一个用于概率建模、推理和批评的库,构建在TensorFlow之上。
- xRBM - 一个用于受限玻尔兹曼机(RBM)及其条件变体的库,运行在Tensorflow上。
- CatBoost - 一个通用的梯度提升决策树库,开箱即用即可支持分类特征。安装简便、文档齐全,支持CPU和GPU(甚至多GPU)计算。
- stacked_generalization - 将机器学习堆叠技术实现为一个便捷的Python库。
- modAL - 一个模块化的主动学习框架,基于scikit-learn构建。
- Cogitare: 一个现代、快速且模块化的Python深度学习和机器学习框架。
- Parris - Parris,一个用于机器学习算法的自动化基础设施设置工具。
- neonrvm - neonrvm是一个基于RVM技术的开源机器学习库。它用C语言编写,并附带Python编程语言绑定。
- Turi Create - 苹果公司的机器学习产品。Turi Create简化了自定义机器学习模型的开发。您不必是机器学习专家,也能为您的应用添加推荐、物体检测、图像分类、图像相似度或活动分类等功能。
- xLearn - 一个高性能、易用且可扩展的机器学习包,可用于解决大规模的机器学习问题。xLearn尤其适用于处理大规模稀疏数据的机器学习问题,这类问题在网络广告和推荐系统等互联网服务中非常常见。
- mlens - 一个高性能、内存高效的、最大程度并行化的集成学习框架,与scikit-learn集成。
- Thampi - 一个基于AWS Lambda的机器学习预测系统。
- MindsDB - 一个开源框架,用于简化神经网络的使用。
- Microsoft Recommenders: 提供建立推荐系统的示例和最佳实践,以Jupyter笔记本的形式呈现。该仓库包含来自微软研究院以及其他公司和机构的最新前沿算法。
- StellarGraph: 图上的机器学习,一个用于处理图结构(网络结构)数据的Python机器学习库。
- BentoML: 一个用于打包和部署机器学习模型以供生产使用的工具包。
- MiraiML: 一个异步引擎,用于连续且自主的机器学习,专为实时使用而设计。
- numpy-ML: 用numpy编写的ML模型参考实现。
- Neuraxle: 一个框架,提供合适的抽象层,以简化您的ML流水线的研究、开发和部署。
- Cornac - 一个用于多模态推荐系统的比较框架,重点关注利用辅助数据的模型。
- JAX - JAX结合了Autograd和XLA,专为高性能机器学习研究而设计。
- Catalyst - PyTorch DL & RL研究的高级工具。它专注于可重复性、快速实验以及代码/想法的再利用。让人们能够研究/开发新事物,而不是仅仅编写另一个常规的训练循环。
- Fastai - 一个构建在Pytorch之上的高级封装,支持视觉、文本、表格数据和协同过滤。
- scikit-multiflow - 一个用于多输出/多标签和流数据的机器学习框架。
- Lightwood - 一个基于PyTorch的框架,将机器学习问题分解为更小的模块,这些模块可以无缝拼接在一起,目标是用一行代码构建预测模型。
- bayeso - 一个简单但重要的贝叶斯优化包,用Python编写。
- mljar-supervised - 一个用于表格数据的自动化机器学习(AutoML)Python包。它可以处理:二分类、多分类和回归。它提供解释和Markdown报告。
- evostra - 一个快速的进化策略Python实现。
- Determined - 一个可扩展的深度学习训练平台,包括对分布式训练、超参数调优、实验跟踪和模型管理的综合支持。
- PySyft - 一个基于PyTorch和TensorFlow的安全且私密的深度学习Python库。
- PyGrid - 一个由数据所有者和数据科学家组成的点对点网络,他们可以共同使用PySyft训练AI模型。
- sktime - 一个用于时间序列机器学习的统一框架。
- OPFython - 一个受Python启发的最优路径森林分类器实现。
- Opytimizer - 基于Python的元启发式优化技术。
- Gradio - 一个Python库,用于快速创建和分享模型演示。您可以在浏览器中交互式地调试模型,获取合作者的反馈,并生成公开链接,而无需实际部署。
- Hub - TensorFlow/PyTorch下最快的非结构化数据管理工具。支持流式传输和版本控制。即使是在PB级别的数据,也可以存储在一个类似于numpy的数组中,存储在云端,任何设备都可以访问。更多信息请访问activeloop.ai。
- Synthia - 多维合成数据的Python生成工具。
- ByteHub - 一个易于使用、基于Python的特征存储库。针对时间序列数据进行了优化。
- Backprop - Backprop让使用、微调和部署最先进的ML模型变得简单。
- River: 一个用于通用在线机器学习的框架。
- FEDOT: 一个用于自动化设计复合建模管道的AutoML框架。它可以处理不同类型的分类、回归和时间序列预测任务(包括多模态数据集)。
- Sklearn-genetic-opt: 一个使用进化算法进行超参数调优的AutoML包,内置回调、绘图、远程日志记录等功能。
- Evidently - 一个交互式报告工具,用于在验证或生产监控期间分析机器学习模型。
- Streamlit: Streamlit是一个框架,可以在数小时内而非数周内创建美观的数据应用。
- Optuna: Optuna是一个自动超参数优化软件框架,特别为机器学习设计。
- Deepchecks: 在模型开发、部署和生产过程中对机器学习模型和数据进行验证与测试。这包括针对各种问题的检查和套件,例如模型性能、数据完整性、分布不匹配等。
- Shapash : Shapash是一个Python库,提供多种类型的可视化,显示明确的标签,任何人都能理解。
- Eurybia: Eurybia会监测数据和模型随时间的变化,并通过数据验证来确保模型部署的安全性。
- Colossal-AI: 一个开源的深度学习系统,用于大规模模型的训练和推理,具有高效率和低成本。
- skrub - Skrub是一个Python库,用于简化数据框上的机器学习预处理和特征工程。
- Upgini: 一个免费的自动化数据与特征丰富库,专为机器学习设计——它会自动搜索成千上万条现成的特征,这些特征来自公共和社区共享的数据源,并仅用能够提升准确性的特征来丰富您的训练数据集。
- AutoML-Implementation-for-Static-and-Dynamic-Data-Analytics: 一份教程,旨在帮助机器学习研究人员自动获得针对特定任务的最佳学习性能的优化机器学习模型。
- SKBEL: 一个用于贝叶斯证据学习(BEL)的Python库,以估计预测的不确定性。
- NannyML: 一个能够全面捕捉数据漂移对模型性能影响的Python库。允许在无法访问目标的情况下评估部署后的模型性能。
- cleanlab: 一个标准的以数据为中心的AI软件包,用于处理质量和机器学习问题,尤其是在面对混乱的真实世界数据和标签时。
- AutoGluon: 一个适用于图像、文本、表格、时间序列和多模态数据的AutoML。
- PyBroker - 基于机器学习的算法交易。
- Frouros: Frouros是一个开源的Python库,用于检测机器学习系统中的漂移。
- CometML: 一流的MLOps平台,具备实验跟踪、模型生产监控、模型注册表以及从训练到生产的完整数据 lineage。
- ClearML - 一个自动化的CI/CD解决方案,用于简化您的AI工作负载。实验管理、数据管理、流水线、编排、调度和部署都整合在一个MLOps/LLMOps解决方案中。
- Okrolearn: 一个Python机器学习库,旨在将强大的数据分析功能与张量和机器学习组件相结合,同时保持对其他库的支持。
- Opik: 评估、追踪、测试和交付LLM应用,贯穿您的开发和生产生命周期。
- pyclugen - 多维集群的Python生成。
- mlforgex - 一个轻量级的ML工具,支持通过CLI和Python API进行自动化训练、评估和预测。
数据分析 / 数据可视化
- DataComPy - 一个用于比较 Pandas、Polars 和 Spark 数据框的库。它提供统计信息,并允许用户调整匹配精度。
- DataVisualization - 一个 GitHub 仓库,你可以在这里学习数据可视化的基础到中级知识。
- Cartopy - Cartopy 是一个 Python 包,专为地理空间数据处理而设计,用于生成地图和其他地理空间数据分析。
- SciPy - 一个基于 Python 的开源软件生态系统,适用于数学、科学和工程领域。
- NumPy - 一个用于科学计算的 Python 基础包。
- AutoViz AutoViz 可以通过一行 Python 代码自动可视化任何数据集。只需提供任意大小的输入文件(CSV、TXT 或 JSON),AutoViz 就会对其进行可视化。参见 Medium 文章。
- Numba - 由 Cython 和 NumPy 的开发者开发的面向科学 Python 的 Python JIT(即时)编译器,目标是 LLVM。
- Mars - 一个基于张量的大规模数据计算框架,通常被视为 NumPy 的并行分布式版本。
- NetworkX - 一个用于复杂网络的高生产力软件。
- igraph - igraph 库的 Python 绑定,一个通用图库。
- Pandas - 一个提供高性能、易用的数据结构和数据分析工具的库。
- ParaMonte - 一个通用的 Python 库,用于通过串行/并行蒙特卡洛和 MCMC 模拟进行贝叶斯数据分析和可视化。文档可以在此处找到 这里。
- Vaex - 一个高性能的 Python 库,用于惰性 Out-of-Core DataFrame(类似于 Pandas),以可视化和探索大型表格数据集。文档可以在此处找到 这里。
- Open Mining - Python 中的商业智能(Pandas Web 界面)[已弃用]
- PyMC - 马尔可夫链蒙特卡洛采样工具包。
- zipline - 一个符合 Python 风格的算法交易库。
- PyDy - 全称“Python 动力学”,用于辅助基于 NumPy、SciPy、IPython 和 matplotlib 的动态运动建模工作流。
- SymPy - 一个用于符号数学的 Python 库。
- statsmodels - 用于 Python 中的统计建模和计量经济学。
- astropy - 一个社区驱动的天文学 Python 库。
- matplotlib - 一个 Python 2D 绘图库。
- bokeh - 用于 Python 的交互式 Web 绘图。
- plotly - 用于 Python 和 matplotlib 的协作式 Web 绘图。
- altair - 一个 Python 到 Vega 的转换器。
- d3py - 一个基于 D3.js 的 Python 绘图库。
- PyDexter - 用于 Python 的简单绘图。它是 D3xterjs 的封装,可轻松在浏览器中渲染图表。
- ggplot - 与 R 的 ggplot2 使用相同的 API。[已弃用]
- ggfortify - 一个统一接口,用于连接流行的 R 包与 ggplot2。
- Kartograph.py - 用于在 Python 中渲染精美的 SVG 地图。
- pygal - 一个 Python SVG 图表创建工具。
- PyQtGraph - 一个纯 Python 图形和 GUI 库,基于 PyQt4 / PySide 和 NumPy。
- pycascading [已弃用]
- Petrel - 用于用纯 Python 编写、提交、调试和监控 Storm 拓扑结构的工具。
- Blaze - 一个连接 NumPy 和 Pandas 与大数据的接口。
- emcee - 用于仿射不变 MCMC 的 Python 合成采样工具包。
- windML - 一个用于风能分析和预测的 Python 框架。
- vispy - 一个基于 GPU 的高性能交互式 OpenGL 2D/3D 数据可视化库。
- cerebro2 一个基于 Web 的 NuPIC 可视化和调试平台。[已弃用]
- NuPIC Studio 一个一体化的 NuPIC 层次时间记忆可视化和调试超级工具![已弃用]
- SparklingPandas 在 PySpark 上运行 Pandas(POPS)。
- Seaborn - 一个基于 matplotlib 的 Python 可视化库。
- ipychart - 将 Chart.js 的强大功能引入 Jupyter Notebook。
- bqplot - 一个用于 Jupyter(IPython)绘图的 API。
- pastalog - 简单、实时地可视化神经网络训练性能。
- Superset - 一个旨在视觉化、直观且交互式的数据探索平台。
- Dora - 用于 Python 中探索性数据分析的工具。
- Ruffus - 一个用于 Python 的计算管道库。
- SOMPY - 一个用 Python 编写的自组织映射(使用神经网络进行数据分析)。
- somoclu - 大规模并行自组织映射:可在多核 CPU、GPU 和集群上加速训练,提供 Python API。
- HDBScan - HDBSCAN 算法的 Python 实现,用于聚类。
- visualize_ML - 一个用于数据探索和数据分析的 Python 包。[已弃用]
- scikit-plot - 一个用于快速简便地生成数据分析和机器学习中常见图表的可视化库。
- Bowtie - 一个使用 Flask SocketIO 和 React 进行交互式可视化的大仪表板库。
- lime - Lime 用于解释机器学习分类器(或模型)的行为。它可以解释任何黑盒分类器,无论其类别数量多少。
- PyCM - PyCM 是一个用 Python 编写的多分类混淆矩阵库,支持输入数据向量和直接矩阵输入,是评估分类模型后性能的合适工具,支持大多数类别和整体统计参数。
- Dash - 一个基于 Plotly.js、React 和 Flask 构建的创建分析型 Web 应用程序的框架。
- Lambdo - 一个工作流引擎,用于解决机器学习问题,将特征工程和机器学习、模型训练和预测、以及通过用户定义的(Python)函数进行表格填充和列评估整合到一个分析管道中。
- TensorWatch - 用于机器学习和数据科学的调试和可视化工具。它广泛利用 Jupyter Notebook,在机器学习训练等运行中的过程中实时展示数据可视化。
- dowel - 一个用于机器学习研究的小型日志记录工具。只需调用一次
logger.log(),即可将任何对象输出到终端、CSV 文件、TensorBoard、磁盘上的文本日志等。 - Flama - 使用现代框架将你的模型转化为极速的机器学习 API。
其他脚本 / iPython 笔记本 / 代码库
- minidiff - 一个稍大、功能较为完整的、受 PyTorch 启发的 NumPy 张量反向模式自动微分引擎实现。
- MiniGrad – 一个极简、用于教学目的的 Python 风格自动求导实现(约 100 行代码)。
- 常见机器学习算法的 Map/Reduce 实现:Jupyter 笔记本,介绍如何使用 Python 的 NumPy 从头实现多种机器学习算法(普通最小二乘法、梯度下降法、k-means 聚类、交替最小二乘法),并进一步利用 Map/Reduce 和 Spark 使这些实现具备可扩展性。
- BioPy - 基于生物学启发和机器学习算法的 Python 实现。[已弃用]
- 用于数据同化的卷积自编码器 - 将三维图像/场压缩的卷积自编码器应用于降阶数据同化(数据同化)。
- handsonml - Python 中的机器学习基础。
- SVM 探索器 - 使用 Dash 和 scikit-learn 构建的交互式 SVM 探索器。
- pattern_classification
- thinking stats 2
- hyperopt
- numpic
- 2012-paper-diginorm
- 有趣的 iPython 笔记本图库
- ipython-notebooks
- data-science-ipython-notebooks - 持续更新的数据科学 Python 笔记本:涉及 Spark、Hadoop MapReduce、HDFS、AWS、Kaggle、scikit-learn、matplotlib、pandas、NumPy、SciPy 以及各种命令行工具。
- decision-weights
- 莎拉·佩林 LDA - 对莎拉·佩林电子邮件进行主题建模。
- 扩散分割 - 一系列基于扩散方法的图像分割算法集合。
- Scipy 教程 - SciPy 教程。此项目已过时,请参阅 scipy-lecture-notes。
- Crab - 一个用于 Python 的推荐引擎库。
- BayesPy - Python 中的贝叶斯推断工具。
- scikit-learn 教程 - 一系列用于学习 scikit-learn 的笔记本。
- 情感分析器 - 推文情感分析器。
- 情感分类器 - 使用词义消歧技术的情感分类器。
- 组套索 - 对 (稀疏) 组套索模型中使用的坐标下降算法的一些实验。
- jProcessing - 日文汉字/平假名/片假名转罗马字转换器。Edict 词典及平行句搜索。两段日语文本之间的相似度计算。日语文本的情感分析。在 Python 中运行配置为 ISO-8859-1 的 Cabocha 工具。
- mne-python-notebooks - 使用 mne-python 处理 EEG/MEG 数据的 iPython 笔记本。
- Neon 课程 - 一套完整的 iPython 笔记本,用于理解 Nervana 的 Neon 框架。
- pandas 烹饪书 - 使用 Python pandas 库的实用技巧。
- climin - 专注于机器学习的优化库,提供梯度下降、LBFGS、RMSprop、Adadelta 等算法的 Python 实现。
- 艾伦·道尼的数据科学课程 - 2014 年春季奥林学院数据科学课程的相关代码。
- 艾伦·道尼的《Think Bayes》代码 - 《Think Bayes》的代码仓库。
- 艾伦·道尼的《Think Complexity》代码 - 艾伦·道尼著作《Think Complexity》的相关代码。
- 艾伦·道尼的《Think OS》代码 - 《Think OS:操作系统简明入门》一书的文字及配套代码。
- 人文领域的 Python 编程课程 - 面向人文领域、无需先验知识的 Python 编程课程。重点在于文本处理/NLP。
- GreatCircle - 用于计算大圆距离的库。
- Optunity 示例 - 展示如何将 Optunity 与机器学习库协同使用的示例。
- 通过 Python Jupyter 笔记本和 scikit-learn 深入机器学习 - “我最初是通过动手实践学会 Python 的,后来才认真起来。我也想以同样的方式学习机器学习。如果你也有这种风格,那就跟我一起先走一步吧。”
- TDB - TensorDebugger (TDB) 是一个面向深度学习的可视化调试器。它支持 TensorFlow 的交互式逐节点调试和可视化。
- Suiron - 用于遥控车的机器学习。
- 使用 scikit-learn 学习机器学习入门 - Data School 关于 scikit-learn 的视频教程所对应的 iPython 笔记本。
- Python 中的 XGBoost 实战 - 一门关于在 Python 中使用 XGBoost 的综合在线课程。
- Python 机器学习入门 - 《Python 机器学习入门》一书的笔记本和代码。
- Pydata 书籍 - Wes McKinney 在 O'Reilly Media 出版的《Python 数据分析》一书的相关材料和 iPython 笔记本。
- 自制机器学习 - 包含交互式 Jupyter 演示和数学解释的流行机器学习算法 Python 示例。
- Prodmodel - 用于构建数据科学流水线的工具。
- the-elements-of-statistical-learning - 该仓库包含实现书中算法的 Jupyter 笔记本,以及教材内容的摘要。
- 机器学习算法超参数优化 - 用于机器学习和深度学习算法超参数调优/优化的代码。
- 心脏病预测 - 根据患者的临床参数,能否预测其是否患有心脏病?
- 航班票价预测 - 主要用于评估对机器学习工作流和回归技术的理解程度。
- Keras Tuner - 一个易于使用、可扩展的超参数优化框架,旨在解决超参数搜索中的痛点。
神经网络
- Kinho - 简单的神经网络 API。更适合在 CPU/GPU 上进行图像处理和迁移学习。
- nn_builder - nn_builder 是一个 Python 包,允许你用一行代码构建神经网络。
- NeuralTalk - NeuralTalk 是一个基于 Python 和 NumPy 的项目,用于学习多模态循环神经网络,能够用句子描述图像。
- NeuralTalk - NeuralTalk 是一个基于 Python 和 NumPy 的项目,用于学习多模态循环神经网络,能够用句子描述图像。[已弃用]
- Neuron - Neuron 是一个用于时间序列预测的简单类。它使用 LNU(线性神经元)、QNU(二次神经元)、RBF(径向基函数)、MLP(多层感知器)以及 MLP-ELM(多层感知器-极限学习机)等神经网络,并通过梯度下降或 Levenberg–Marquardt 算法进行训练。[已弃用]
- Data Driven Code - 一个非常简单的、无需任何库的神经网络实现,专为初学者设计,并配有详细注释。
- 机器学习、数据科学与深度学习:Python 实战 - 一场涵盖机器学习、TensorFlow、人工智能和神经网络的直播课程。
- TResNet: 高性能 GPU 专用架构 - TResNet 模型经过精心设计和优化,在 GPU 上实现了最佳的速度与精度平衡。
- TResNet: 简单而强大的 Python 神经网络库 - 支持多种类型的人工神经网络和学习算法。
- Jina AI - 在云端构建神经搜索的更简便方式。兼容 Jupyter Notebook。
- sequitur - 一个 PyTorch 库,只需两行代码即可创建和训练序列自编码器。
- ANEE - 适用于 Transformer 的自适应神经执行引擎。支持按 token 的稀疏推理,包括动态跳过层、基于性能分析的门控机制以及 KV 缓存安全的计算缩减。
脉冲神经网络
- Rockpool - 一个用于脉冲神经网络的机器学习库。支持使用 PyTorch 和 JAX 流水线进行训练,并可部署到神经形态硬件上。
- Sinabs - 一个基于 PyTorch 的脉冲神经网络深度学习库,专注于快速训练,并支持在神经形态硬件上进行推理。
- Tonic - 一个使下载公开可用的神经形态数据集变得轻而易举的库,并提供基于事件的数据转换/增强流水线。
Python 生存分析
- lifelines - lifelines 是一个完整的生存分析库,完全用纯 Python 编写。
- Scikit-Survival - scikit-survival 是一个基于 scikit-learn 构建的 Python 模块,用于生存分析。它允许在利用 scikit-learn 功能的同时进行生存分析,例如预处理或交叉验证。
联邦学习
- Flower - 一种统一的联邦学习、分析和评估方法。可以联邦化任何工作负载、任何机器学习框架以及任何编程语言。
- PySyft - 一个用于安全和隐私保护的深度学习 Python 库。
- TensorFlow-Federated - 一个针对去中心化数据的机器学习及其他计算任务的联邦学习框架。
Kaggle竞赛源代码
- open-solution-home-credit -> 源代码及实验结果,适用于Kaggle上的Home Credit Default Risk竞赛。
- open-solution-googleai-object-detection -> 源代码及实验结果,适用于Kaggle上的Google AI Open Images - Object Detection Track竞赛。
- open-solution-salt-identification -> 源代码及实验结果,适用于Kaggle上的TGS Salt Identification Challenge竞赛。
- open-solution-ship-detection -> 源代码及实验结果,适用于Kaggle上的Airbus Ship Detection Challenge竞赛。
- open-solution-data-science-bowl-2018 -> 源代码及实验结果,适用于Kaggle上的2018 Data Science Bowl竞赛。
- open-solution-value-prediction -> 源代码及实验结果,适用于Kaggle上的Santander Value Prediction Challenge竞赛。
- open-solution-toxic-comments -> 源代码,适用于Kaggle上的Toxic Comment Classification Challenge竞赛。
- wiki challenge - 实现了Dell Zhang在Kaggle上Wikipedia Participation Challenge竞赛中的解决方案。
- kaggle insults - 用于“检测社交评论中的侮辱性内容”的Kaggle提交。
- kaggle_acquire-valued-shoppers-challenge - Kaggle acquire valued shoppers挑战赛的代码。
- kaggle-cifar - Kaggle CIFAR-10竞赛的代码,使用cuda-convnet。
- kaggle-blackbox - 让深度学习变得简单。
- kaggle-accelerometer - Kaggle加速度计生物特征识别竞赛的代码。
- kaggle-advertised-salaries - 从招聘广告中预测工作薪资——一项Kaggle竞赛。
- kaggle amazon - Amazon门禁控制挑战赛。
- kaggle-bestbuy_big - Best Buy竞赛的代码。
- kaggle-bestbuy_small
- Kaggle Dogs vs. Cats - Kaggle Dogs vs. Cats竞赛的代码。
- Kaggle Galaxy Challenge - 在Kaggle上赢得Galaxy Challenge竞赛的解决方案。
- Kaggle Gender - 一项Kaggle竞赛:根据笔迹判断性别。
- Kaggle Merck - Merck公司在Kaggle上的挑战赛。
- Kaggle Stackoverflow - 预测Stack Overflow上的已关闭问题。
- kaggle_acquire-valued-shoppers-challenge - Kaggle acquire valued shoppers挑战赛的代码。
- wine-quality - 预测葡萄酒质量。
强化学习
- DeepMind Lab - DeepMind Lab 是一个基于 id Software 的 Quake III Arena(通过 ioquake3 和其他开源软件实现)的 3D 学习环境。其主要目的是作为人工智能研究的测试平台,尤其是深度强化学习。
- Gymnasium - 用于开发和比较强化学习算法的库(gym 的继任者)。
- Serpent.AI - Serpent.AI 是一个游戏智能体框架,允许你将拥有的任何视频游戏变成一个沙盒环境,用于开发人工智能和机器学习实验。适用于研究人员和爱好者。
- ViZDoom - ViZDoom 允许仅使用视觉信息(屏幕缓冲区)来开发能够玩 Doom 游戏的人工智能机器人。它主要用于机器视觉学习以及深度强化学习的研究。
- Roboschool - 与 OpenAI Gym 集成的开源机器人仿真软件。
- Retro - Gym 中的经典游戏。
- SLM Lab - 基于 PyTorch 的模块化深度强化学习框架。
- Coach - 英特尔® AI 实验室推出的强化学习教练工具,可轻松尝试最先进的强化学习算法。
- garage - 用于可复现强化学习研究的工具包。
- metaworld - 一个面向元任务和多任务强化学习的开源机器人基准测试平台。
- acme - 一个开源分布式强化学习框架,使构建和训练智能体变得简单。
- Spinning Up - 一个教育资源,旨在帮助任何人学习并成为深度强化学习领域的熟练从业者。
- Maze - 一个面向应用的深度强化学习框架,用于解决现实世界的决策问题。
- RLlib - RLLib 是一个基于 Ray 的工业级、高度可扩展的强化学习库,支持 TensorFlow 和 PyTorch。亚马逊、微软等公司使用该库大规模解决现实中的决策问题。
- DI-engine - DI-engine 是一个通用的决策智能引擎。它支持大多数基础的深度强化学习(DRL)算法,如 DQN、PPO、SAC,以及特定领域的算法,例如多智能体强化学习中的 QMIX、逆向强化学习中的 GAIL 和探索问题中的 RND。
- Gym4ReaL - Gym4ReaL 是一套全面的现实环境,旨在支持在真实场景中运行的强化学习算法的开发和评估。该套件包含多种任务,使强化学习算法能够面对各种实际挑战。
语音识别
- EspNet - ESPnet 是一个端到端语音处理工具包,可用于语音识别、翻译和增强等任务,采用 PyTorch 和 Kaldi 风格的数据处理方式。
开发工具
- CodeFlash.AI – CodeFlash.AI – 每次都能快速部署高效的 Python 代码。
Ruby
自然语言处理
- Awesome NLP with Ruby - 一个精选的 Ruby 自然语言处理实用资源链接列表。
- Treat - 文本检索与标注工具包,迄今为止我遇到的最全面的 Ruby 工具包。
- Stemmer - 将 libstemmer_c 暴露给 Ruby。[已弃用]
- Raspell - raspell 是一个用于 Ruby 的接口绑定。[已弃用]
- UEA Stemmer - UEALite 词干提取器的 Ruby 移植版,适用于搜索和索引的保守型词干提取器。
- Twitter-text-rb - 一个库,用于自动链接并提取推文中的用户名、列表和话题标签。
通用机器学习
- Awesome Machine Learning with Ruby - 一个精选的 Ruby 机器学习相关资源列表。
- Ruby Machine Learning - 一些用 Ruby 实现的机器学习算法。[已弃用]
- Machine Learning Ruby [已弃用]
- jRuby Mahout - JRuby Mahout 是一个 Gem,能够在 JRuby 环境中使用 Apache Mahout 的强大功能。[已弃用]
- CardMagic-Classifier - 一个通用分类器模块,支持贝叶斯和其他类型的分类。
- rb-libsvm - LIBSVM 的 Ruby 语言绑定,LIBSVM 是一个支持向量机库。
- Scoruby - 从 PMML 文件创建随机森林分类器。
- rumale - Rumale 是一个用 Ruby 编写的机器学习库。
数据分析 / 数据可视化
- rsruby - Ruby-R 桥接工具。
- data-visualization-ruby - 我在 Ruby Manor 上关于用 Ruby 进行数据可视化的演示文稿的源代码及配套内容。[已弃用]
- ruby-plot - gnuplot 的 Ruby 封装,特别适合将 ROC 曲线绘制为 SVG 文件。[已弃用]
- plot-rb - 基于 Vega 和 D3 构建的 Ruby 绘图库。[已弃用]
- scruffy - 一个美观的 Ruby 图表工具包。
- SciRuby
- Glean - 一款面向人类的数据管理工具。[已弃用]
- Bioruby
- Arel [已弃用]
其他
- Big Data For Chimps
- Listof - 一个基于社区的数据收集工具,打包成 Gem。可以获取几乎任何内容的列表(停用词、国家、非单词等),格式包括 txt、JSON 或哈希。演示/搜索列表
Rust
通用机器学习
- smartcore - “Rust 中最先进的机器学习库。”
- linfa - 一个全面的工具包,用于使用 Rust 构建机器学习应用。
- deeplearn-rs - deeplearn-rs 提供简单的网络,使用矩阵乘法、加法和 ReLU 激活函数,采用 MIT 许可证。
- rustlearn - 一个机器学习框架,包含逻辑回归、支持向量机、决策树和随机森林。
- rusty-machine - 一个纯 Rust 编写的机器学习库。
- leaf - 开源机器智能框架,借鉴了 TensorFlow 和 Caffe 的概念,采用 MIT 许可证。[已弃用]
- RustNN - RustNN 是一个前馈神经网络库。[已弃用]
- RusticSOM - 一个用于自组织映射(SOM)的 Rust 库。
- candle - Candle 是一个极简的 Rust 机器学习框架,专注于性能(包括 GPU 支持)和易用性。
- linfa -
linfa旨在提供一个全面的工具包,用于使用 Rust 构建机器学习应用程序。 - delta - 一个开源的 Rust 机器学习框架 Δ。
深度学习
- tch-rs - PyTorch C++ API 的 Rust 绑定。
- dfdx - 在 Rust 中进行深度学习,使用形状检查的张量和神经网络。
- burn - Burn 是一个全新的综合性动态深度学习框架,使用 Rust 构建,以极致的灵活性、计算效率和可移植性为主要目标。
自然语言处理
- huggingface/tokenizers - 高速、最先进的分词器,专为研究和生产优化。
- rust-bert - Rust 原生的即用型 NLP 流程和基于 Transformer 的模型(BERT、DistilBERT、GPT2 等)。
- shimmy - 一个无需 Python 的 Rust 推理服务器,用于 NLP 模型,兼容 OpenAI API 并支持热插拔模型。
R
通用机器学习
- ahaz - ahaz:半参数可加风险回归的正则化。[已弃用]
- arules - arules:关联规则与频繁项集挖掘
- biglasso - biglasso:将Lasso模型拟合扩展到R中的大数据。
- bmrm - bmrm:用于正则化风险最小化的束方法包。
- Boruta - Boruta:一种用于全相关特征选择的包装器算法。
- bst - bst:梯度提升。
- C50 - C50:C5.0决策树和基于规则的模型。
- caret - 分类与回归训练:R中约150种机器学习算法的统一接口。
- caretEnsemble - caretEnsemble:用于拟合多个caret模型以及创建这些模型集成的框架。[已弃用]
- CatBoost - 一个通用的基于决策树的梯度提升库,原生支持分类特征,适用于R语言。
- 机器学习巧妙算法
- CORElearn - CORElearn:分类、回归、特征评估及序数评估。 -* CoxBoost - CoxBoost:基于似然的提升方法构建Cox模型,适用于单一生存终点或竞争风险场景。[已弃用]
- Cubist - Cubist:基于规则和实例的回归建模。
- e1071 - e1071:维也纳工业大学统计系的辅助函数(e1071)。
- earth - earth:多元自适应回归样条模型。
- elasticnet - elasticnet:稀疏估计与稀疏PCA的弹性网络。
- ElemStatLearn - ElemStatLearn:来自特雷弗·哈斯蒂、罗伯特·蒂布希拉尼和杰罗姆·弗里德曼所著《统计学习要素:数据挖掘、推断与预测》一书中的数据集、函数及示例。
- evtree - evtree:全局最优决策树的进化学习。
- forecast - forecast:使用ARIMA、ETS、STLM、TBATS及神经网络模型进行时间序列预测。
- forecastHybrid - forecastHybrid:自动集成并交叉验证来自“forecast”包中的ARIMA、ETS、STLM、TBATS及神经网络模型。
- fpc - fpc:灵活的聚类程序。
- frbs - frbs:用于分类和回归任务的模糊规则系统。[已弃用]
- GAMBoost - GAMBoost:基于似然的广义线性与可加模型提升。[已弃用]
- gamboostLSS - gamboostLSS:用于GAMLSS的提升方法。
- gbm - gbm:广义提升回归模型。
- glmnet - glmnet:Lasso及弹性网正则化的广义线性模型。
- glmpath - glmpath:广义线性模型与Cox比例风险模型的L1正则化路径。
- GMMBoost - GMMBoost:基于似然的广义混合模型提升。[已弃用]
- grplasso - grplasso:拟合带有组Lasso惩罚的用户指定模型。
- grpreg - grpreg:具有分组协变量的回归模型的正则化路径。
- h2o - 一个用于大规模快速、并行及分布式机器学习算法的框架——深度学习、随机森林、GBM、K均值、PCA、GLM。
- hda - hda:异方差判别分析。[已弃用]
- 统计学习导论
- ipred - ipred:改进的预测器。
- kernlab - kernlab:基于核的机器学习实验室。
- klaR - klaR:分类与可视化。
- L0Learn - L0Learn:用于最佳子集选择的快速算法。
- lars - lars:最小角回归、Lasso及前向逐步法。[已弃用]
- lasso2 - lasso2:L1约束估计,即‘Lasso’。
- LiblineaR - LiblineaR:基于Liblinear C/C++库的线性预测模型。
- LogicReg - LogicReg:逻辑回归。
- 黑客的机器学习
- maptree - maptree:映射、修剪和绘制树模型。[已弃用]
- mboost - mboost:基于模型的提升。
- medley - medley:采用贪婪逐步法融合回归模型。
- mlr - mlr:R中的机器学习。
- ncvreg - ncvreg:SCAD和MCP惩罚回归模型的正则化路径。
- nnet - nnet:前馈神经网络和多项式对数线性模型。[已弃用]
- pamr - pamr:微阵列预测分析。[已弃用]
- party - party:递归划分实验室。
- partykit - partykit:递归划分工具包。
- penalized - penalized:在广义线性模型和Cox模型中进行L1(Lasso和融合Lasso)及L2(岭回归)惩罚估计。
- penalizedLDA - penalizedLDA:使用Fisher线性判别进行惩罚分类。[已弃用]
- penalizedSVM - penalizedSVM:利用惩罚函数进行特征选择的支持向量机。
- quantregForest - quantregForest:分位数回归森林。
- randomForest - randomForest:Breiman和Cutler的随机森林,用于分类和回归。
- randomForestSRC - randomForestSRC:用于生存、回归和分类的随机森林(RF-SRC)。
- rattle - rattle:R中用于数据挖掘的图形用户界面。
- rda - rda:收缩质心正则化判别分析。
- rdetools - rdetools:特征空间中的相关维度估计(RDE)。[已弃用]
- REEMtree - REEMtree:用于纵向(面板)数据的随机效应回归树。[已弃用]
- relaxo - relaxo:放松的Lasso。[已弃用]
- rgenoud - rgenoud:GENetic Optimization Using Derivatives的R版本。
- Rmalschains - Rmalschains:在R中使用带有局部搜索链的膜因算法(MA-LS-Chains)进行连续优化。
- rminer - rminer:简化了数据挖掘方法(如NN和SVM)在分类和回归中的应用。[已弃用]
- ROCR - ROCR:用于可视化评分分类器性能的工具。[已弃用]
- RoughSets - RoughSets:使用粗糙集和模糊粗糙集理论进行数据分析。[已弃用]
- rpart - rpart:递归划分与回归树。
- RPMM - RPMM:递归划分混合模型。
- RSNNS - RSNNS:使用斯图加特神经网络模拟器(SNNS)在R中实现的神经网络。
- RWeka - RWeka:R/Weka接口。
- RXshrink - RXshrink:通过广义岭回归或最小角回归实现最大似然收缩。
- sda - sda:收缩判别分析与CAT分数变量选择。[已弃用]
- spectralGraphTopology - spectralGraphTopology:通过光谱约束从数据中学习图结构。
- SuperLearner - 多算法集成学习包。
- svmpath - svmpath:SVM路径算法。[已弃用]
- tgp - tgp:贝叶斯树状高斯过程模型。[已弃用]
- tree - tree:分类与回归树。
- varSelRF - varSelRF:使用随机森林进行变量选择。
- XGBoost.R - 极端梯度提升(Tree)库的R绑定。
- Optunity - 一个致力于自动化超参数优化的库,提供简单轻量级的API,便于直接替代网格搜索。Optunity使用Python编写,但可与R无缝对接。
- igraph - igraph库的R绑定——通用图库。
- MXNet - 轻量级、可移植、灵活的分布式/移动深度学习框架,具备动态且能感知突变的数据流调度器;适用于Python、R、Julia、Go、JavaScript等多种语言。
- TDSP-Utilities - 来自微软的两个R语言数据科学工具:1) 交互式数据探索、分析与报告(IDEAR);2) 自动化建模与报告(AMR)。
- clugenr - 在R中进行多维聚类生成。
数据处理 | 数据分析 | 数据可视化
- data.table -
data.table提供了 R 语言基础数据框data.frame的高性能版本,并在语法和功能上进行了增强,以提升易用性、便利性和编程速度。 - dplyr - 一个用于解决最常见的数据操作问题的数据处理包。
- ggplot2 - 基于图形语法的数据可视化包。
- tmap 用于通过静态地图可视化地理空间数据,而 leaflet 则用于交互式地图。
- tm 和 quanteda 是管理、分析和可视化文本数据的主要包。
- shiny 是 R 语言中实现真正交互式展示和仪表板的基础。不过,借助 htmlwidgets 将 JavaScript 库引入 R,也可以实现一定程度的交互性。这些工具包括 plotly、dygraphs、highcharter 等多个库。
SAS
通用机器学习
- Visual Data Mining and Machine Learning - 在端到端的分析环境中,利用最新的机器学习算法进行交互式、自动化及程序化的建模,涵盖从数据准备到部署的全流程。提供免费试用。
- Enterprise Miner - 通过 GUI 或代码创建可部署的数据挖掘与机器学习模型。
- Factory Miner - 使用 GUI 自动为多个市场或客户细分创建可部署的机器学习模型。
数据分析 / 数据可视化
- SAS/STAT - 用于进行高级统计分析。
- University Edition - 免费!包含数据分析和可视化所需的所有 SAS 软件包,并附带在线 SAS 课程。
自然语言处理
- Contextual Analysis - 使用 GUI 为非结构化文本添加结构。
- Sentiment Analysis - 使用 GUI 从文本中提取情感。
- Text Miner - 使用 GUI 或代码进行文本挖掘。
演示与脚本
- ML_Tables - 包含机器学习最佳实践的简洁速查表。
- enlighten-apply - 展示 SAS 机器学习技术应用的示例代码和资料。
- enlighten-integration - 展示如何将 SAS 与其他分析技术(如 Java、PMML、Python 和 R)集成的示例代码和资料。
- enlighten-deep - 展示如何在 SAS 中使用具有多层隐藏神经网络的示例代码和资料。
- dm-flow - SAS Enterprise Miner 流程图库,帮助您通过具体案例学习特定的数据挖掘主题。
Scala
自然语言处理
- ScalaNLP - ScalaNLP 是一套机器学习和数值计算库。
- Breeze - Breeze 是 Scala 的数值处理库。
- Chalk - Chalk 是一个自然语言处理库。[已弃用]
- FACTORIE - FACTORIE 是一个可部署的概率建模工具包,以 Scala 软件库的形式实现。它为用户提供了一种简洁的语言来创建关系因子图、估计参数并进行推理。
- Montague - Montague 是一个基于 Scala 的语义解析库,带有易于使用的 DSL。
- Spark NLP - 基于 Apache Spark ML 构建的自然语言处理库,旨在为机器学习流水线提供简单、高效且准确的 NLP 注释,并且在分布式环境中易于扩展。
数据分析 / 数据可视化
- NDScala - Scala 3 中的 N 维数组。类似于 NumPy 的 ndarray,但具有编译时对形状、张量/轴标签及数值数据类型的类型检查和推断功能。
- Apache Spark 中的 MLlib - Spark 中的分布式机器学习库。
- Hydrosphere Mist - 用于将 Apache Spark MLlib 机器学习模型部署为实时、批处理或响应式 Web 服务的服务。
- Scalding - Cascading 的 Scala API。
- Summing Bird - 使用 Scalding 和 Storm 的流式 MapReduce。
- Algebird - Scala 的抽象代数库。
- xerial - Scala 的数据管理工具。[已弃用]
- PredictionIO - PredictionIO 是一款面向软件开发者和数据工程师的机器学习服务器。
- BIDMat - CPU 和 GPU 加速的矩阵库,旨在支持大规模探索性数据分析。
- Flink - 开源的分布式流和批处理数据平台。
- Spark Notebook - 使用 Scala 和 Spark 进行交互式和响应式数据科学。
通用机器学习
- Microsoft ML for Apache Spark -> Apache Spark 的分布式机器学习框架。
- ONNX-Scala - ONNX(开放神经网络交换)API 和后端,用于 Scala (3) 中的类型安全、函数式的深度学习。
- DeepLearning.scala - 使用面向对象和函数式编程结构创建静态类型动态神经网络。
- Conjecture - 在 Scalding 中进行可扩展的机器学习。
- brushfire - Scala 中的分布式决策树集成学习。
- ganitha - 基于 Scalding 的机器学习。[已弃用]
- adam - 一个使用 Apache Avro、Apache Spark 和 Parquet 构建的基因组学处理引擎及专用文件格式。采用 Apache 2 许可证。
- bioscala - 面向 Scala 编程语言的生物信息学工具。
- BIDMach - CPU 和 GPU 加速的机器学习库。
- Figaro - 用于构建概率模型的 Scala 库。
- H2O Sparkling Water - H2O 和 Spark 的互操作性。
- Apache Flink 中的 FlinkML - Flink 中的分布式机器学习库。
- DynaML - 用于机器学习研究的 Scala 库/REPL。
- Saul - 灵活的声明式学习型编程。
- SwiftLearner - 简单编写的算法,帮助学习机器学习或编写自己的实现。
- Smile - 统计机器智能与学习引擎。
- doddle-model - 基于 Breeze 构建的内存中机器学习库。它提供不可变对象,并通过类似 scikit-learn 的 API 暴露其功能。
- TensorFlow Scala - TensorFlow 的强类型 Scala API。
- isolation-forest - 分布式 Spark/Scala 实现的孤立森林算法,用于无监督异常检测,支持可扩展训练和 ONNX 导出,便于跨平台推理。
Scheme
神经网络
- layer - 命令行中的神经网络推理,由 CHICKEN Scheme 实现。
Swift
通用机器学习
- Bender - 基于Metal构建的快速神经网络框架。支持TensorFlow模型。
- Swift AI - 用Swift编写的高度优化的人工智能和机器学习库。
- Swift for Tensorflow - 一个下一代机器学习平台,融合了机器学习、编译器、可微分编程、系统设计等领域的最新研究成果。
- BrainCore - iOS和OS X上的神经网络框架。
- swix - 一个基础库,包含通用矩阵语言,并为iOS开发封装了一些OpenCV功能。[已弃用]
- AIToolbox - 用Swift编写的AI模块工具箱:图/树结构、线性回归、支持向量机、神经网络、PCA、K均值聚类、遗传算法、MDP、高斯混合模型。
- MLKit - 用Swift编写的简单机器学习框架。目前支持简单线性回归、多项式回归和岭回归。
- Swift Brain - 第一个用Swift编写的神经网络/机器学习库。这是一个用于iOS和OS X开发的Swift人工智能算法项目。该项目包括基于贝叶斯定理、神经网络、SVM、矩阵等的算法。
- Perfect TensorFlow - TensorFlow的Swift语言绑定。可在macOS/Linux上使用原生TensorFlow模型。
- PredictionBuilder - 一个利用线性回归构建预测的机器学习库。
- Awesome CoreML - 精选的预训练CoreML模型列表。
- Awesome Core ML Models - CoreML格式的机器学习模型精选列表。
TensorFlow
通用机器学习
- Awesome Keras - 精选的优秀Keras项目、库和资源列表。
- Awesome TensorFlow - 所有与TensorFlow相关的内容列表。
- Golden TensorFlow - 关于TensorFlow的内容页面,包括学术论文及相关主题链接。
工具
神经网络
- layer - 命令行下的神经网络推理
其他
- Wallaroo.AI - 用于在从云端到边缘的任何环境中大规模部署、管理和监控任意模型的生产级AI平台。只需几分钟,即可将Python笔记本转换为推理服务。
- Infinity - 专为LLM应用打造的原生AI数据库,提供极快的向量搜索和全文搜索功能。基于C++20开发。
- Synthical - 基于AI的协作式科研环境。用户可根据阅读历史获取文献推荐,简化论文内容,了解热门文章,按语义而非关键词搜索文献,创建并分享文献文件夹,查看特定公司和大学的文献列表,并添加高亮标注。
- Humanloop – Humanloop是一个用于提示工程实验、微调模型以提升性能、优化成本以及收集模型生成数据和用户反馈的平台。
- Qdrant – Qdrant是一款使用Rust编写的开源向量相似性搜索引擎,支持扩展过滤功能。
- Localforge – 是一款开源的本地AI编码自主助手,直接运行在用户的代码仓库中,以SSD级别的速度编辑和测试文件。类似于Claude Code,但带有UI界面。用户可以接入任何LLM(OpenAI、Gemini、Ollama等),让其自动完成工作。
- Milvus – Milvus是一款用Go和C++编写的开源向量数据库,专为生产环境中的AI应用设计,可扩展且速度极快,适用于数十亿条嵌入向量。
- Weaviate – Weaviate是一款开源向量搜索引擎和向量数据库。它利用机器学习技术对数据进行向量化存储,并能回答自然语言查询。此外,用户还可以将自定义的ML模型部署到生产规模。
- Txtai - 用于构建语义搜索应用和工作流。
- MLReef - MLReef是一个端到端开发平台,借助Git的强大功能为机器学习开发流程提供结构化支持和深度协作能力。
- Chroma - 面向AI应用的开源搜索与检索数据库。支持向量、全文、正则表达式和元数据搜索。可自托管或使用云服务。
- Pinecone - 专为需要实时、可扩展的向量嵌入和相似性搜索的应用设计的向量数据库。
- CatalyzeX - 浏览器扩展程序(适用于Chrome和Firefox),能够自动查找并展示机器学习论文中的代码实现,无论这些论文发布在Google、Twitter、Arxiv、Scholar等何处。
- ML Workspace - 一体化的基于Web的机器学习与数据科学集成开发环境。该工作区以Docker容器形式部署,预装了多种流行的数据科学库(如TensorFlow、PyTorch)和开发工具(如Jupyter、VS Code)。
- Notebooks - Jupyter笔记本与机器学习的入门套件。配套的Docker镜像包含了所有可能的Python版本、机器学习框架(Keras、PyTorch和TensorFlow)以及CPU/CUDA版本的组合。
- Deepnote - Deepnote是Jupyter的替代品,采用以AI为核心的全新设计,界面简洁现代,新增区块功能,并支持原生数据集成。用户可以在本地使用Python、R和SQL在自己喜欢的IDE中进行开发,随后无缝迁移到Deepnote云端,实现实时协作、使用Deepnote代理以及部署可扩展的数据应用。
- DVC - 数据科学版本控制系统,是一款支持流水线的开源版本控制工具,使机器学习项目具备可重复性和可共享性。
- DVClive - 用于将实验指标记录到格式简单的本地文件中的Python库。
- VDP - 开源视觉数据ETL工具,用于简化端到端的视觉数据处理流程:从预建数据源中提取非结构化视觉数据,通过从不同ML平台导入的视觉AI模型将其转化为可分析的结构化洞察,并将这些洞察加载到数据仓库或应用程序中。
- Kedro - Kedro是一个数据与开发工作流框架,遵循最佳实践来构建数据流水线,特别关注于机器学习模型的生产化。
- Hamilton - 一个轻量级库,用于将数据转换定义为有向无环图(DAG)。它有助于构建可靠的功能工程和机器学习流水线等。
- Guild.ai - 用于记录、分析、比较和“优化”实验的工具。它跨平台且不依赖特定框架,并提供TensorBoard等集成可视化工具。
- Sacred - Python工具,帮助用户配置、组织、记录和重现实验。类似于化学/生物学领域的实验室笔记本。社区基于这一标准开发了多个插件。
- Comet - 用于跟踪实验、超参数、产出物等的机器学习平台。它与超过15种深度学习框架和编排工具深度集成。用户还可利用该平台监控生产环境中的模型。
- MLflow - 用于管理机器学习生命周期的平台,涵盖实验、可重复性和部署等环节。与框架和语言无关,请查看其内置的各种集成。
- Weights & Biases - 用于机器学习实验跟踪、数据集版本控制、超参数搜索、可视化及协作。
- 更多用于改善机器学习生命周期的工具:Catalyst、PachydermIO。以下是一些类似GitHub的平台,面向团队用户:Weights & Biases、Neptune.ai、Comet.ml、Valohai.ai、DAGsHub。
- Arize AI - 模型验证与性能监控、漂移检测、可解释性、跨结构化与非结构化数据的可视化。
- MachineLearningWithTensorFlow2ed - 一本关于通用机器学习技术的书籍,内容包括回归、分类、无监督聚类、强化学习、自编码器、卷积神经网络、RNN、LSTM等,并使用TensorFlow 1.14.1版本。
- m2cgen - 一款工具,可将机器学习模型转换为原生代码(Java、C、Python、Go、JavaScript、Visual Basic、C#、R、PowerShell、PHP、Dart),且无任何依赖。
- CML - 用于机器学习项目的持续集成库。结合GitHub Actions和GitLab CI,在类似生产环境的条件下训练和评估模型,并在拉取/合并请求中自动生成包含指标和图表的可视化报告。与框架和语言无关。
- Pythonizr - 一个在线工具,用于生成基于scikit-learn的机器学习模板代码。
- Flyte - Flyte使创建并发、可扩展且易于维护的机器学习和数据处理工作流变得简单。
- GPU Per Hour - 实时对比30多家服务商的GPU云价格。
- Chaos Genius - 基于ML的异常检测与根本原因分析引擎。
- MLEM - 按照GitOps原则对ML模型进行版本控制和部署。
- DockerDL - 即用型深度学习Docker镜像。
- Aqueduct - Aqueduct让用户能够在任何云基础设施上轻松定义、运行和管理AI与ML任务。
- Ambrosia - Ambrosia利用其他LLM清理您的LLM数据集。
- Fiddler AI - 一站式负责任AI可观ability与安全平台。它提供监控、分析和集中式控制功能,帮助企业以可信的方式运营ML、生成式AI和LLM应用。Fiddler助力企业规模化部署LLM和ML系统,实现高性能AI、降低成本并确保合规治理。
- Maxim AI - 一款用于模拟、评估和可观ability的平台,帮助产品团队以满足实际应用所需的质量和速度交付AI应用。
- Promptfoo - 开源的LLM评估与红队框架。可用于测试提示词、模型、智能体和RAG流水线。支持对抗性攻击(越狱、提示注入)并将安全测试集成到CI/CD流程中。
- Agentic Radar - 开源的CLI安全扫描工具,专用于智能体工作流。它扫描工作流的源代码,检测漏洞,并生成交互式可视化结果及详细的安全报告。支持LangGraph、CrewAI、n8n、OpenAI Agents等。
- ClawMoat - 开源的AI智能体运行时安全扫描工具。可检测提示注入、越狱、PII泄露、内存中毒和工具滥用。无依赖,采用MIT许可证。
- Agentic Signal - 基于本地LLM的视觉AI智能体工作流自动化平台。无需云端,即可通过拖放方式构建智能工作流。
- Agentfield - 开源的Kubernetes风格控制平面,用于将AI智能体部署为分布式微服务,内置服务发现、持久化工作流和可观ability功能。
- ScribePal - Chrome扩展程序,利用本地LLM根据当前标签页的内容辅助撰写和草拟回复。
- Local LLM NPC - Godot 4.x资源,使NPC能够与玩家互动,使用本地LLM进行结构化的离线优先对话,适用于游戏场景。
- Awesome Hugging Face Models - 精选的Hugging Face顶级模型列表,涵盖NLP、视觉和音频任务,并附有演示和基准测试。
- PraisonAI - 一款开箱即用的多智能体框架,具备自我反思能力。最快智能体实例化时间仅为3.77μs,支持通过LiteLLM接入100+ LLM,集成MCP,支持路由、并行、循环和重复等智能体工作流,内置记忆模块,并提供Python和JS SDK。
- RunAnywhere - 开源SDK,可在iOS、Android及跨平台应用中直接在设备端运行LLM和多模态模型。
- HyperAgency - 一款智能体AI操作系统(h9y.ai),用长期稳定、自我改进的系统取代脆弱且碎片化的自动化流程。开源、可自托管或使用云服务,支持可视化工作流、全渠道、去中心化和可扩展性。
- Bread Dataset Viewer - VS Code扩展程序,用于在编辑器内直接查看和探索大型机器学习数据集(CSV、JSON、Parquet等),且不会导致VS Code崩溃,界面简洁清晰。
- Bread WandB Viewer - VS Code扩展程序,可在IDE内查看Weights & Biases的实验、日志和产出物,无需切换到网页界面,同时保护数据隐私。
书籍
- 分布式机器学习模式 - 本书教你如何将机器学习模型从个人笔记本电脑部署到大型分布式集群中。你将探索成功分布式机器学习系统背后的关键概念和模式,并由一位核心维护者和贡献者直接讲解TensorFlow、Kubernetes、Kubeflow和Argo Workflows等技术,结合真实场景和动手项目进行学习。
- 掌握机器学习 - 《掌握机器学习》教你仅使用标准Python代码和高中水平的数学知识,就能将机器学习应用到自己的项目中。
- 机器学习书营 - 通过完成一套精心设计的真实世界项目,学习机器学习的核心知识。
- 用Scikit-Learn、Keras和TensorFlow动手实践机器学习 - 近年来,深度学习领域的突破性进展极大地推动了整个机器学习领域的发展。如今,即使对这项技术几乎一无所知的程序员,也可以使用简单高效的工具来实现能够从数据中学习的程序。这本畅销书通过具体的示例、尽量精简的理论以及可用于生产环境的Python框架(Scikit-Learn、Keras和TensorFlow),帮助你直观地理解构建智能系统所需的概念和工具。
- 机器学习入门书籍 - 该博客提供了一份精选的入门书籍清单,旨在帮助有志于从事机器学习工作的人员掌握基础的机器学习概念和技术。
- Netron - 一款用于查看神经网络、深度学习和机器学习模型的开源工具
- Teachable Machine - 可以即时训练机器学习模型,识别你自己的图像、声音和姿势。
- Pollinations.AI - 提供免费且无需注册的文本、图像和音频生成API,无需API密钥。支持与OpenAI兼容的接口和React钩子,便于集成。
- Model Zoo - 发现开源的深度学习代码和预训练模型。
致谢
- 部分Python库摘录自vinta
- Go语言的相关参考资料大多摘录自gopherdata
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。