litellm
litellm 是一款开源的 Python SDK 和代理服务器,旨在简化大语言模型(LLM)的调用与管理。它最核心的价值在于统一了接口标准,允许开发者通过单一的 OpenAI 格式轻松访问超过 100 种不同的 LLM 服务,涵盖 OpenAI、Anthropic、Azure、AWS Bedrock 等主流平台。
针对多模型接入时 API 格式各异、切换成本高的问题,litellm 屏蔽了底层差异,让集成过程变得像调用原生 OpenAI 一样简单。此外,它还提供了成本追踪、请求日志、流量负载均衡及安全护栏等高级功能,帮助团队有效管控 AI 使用风险与预算。
这款工具特别适合需要快速验证不同模型效果的开发者、构建复杂 AI 应用的研究人员,以及希望搭建统一 AI 网关的企业团队。无论是通过 Python 代码直接调用,还是部署为本地代理服务器,litellm 都提供了灵活的支持,并能兼容 LangGraph 等 Agent 框架,是构建稳定、可扩展 AI 应用的理想基础设施。
使用场景
某电商团队正在开发智能客服系统,需要同时接入 OpenAI、Anthropic 和 Azure 等多个大模型以平衡成本与效果。
没有 litellm 时
- 每个模型都需要单独编写适配代码,不同厂商的 API 返回格式不一致导致维护成本极高。
- 想要切换更便宜的模型时,必须修改多处业务逻辑代码,测试和上线风险巨大。
- 无法统一统计各模型的调用费用,财务部门难以进行精确的成本对账。
- 缺乏统一的限流和熔断机制,高峰期容易触发第三方服务的频率限制导致服务中断。
使用 litellm 后
- litellm 提供统一的 OpenAI 格式接口,一套代码即可无缝调用所有支持的模型。
- 通过配置文件即可动态切换后端模型,无需改动核心业务层代码,迭代效率大幅提升。
- 内置成本追踪功能,自动记录每次调用的 Token 消耗和金额,实现精细化预算管理。
- 部署 litellm 代理服务器支持负载均衡,自动分配请求避免单点故障并提升稳定性。
litellm 通过标准化接口和网关能力,显著降低了多模型集成的复杂度与管理成本。
运行环境要求
- 未说明
未说明
未说明

快速开始
🚅 LiteLLM
以 OpenAI 格式调用 100+ 个大型语言模型 (LLM)。[Bedrock, Azure, OpenAI, VertexAI, Anthropic, Groq 等]
LiteLLM 代理服务器 (AI 网关) | 托管代理 | 企业版
使用 LiteLLM 进行
大型语言模型 (LLMs) - 调用 100+ 个大型语言模型 (Python SDK + AI 网关)
所有支持的端点 - /chat/completions, /responses, /embeddings, /images, /audio, /batches, /rerank, /a2a, /messages 以及更多。
Python SDK
pip install litellm
from litellm import completion
import os
os.environ["OPENAI_API_KEY"] = "your-openai-key"
os.environ["ANTHROPIC_API_KEY"] = "your-anthropic-key"
# OpenAI
response = completion(model="openai/gpt-4o", messages=[{"role": "user", "content": "Hello!"}])
# Anthropic
response = completion(model="anthropic/claude-sonnet-4-20250514", messages=[{"role": "user", "content": "Hello!"}])
AI 网关 (代理服务器)
入门指南 - 端到端教程 - 设置虚拟密钥,发起您的第一个请求
pip install 'litellm[proxy]'
litellm --model gpt-4o
import openai
client = openai.OpenAI(api_key="anything", base_url="http://0.0.0.0:4000")
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "Hello!"}]
)
智能体 (Agents) - 调用 A2A 智能体 (Python SDK + AI 网关)
支持的提供商 - LangGraph, Vertex AI Agent Engine, Azure AI Foundry, Bedrock AgentCore, Pydantic AI
Python SDK - A2A 协议
from litellm.a2a_protocol import A2AClient
from a2a.types import SendMessageRequest, MessageSendParams
from uuid import uuid4
client = A2AClient(base_url="http://localhost:10001")
request = SendMessageRequest(
id=str(uuid4()),
params=MessageSendParams(
message={
"role": "user",
"parts": [{"kind": "text", "text": "Hello!"}],
"messageId": uuid4().hex,
}
)
)
response = await client.send_message(request)
AI 网关 (代理服务器)
步骤 1. 将您的智能体添加到 AI 网关
步骤 2. 通过 A2A SDK 调用智能体
from a2a.client import A2ACardResolver, A2AClient
from a2a.types import MessageSendParams, SendMessageRequest
from uuid import uuid4
import httpx
base_url = "http://localhost:4000/a2a/my-agent" # LiteLLM 代理 + 智能体名称
headers = {"Authorization": "Bearer sk-1234"} # LiteLLM 虚拟密钥
async with httpx.AsyncClient(headers=headers) as httpx_client:
resolver = A2ACardResolver(httpx_client=httpx_client, base_url=base_url)
agent_card = await resolver.get_agent_card()
client = A2AClient(httpx_client=httpx_client, agent_card=agent_card)
request = SendMessageRequest(
id=str(uuid4()),
params=MessageSendParams(
message={
"role": "user",
"parts": [{"kind": "text", "text": "Hello!"}],
"messageId": uuid4().hex,
}
)
)
response = await client.send_message(request)
MCP 工具 - 将 MCP 服务器连接到任意 LLM (Python SDK + AI 网关)
Python SDK - MCP 桥接
from mcp import ClientSession, StdioServerParameters
from mcp.client.stdio import stdio_client
from litellm import experimental_mcp_client
import litellm
server_params = StdioServerParameters(command="python", args=["mcp_server.py"])
async with stdio_client(server_params) as (read, write):
async with ClientSession(read, write) as session:
await session.initialize()
# Load MCP tools in OpenAI format
tools = await experimental_mcp_client.load_mcp_tools(session=session, format="openai")
# Use with any LiteLLM model
response = await litellm.acompletion(
model="gpt-4o",
messages=[{"role": "user", "content": "What's 3 + 5?"}],
tools=tools
)
AI 网关 - MCP 网关
步骤 1. 将您的 MCP 服务器添加到 AI 网关
步骤 2. 通过 /chat/completions 调用 MCP 工具
curl -X POST 'http://0.0.0.0:4000/v1/chat/completions' \
-H 'Authorization: Bearer sk-1234' \
-H 'Content-Type: application/json' \
-d '{
"model": "gpt-4o",
"messages": [{"role": "user", "content": "Summarize the latest open PR"}],
"tools": [{
"type": "mcp",
"server_url": "litellm_proxy/mcp/github",
"server_label": "github_mcp",
"require_approval": "never"
}]
}'
与 Cursor IDE 配合使用
{
"mcpServers": {
"LiteLLM": {
"url": "http://localhost:4000/mcp/",
"headers": {
"x-litellm-api-key": "Bearer sk-1234"
}
}
}
}
如何使用 LiteLLM
你可以通过 代理服务器 (Proxy Server) 或 Python SDK 来使用 LiteLLM。两者都为你提供统一的接口来访问多个 大型语言模型 (LLMs)(超过 100 个)。请选择最适合你需求的选项:
| LiteLLM AI 网关 | LiteLLM Python SDK | |
|---|---|---|
| 使用场景 | 中央服务(LLM 网关)以访问多个大型语言模型 | 在 Python 代码中直接使用 LiteLLM |
| 谁在使用? | 生成式 AI 赋能团队 / 机器学习平台团队 | 构建 LLM 项目的开发人员 |
| 关键功能 | 集中式 API 网关,具备身份验证和授权功能,支持多租户成本追踪及按项目/用户管理支出,支持按项目自定义(日志记录、护栏、缓存),用于安全访问控制的虚拟密钥,以及用于监控和管理的管理员仪表板 UI | 直接在代码库中集成 Python 库,跨多个部署(例如 Azure/OpenAI)的路由器,具备重试/回退逻辑 - 路由器,应用级负载均衡和成本追踪,带有 OpenAI 兼容错误的异常处理,可观测性回调(Lunary, MLflow, Langfuse 等) |
LiteLLM 性能:在 1k RPS (每秒请求数) 下具有 8ms P95 延迟(在此查看基准测试 here)
跳转到 LiteLLM 代理(LLM 网关)文档
跳转到支持的 LLM 提供商
稳定版本: 使用带有 -stable 标签的 Docker 镜像。这些镜像在发布前经过了 12 小时的负载测试。关于发布周期的更多信息请见此处
支持更多提供商。如果缺少某个提供商或 LLM 平台,请提交 功能请求。
开源采用者
![]() |
![]() |
![]() |
![]() |
![]() |
Netflix |
![]() |
支持的提供商(网站支持模型 | 文档)
以开发者模式运行
服务
- 在根目录设置 .env 文件
- 运行依赖服务
docker-compose up db prometheus
后端
- (在根目录)创建虚拟环境
python -m venv .venv - 激活虚拟环境
source .venv/bin/activate - 安装依赖
pip install -e ".[all]" pip install prismaprisma generate- 启动代理后端
python litellm/proxy/proxy_cli.py
前端
- 进入
ui/litellm-dashboard - 安装依赖
npm install - 运行
npm run dev以启动仪表盘
企业版
面向需要更好安全性、用户管理和专业支持的公司
这包括:
- ✅ LiteLLM 商业许可 下的功能:
- ✅ 功能优先级排序
- ✅ 自定义集成
- ✅ 专业支持 - 专属 Discord + Slack
- ✅ 自定义 SLA(服务等级协议)
- ✅ 使用单点登录 (SSO) 的安全访问
贡献
我们欢迎为 LiteLLM 做出贡献!无论您是修复错误、添加功能还是改进文档,我们都感谢您的帮助。
贡献者快速开始
这需要安装 Poetry。
git clone https://github.com/BerriAI/litellm.git
cd litellm
make install-dev # Install development dependencies
make format # Format your code
make lint # Run all linting checks
make test-unit # Run unit tests
make format-check # Check formatting only
有关详细的贡献指南,请参阅 CONTRIBUTING.md。
代码质量 / 代码检查
LiteLLM 遵循 Google Python 风格指南。
我们的自动化检查包括:
- Black 用于代码格式化
- Ruff 用于代码检查和代码质量
- MyPy 用于类型检查
- 循环导入检测
- 导入安全检查
所有这些检查必须通过,您的 PR(拉取请求)才能被合并。
支持 / 与创始人交流
- 预约演示 👋
- 社区 Discord 💭
- 社区 Slack 💭
- 我们的邮箱 ✉️ ishaan@berri.ai / krrish@berri.ai
我们为何构建此项目
- 对简洁性的需求:我们的代码在管理 Azure、OpenAI 和 Cohere 之间的调用及转换时变得极其复杂。
贡献者
版本历史
v1.83.1-nightly2026/04/03v1.83.0-nightly2026/03/31v1.82.6.rc.22026/03/24v1.82.6.dev22026/03/24v1.82.3-stable.patch.22026/03/24v1.82.3-stable.patch.12026/03/24v1.82.6.dev12026/03/23v1.82.3.dev.52026/03/24v1.82.6.rc.12026/03/23v1.82.6.dev.12026/03/22v1.82.6-nightly2026/03/22v1.82.5.dev.12026/03/23v1.82.1.dev.12026/03/22v1.81.14.dev.32026/03/22v1.82.3.dev.42026/03/21v1.81.14.dev.22026/03/21v1.82.5-nightly2026/03/21v1.82.3.dev.32026/03/21v1.82.3.dev.22026/03/20v1.81.14.dev.12026/03/20常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。





