litellm

GitHub
42.2k 7k 简单 98 次阅读 今天NOASSERTION开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

litellm 是一款开源的 Python SDK 和代理服务器,旨在简化大语言模型(LLM)的调用与管理。它最核心的价值在于统一了接口标准,允许开发者通过单一的 OpenAI 格式轻松访问超过 100 种不同的 LLM 服务,涵盖 OpenAI、Anthropic、Azure、AWS Bedrock 等主流平台。

针对多模型接入时 API 格式各异、切换成本高的问题,litellm 屏蔽了底层差异,让集成过程变得像调用原生 OpenAI 一样简单。此外,它还提供了成本追踪、请求日志、流量负载均衡及安全护栏等高级功能,帮助团队有效管控 AI 使用风险与预算。

这款工具特别适合需要快速验证不同模型效果的开发者、构建复杂 AI 应用的研究人员,以及希望搭建统一 AI 网关的企业团队。无论是通过 Python 代码直接调用,还是部署为本地代理服务器,litellm 都提供了灵活的支持,并能兼容 LangGraph 等 Agent 框架,是构建稳定、可扩展 AI 应用的理想基础设施。

使用场景

某电商团队正在开发智能客服系统,需要同时接入 OpenAI、Anthropic 和 Azure 等多个大模型以平衡成本与效果。

没有 litellm 时

  • 每个模型都需要单独编写适配代码,不同厂商的 API 返回格式不一致导致维护成本极高。
  • 想要切换更便宜的模型时,必须修改多处业务逻辑代码,测试和上线风险巨大。
  • 无法统一统计各模型的调用费用,财务部门难以进行精确的成本对账。
  • 缺乏统一的限流和熔断机制,高峰期容易触发第三方服务的频率限制导致服务中断。

使用 litellm 后

  • litellm 提供统一的 OpenAI 格式接口,一套代码即可无缝调用所有支持的模型。
  • 通过配置文件即可动态切换后端模型,无需改动核心业务层代码,迭代效率大幅提升。
  • 内置成本追踪功能,自动记录每次调用的 Token 消耗和金额,实现精细化预算管理。
  • 部署 litellm 代理服务器支持负载均衡,自动分配请求避免单点故障并提升稳定性。

litellm 通过标准化接口和网关能力,显著降低了多模型集成的复杂度与管理成本。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notesLiteLLM 主要作为 API 网关(Proxy Server)和 Python SDK 使用,支持调用 100+ 种外部大模型服务,无需本地运行模型或 GPU 环境。推荐使用 Docker 部署代理服务,支持虚拟密钥管理、多租户成本追踪、路由重试及日志记录功能。
python未说明
litellm
openai
httpx
mcp
a2a
litellm hero image

快速开始

🚅 LiteLLM

以 OpenAI 格式调用 100+ 个大型语言模型 (LLM)。[Bedrock, Azure, OpenAI, VertexAI, Anthropic, Groq 等]

部署到 Render 在 Railway 上部署

LiteLLM 代理服务器 (AI 网关) | 托管代理 | 企业版

PyPI 版本 Y Combinator W23 WhatsApp Discord Slack CodSpeed

Group 7154 (1)

使用 LiteLLM 进行

大型语言模型 (LLMs) - 调用 100+ 个大型语言模型 (Python SDK + AI 网关)

所有支持的端点 - /chat/completions, /responses, /embeddings, /images, /audio, /batches, /rerank, /a2a, /messages 以及更多。

Python SDK

pip install litellm
from litellm import completion
import os

os.environ["OPENAI_API_KEY"] = "your-openai-key"
os.environ["ANTHROPIC_API_KEY"] = "your-anthropic-key"

# OpenAI
response = completion(model="openai/gpt-4o", messages=[{"role": "user", "content": "Hello!"}])

# Anthropic  
response = completion(model="anthropic/claude-sonnet-4-20250514", messages=[{"role": "user", "content": "Hello!"}])

AI 网关 (代理服务器)

入门指南 - 端到端教程 - 设置虚拟密钥,发起您的第一个请求

pip install 'litellm[proxy]'
litellm --model gpt-4o
import openai

client = openai.OpenAI(api_key="anything", base_url="http://0.0.0.0:4000")
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello!"}]
)

文档:LLM 提供商

智能体 (Agents) - 调用 A2A 智能体 (Python SDK + AI 网关)

支持的提供商 - LangGraph, Vertex AI Agent Engine, Azure AI Foundry, Bedrock AgentCore, Pydantic AI

Python SDK - A2A 协议

from litellm.a2a_protocol import A2AClient
from a2a.types import SendMessageRequest, MessageSendParams
from uuid import uuid4

client = A2AClient(base_url="http://localhost:10001")

request = SendMessageRequest(
    id=str(uuid4()),
    params=MessageSendParams(
        message={
            "role": "user",
            "parts": [{"kind": "text", "text": "Hello!"}],
            "messageId": uuid4().hex,
        }
    )
)
response = await client.send_message(request)

AI 网关 (代理服务器)

步骤 1. 将您的智能体添加到 AI 网关

步骤 2. 通过 A2A SDK 调用智能体

from a2a.client import A2ACardResolver, A2AClient
from a2a.types import MessageSendParams, SendMessageRequest
from uuid import uuid4
import httpx

base_url = "http://localhost:4000/a2a/my-agent"  # LiteLLM 代理 + 智能体名称
headers = {"Authorization": "Bearer sk-1234"}    # LiteLLM 虚拟密钥

async with httpx.AsyncClient(headers=headers) as httpx_client:
    resolver = A2ACardResolver(httpx_client=httpx_client, base_url=base_url)
    agent_card = await resolver.get_agent_card()
    client = A2AClient(httpx_client=httpx_client, agent_card=agent_card)

    request = SendMessageRequest(
        id=str(uuid4()),
        params=MessageSendParams(
            message={
                "role": "user",
                "parts": [{"kind": "text", "text": "Hello!"}],
                "messageId": uuid4().hex,
            }
        )
    )
    response = await client.send_message(request)

文档:A2A 智能体网关

MCP 工具 - 将 MCP 服务器连接到任意 LLM (Python SDK + AI 网关)

Python SDK - MCP 桥接

from mcp import ClientSession, StdioServerParameters
from mcp.client.stdio import stdio_client
from litellm import experimental_mcp_client
import litellm

server_params = StdioServerParameters(command="python", args=["mcp_server.py"])

async with stdio_client(server_params) as (read, write):
    async with ClientSession(read, write) as session:
        await session.initialize()

        # Load MCP tools in OpenAI format
        tools = await experimental_mcp_client.load_mcp_tools(session=session, format="openai")

        # Use with any LiteLLM model
        response = await litellm.acompletion(
            model="gpt-4o",
            messages=[{"role": "user", "content": "What's 3 + 5?"}],
            tools=tools
        )

AI 网关 - MCP 网关

步骤 1. 将您的 MCP 服务器添加到 AI 网关

步骤 2. 通过 /chat/completions 调用 MCP 工具

curl -X POST 'http://0.0.0.0:4000/v1/chat/completions' \
  -H 'Authorization: Bearer sk-1234' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gpt-4o",
    "messages": [{"role": "user", "content": "Summarize the latest open PR"}],
    "tools": [{
      "type": "mcp",
      "server_url": "litellm_proxy/mcp/github",
      "server_label": "github_mcp",
      "require_approval": "never"
    }]
  }'

与 Cursor IDE 配合使用

{
  "mcpServers": {
    "LiteLLM": {
      "url": "http://localhost:4000/mcp/",
      "headers": {
        "x-litellm-api-key": "Bearer sk-1234"
      }
    }
  }
}

文档:MCP 网关


如何使用 LiteLLM

你可以通过 代理服务器 (Proxy Server)Python SDK 来使用 LiteLLM。两者都为你提供统一的接口来访问多个 大型语言模型 (LLMs)(超过 100 个)。请选择最适合你需求的选项:

LiteLLM AI 网关 LiteLLM Python SDK
使用场景 中央服务(LLM 网关)以访问多个大型语言模型 在 Python 代码中直接使用 LiteLLM
谁在使用? 生成式 AI 赋能团队 / 机器学习平台团队 构建 LLM 项目的开发人员
关键功能 集中式 API 网关,具备身份验证和授权功能,支持多租户成本追踪及按项目/用户管理支出,支持按项目自定义(日志记录、护栏、缓存),用于安全访问控制的虚拟密钥,以及用于监控和管理的管理员仪表板 UI 直接在代码库中集成 Python 库,跨多个部署(例如 Azure/OpenAI)的路由器,具备重试/回退逻辑 - 路由器,应用级负载均衡和成本追踪,带有 OpenAI 兼容错误的异常处理,可观测性回调(Lunary, MLflow, Langfuse 等)

LiteLLM 性能:在 1k RPS (每秒请求数) 下具有 8ms P95 延迟(在此查看基准测试 here

跳转到 LiteLLM 代理(LLM 网关)文档
跳转到支持的 LLM 提供商

稳定版本: 使用带有 -stable 标签的 Docker 镜像。这些镜像在发布前经过了 12 小时的负载测试。关于发布周期的更多信息请见此处

支持更多提供商。如果缺少某个提供商或 LLM 平台,请提交 功能请求

开源采用者

Stripe image Google ADK Greptile OpenHands

Netflix

OpenAI Agents SDK

支持的提供商(网站支持模型 | 文档

模型提供商 /chat/completions /messages /responses /embeddings /image/generations /audio/transcriptions /audio/speech /moderations /batches /rerank
Abliteration (abliteration)
AI/ML API (aiml)
AI21 (ai21)
AI21 Chat (ai21_chat)
Aleph Alpha
Amazon Nova
Anthropic (anthropic)
Anthropic Text (anthropic_text)
Anyscale
AssemblyAI (assemblyai)
Auto Router (auto_router)
AWS - Bedrock (bedrock)
AWS - Sagemaker (sagemaker)
Azure (azure)
Azure AI (azure_ai)
Azure Text (azure_text)
Baseten (baseten)
Bytez (bytez)
Cerebras (cerebras)
Clarifai (clarifai)
Cloudflare AI Workers (cloudflare)
Codestral (codestral)
Cohere (cohere)
Cohere Chat (cohere_chat)
CometAPI (cometapi)
CompactifAI (compactifai)
Custom (custom)
Custom OpenAI (custom_openai)
Dashscope (dashscope)
Databricks (databricks)
DataRobot (datarobot)
Deepgram (deepgram)
DeepInfra (deepinfra)
Deepseek (deepseek)
ElevenLabs (elevenlabs)
Empower (empower)
Fal AI (fal_ai)
Featherless AI (featherless_ai)
Fireworks AI (fireworks_ai)
FriendliAI (friendliai)
Galadriel (galadriel)
GitHub Copilot (github_copilot)
GitHub Models (github)
Google - PaLM
Google - Vertex AI (vertex_ai)
Google AI Studio - Gemini (gemini)
GradientAI (gradient_ai)
Groq AI (groq)
Heroku (heroku)
Hosted VLLM (hosted_vllm)
Huggingface (huggingface)
Hyperbolic (hyperbolic)
IBM - Watsonx.ai (watsonx)
Infinity (infinity)
Jina AI (jina_ai)
Lambda AI (lambda_ai)
Lemonade (lemonade)
LiteLLM Proxy (litellm_proxy)
Llamafile (llamafile)
LM Studio (lm_studio)
Maritalk (maritalk)
Meta - Llama API (meta_llama)
Mistral AI API (mistral)
Moonshot (moonshot)
Morph (morph)
Nebius AI Studio (nebius)
NLP Cloud (nlp_cloud)
Novita AI (novita)
Nscale (nscale)
Nvidia NIM (nvidia_nim)
OCI (oci)
Ollama (ollama)
Ollama Chat (ollama_chat)
Oobabooga (oobabooga)
OpenAI (openai)
OpenAI-like (openai_like)
OpenRouter (openrouter)
OVHCloud AI Endpoints (ovhcloud)
Perplexity AI (perplexity)
Petals (petals)
Predibase (predibase)
Recraft (recraft)
Replicate (replicate)
Sagemaker Chat (sagemaker_chat)
Sambanova (sambanova)
Snowflake (snowflake)
Text Completion Codestral (text-completion-codestral)
Text Completion OpenAI (text-completion-openai)
Together AI (together_ai)
Topaz (topaz)
Triton (triton)
V0 (v0)
Vercel AI Gateway (vercel_ai_gateway)
VLLM (vllm)
Volcengine (volcengine)
Voyage AI (voyage)
WandB Inference (wandb)
Watsonx Text (watsonx_text)
xAI (xai)
Xinference (xinference)

阅读文档

以开发者模式运行

服务

  1. 在根目录设置 .env 文件
  2. 运行依赖服务 docker-compose up db prometheus

后端

  1. (在根目录)创建虚拟环境 python -m venv .venv
  2. 激活虚拟环境 source .venv/bin/activate
  3. 安装依赖 pip install -e ".[all]"
  4. pip install prisma
  5. prisma generate
  6. 启动代理后端 python litellm/proxy/proxy_cli.py

前端

  1. 进入 ui/litellm-dashboard
  2. 安装依赖 npm install
  3. 运行 npm run dev 以启动仪表盘

企业版

面向需要更好安全性、用户管理和专业支持的公司

与创始人联系

这包括:

  • LiteLLM 商业许可 下的功能:
  • 功能优先级排序
  • 自定义集成
  • 专业支持 - 专属 Discord + Slack
  • 自定义 SLA(服务等级协议)
  • 使用单点登录 (SSO) 的安全访问

贡献

我们欢迎为 LiteLLM 做出贡献!无论您是修复错误、添加功能还是改进文档,我们都感谢您的帮助。

贡献者快速开始

这需要安装 Poetry。

git clone https://github.com/BerriAI/litellm.git
cd litellm
make install-dev    # Install development dependencies
make format         # Format your code
make lint           # Run all linting checks
make test-unit      # Run unit tests
make format-check   # Check formatting only

有关详细的贡献指南,请参阅 CONTRIBUTING.md

代码质量 / 代码检查

LiteLLM 遵循 Google Python 风格指南

我们的自动化检查包括:

  • Black 用于代码格式化
  • Ruff 用于代码检查和代码质量
  • MyPy 用于类型检查
  • 循环导入检测
  • 导入安全检查

所有这些检查必须通过,您的 PR(拉取请求)才能被合并。

支持 / 与创始人交流

我们为何构建此项目

  • 对简洁性的需求:我们的代码在管理 Azure、OpenAI 和 Cohere 之间的调用及转换时变得极其复杂。

贡献者

版本历史

v1.83.1-nightly2026/04/03
v1.83.0-nightly2026/03/31
v1.82.6.rc.22026/03/24
v1.82.6.dev22026/03/24
v1.82.3-stable.patch.22026/03/24
v1.82.3-stable.patch.12026/03/24
v1.82.6.dev12026/03/23
v1.82.3.dev.52026/03/24
v1.82.6.rc.12026/03/23
v1.82.6.dev.12026/03/22
v1.82.6-nightly2026/03/22
v1.82.5.dev.12026/03/23
v1.82.1.dev.12026/03/22
v1.81.14.dev.32026/03/22
v1.82.3.dev.42026/03/21
v1.81.14.dev.22026/03/21
v1.82.5-nightly2026/03/21
v1.82.3.dev.32026/03/21
v1.82.3.dev.22026/03/20
v1.81.14.dev.12026/03/20

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架