PageIndex

24.8k 2.1k 简单 94 次阅读今天MIT其他数据工具Agent语言模型开发框架图像

AI 解读由 AI 自动生成，仅供参考

PageIndex 是一款创新的开源 RAG（检索增强生成）框架，专为处理长篇幅专业文档而设计。它摒弃了传统的向量数据库和文本切片方案，转而采用“无向量、基于推理”的检索模式。

传统 RAG 往往依赖语义相似度进行搜索，但这并不等同于真正的相关性，尤其在需要多步推理和专业知识的场景下容易失效。PageIndex 受 AlphaGo 启发，通过构建文档的层级树状索引（类似目录结构），引导大语言模型像人类专家一样在文档中进行推理和导航，从而精准定位关键信息。

这一技术路径带来了显著优势：无需维护向量数据库，避免了切片导致的上下文断裂，实现了更接近人类思维方式的检索体验。PageIndex 非常适合希望提升文档问答准确性的开发者、AI 研究人员，以及需要处理复杂长文档的专业团队。通过 MCP 或 API 接口，它能轻松集成到现有应用中，让机器理解能力更上一层楼。

使用场景

某律所合规分析师正在处理一份长达 200 页的跨国并购协议，需要快速定位其中“竞业限制”与“违约赔偿”条款之间的逻辑关联。

没有 PageIndex 时

传统向量检索仅基于语义相似度，常返回词汇相似但逻辑无关的条款，导致法律误判风险。
文档被强制切分为固定长度的片段，跨页的关键上下文信息断裂，难以理解整体意图。
检索结果缺乏解释性，分析师需人工逐页翻阅验证，耗时且极易遗漏隐蔽的交叉引用。
系统依赖复杂的向量数据库搭建与维护，增加了额外的技术门槛和运维成本。

使用 PageIndex 后

自动构建文档目录树结构索引，完整保留章节层级，彻底消除了文档切分带来的信息丢失。
利用大模型推理能力在树结构中进行搜索，精准识别条款间的因果、条件及关联关系。
输出符合人类专家思维的分析路径，直接呈现结论依据，显著减少人工复核的时间成本。
无需部署任何向量数据库，简化了技术架构的同时，大幅提升了长文档处理的准确率。

PageIndex 通过模拟人类专家的推理导航，让复杂专业文档的分析变得像阅读目录一样直观高效。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes需要配置 LLM API 密钥（如 OpenAI），支持通过 LiteLLM 切换模型；核心功能为将 PDF/Markdown 转换为树状索引结构；示例代码需额外安装 openai-agents 库；主要依赖外部 API 进行推理，本地无需特定 GPU 即可运行基础功能。

python未说明

LiteLLM

openai-agents

快速开始

PageIndex：无向量、基于推理的 RAG (检索增强生成)

基于推理的 RAG (检索增强生成) ◦ 无需向量数据库 (Vector DB) ◦ 无需分块 (Chunking) ◦ 类人检索

🏠 主页 • 🖥️ 聊天平台 • 🔌 MCP (模型上下文协议) • 📚 文档 • 💬 Discord • ✉️ 联系

📢 更新

🔥 代理式 (Agentic) 无向量 RAG: 一个使用 OpenAI Agents SDK 和自托管 PageIndex 的简单 代理式、无向量 RAG 示例。
PageIndex 聊天: 针对专业长文档的类人文档分析智能体平台。也可通过 MCP (模型上下文协议) 或 API (应用程序接口) 访问。
PageIndex 框架: PageIndex 框架 —— 一种 代理式、上下文内 (in-context) 树索引，使 LLMs (大语言模型) 能够对长文档进行 基于推理的、类人检索。

📑 PageIndex 简介

您是否对专业长文档的向量数据库检索准确率感到沮丧？传统的基于向量的 RAG 依赖于语义 相似度 而非真正的 相关性。但 相似度 ≠ 相关性 —— 我们在检索中真正需要的是 相关性，而这需要推理。在处理需要领域专业知识和多步推理的专业文档时，相似度搜索往往力不从心。

受 AlphaGo 启发，我们提出了 PageIndex —— 一个 无向量、基于推理的 RAG (检索增强生成) 系统，它从长文档构建 分层树索引，并利用 LLMs (大语言模型) 在该索引上进行推理，以实现 代理式、感知上下文的检索。它模拟了 人类专家 如何通过 树搜索 导航并从复杂文档中提取知识，使 LLMs 能够思考并推理出最相关的文档部分。PageIndex 执行检索的两个步骤如下：

生成文档的“目录”树结构索引
通过 树搜索 执行基于推理的检索

🎯 核心功能

与传统的基于向量的 RAG 相比，PageIndex 具备以下特点：

无需向量数据库 (Vector DB)：利用文档结构和 LLM 推理进行检索，而非向量相似度搜索。
无需分块 (Chunking)：文档被组织成自然章节，而非人工分块。
类人检索：模拟人类专家如何导航并从复杂文档中提取知识。
更好的可解释性和可追溯性：检索基于推理——可追溯且可解释，包含页码和章节引用。不再有不透明、近似的向量搜索（“氛围”检索 vibe retrieval）。

PageIndex powering 了一个基于推理的 RAG 系统，该系统在 FinanceBench 上达到了 最先进的 (State-of-the-art) 98.7% 准确率，证明了其在专业文档分析方面优于基于向量的 RAG 解决方案的性能（详情见我们的博客文章）。

📍 探索 PageIndex

欲了解更多，请参阅 PageIndex 框架的详细介绍。查看本 GitHub 仓库以获取开源代码，并参考示例代码库 (cookbooks)、教程和博客以获取更多使用指南和示例。

PageIndex 服务可作为 ChatGPT 风格的聊天平台使用，或通过 MCP (模型上下文协议) 或 API (应用程序接口) 集成。

🛠️ 部署选项

自托管 —— 使用此开源仓库在本地运行。
云服务 —— 立即试用我们的聊天平台，或与 MCP (模型上下文协议) 或 API (应用程序接口) 集成。
企业版 —— 私有或本地 (on-prem) 部署。联系我们或预约演示以了解更多信息。

🧪 快速上手

🔥 智能体式无向量 RAG（检索增强生成） (最新版) — 一个简单但完整的 智能体式无向量 RAG 示例，使用 自托管 PageIndex 和 OpenAI Agents SDK。
尝试无向量 RAG 笔记本 — 一个使用 PageIndex 进行基于推理的 RAG 的极简动手示例。
查看基于视觉的无向量 RAG — 无需 OCR（光学字符识别）；这是一个直接在页面图像上运行的、基于视觉且原生支持推理的 RAG 流水线，属于极简版本。

🌲 PageIndex 树状结构

PageIndex 可以将长篇 PDF 文档转换为语义 树状结构，类似于 "目录"，但针对与大语言模型 (LLMs) 配合使用进行了优化。它非常适合以下场景：财务报告、监管文件、学术教科书、法律或技术手册，以及任何超出 LLM 上下文限制的文档。

下面是一个 PageIndex 树状结构的示例。还可以查看更多示例文档和生成的树状结构。

...
{
  "title": "Financial Stability",
  "node_id": "0006",
  "start_index": 21,
  "end_index": 22,
  "summary": "The Federal Reserve ...",
  "nodes": [
    {
      "title": "Monitoring Financial Vulnerabilities",
      "node_id": "0007",
      "start_index": 22,
      "end_index": 28,
      "summary": "The Federal Reserve's monitoring ..."
    },
    {
      "title": "Domestic and International Cooperation and Coordination",
      "node_id": "0008",
      "start_index": 28,
      "end_index": 31,
      "summary": "In 2023, the Federal Reserve collaborated ..."
    }
  ]
}
...

您可以使用此开源仓库生成 PageIndex 树状结构，或者使用我们的 API（应用程序编程接口）。

⚙️ 包使用

您可以按照以下步骤从 PDF 文档生成 PageIndex 树状结构。

1. 安装依赖项

pip3 install --upgrade -r requirements.txt

2. 设置您的 LLM API 密钥

在根目录创建一个 .env 文件，包含您的 LLM API 密钥，并通过 LiteLLM 支持多 LLM：

OPENAI_API_KEY=your_openai_key_here

3. 为您的 PDF 生成 PageIndex 结构

python3 run_pageindex.py --pdf_path /path/to/your/document.pdf

可选参数

您可以使用其他可选参数自定义处理过程：

--model                 LLM model to use (default: gpt-4o-2024-11-20)
--toc-check-pages       Pages to check for table of contents (default: 20)
--max-pages-per-node    Max pages per node (default: 10)
--max-tokens-per-node   Max tokens per node (default: 20000)
--if-add-node-id        Add node ID (yes/no, default: yes)
--if-add-node-summary   Add node summary (yes/no, default: yes)
--if-add-doc-description Add doc description (yes/no, default: yes)

Markdown 支持

我们还为 PageIndex 提供了 Markdown 支持。您可以使用 `--md_path` 标志为 Markdown 文件生成树状结构。

python3 run_pageindex.py --md_path /path/to/your/document.md

注意：在此模式下，我们使用 "#" 来确定节点标题及其级别。例如，"##" 是第 2 级，"###" 是第 3 级，依此类推。请确保您的 Markdown 文件格式正确。如果您的 Markdown 文件是从 PDF 或 HTML 转换而来的，我们不建议使用此模式，因为大多数现有的转换工具无法保留原始层级结构。相反，请使用我们的 PageIndex OCR，它是专为保留原始层级结构而设计的，用于将 PDF 转换为 Markdown 文件，然后再使用此模式。

智能体式无向量 RAG 示例

对于使用 PageIndex（配合 OpenAI Agents SDK）的简单、端到端 智能体式无向量 RAG 示例，请参见 examples/agentic_vectorless_rag_demo.py。

# Install optional dependency
pip3 install openai-agents

# Run the demo
python3 examples/agentic_vectorless_rag_demo.py

📈 案例研究：PageIndex 引领金融问答基准测试

Mafin 2.5 是一个由 PageIndex 驱动的、用于金融文档分析的基于推理的 RAG（检索增强生成）系统。它在 FinanceBench 基准测试中取得了最先进的 98.7% 准确率，显著优于传统的基于向量的 RAG 系统。

PageIndex 的分层索引和推理驱动检索功能，使其能够从复杂的财务报告（如 SEC 备案文件和收益披露）中精确导航并提取相关上下文。

探索完整的基准测试结果和我们的博客文章，以获取详细的比较和性能指标。

🧭 资源

🧪 示例手册：动手实践的可运行示例和高级用例。
📖 教程：实用指南和策略，包括 文档搜索 和 树搜索。
📝 博客：技术文章、研究见解和产品更新。
🔌 MCP 设置及 API 文档：集成详情和配置选项。

⭐ 支持我们

请引用如下：

Mingtian Zhang, Yu Tang and PageIndex Team,
"PageIndex: Next-Generation Vectorless, Reasoning-based RAG",
PageIndex Blog, Sep 2025.

或使用 BibTeX 引用。

@article{zhang2025pageindex,
  author = {Mingtian Zhang and Yu Tang and PageIndex Team},
  title = {PageIndex: Next-Generation Vectorless, Reasoning-based RAG},
  journal = {PageIndex Blog},
  year = {2025},
  month = {September},
  note = {https://pageindex.ai/blog/pageindex-intro},
}

如果您喜欢我们的项目，请给我们一颗星 🌟。谢谢！

联系我们

PageIndex 快速上手指南

简介

PageIndex 是一款基于推理的无向量 RAG（检索增强生成）系统。它通过构建层次化树索引并利用大语言模型进行推理，模拟人类专家导航复杂文档的方式，实现高效、可解释的检索，无需向量数据库或人工分块。

环境准备

操作系统: Linux / macOS / Windows
Python 版本: Python 3.x
前置依赖: Git, Pip
API 密钥: 支持 OpenAI 或其他兼容 LiteLLM 的大模型 API Key。

安装步骤

1. 克隆仓库

git clone https://github.com/VectifyAI/PageIndex.git
cd PageIndex

2. 安装依赖

pip3 install --upgrade -r requirements.txt

(注：国内用户如遇网络问题，建议配置 pip 镜像源以加速下载)

3. 配置环境变量

在根目录创建 .env 文件，填入您的 LLM API Key：

OPENAI_API_KEY=your_openai_key_here

提示：若使用非 OpenAI 模型，请根据 LiteLLM 文档配置相应的环境变量。

基本使用

1. 生成文档树索引 (PDF)

将长 PDF 文档转换为语义树结构：

python3 run_pageindex.py --pdf_path /path/to/your/document.pdf

常用可选参数：

--model                 # 指定使用的 LLM 模型 (默认：gpt-4o-2024-11-20)
--max-pages-per-node    # 每个节点的最大页数 (默认：10)
--if-add-node-summary   # 是否添加节点摘要 (默认：yes)

2. 生成文档树索引 (Markdown)

支持直接解析 Markdown 文件（需确保标题层级如 ##, ### 格式正确）：

python3 run_pageindex.py --md_path /path/to/your/document.md

3. 运行 Agent 式无向量 RAG 示例

结合 OpenAI Agents SDK 进行完整的智能体检索演示：

# 安装可选依赖
pip3 install openai-agents

# 运行演示
python3 examples/agentic_vectorless_rag_demo.py

常见问题

如何配置和使用自定义的 OpenAI 兼容 API？

切换不同模型时出现崩溃或处理缓慢是什么原因？

如何进行数据的检索或查询操作？

试用版的配额限制是多少？

对上传文件的大小和语言有没有限制？

遇到 API 速率限制（Rate Limit）错误该如何解决？

环境变量应该设置为什么名称？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent

使用场景

没有 PageIndex 时

使用 PageIndex 后

运行环境要求

快速开始

PageIndex：无向量、基于推理的 RAG (检索增强生成)

🏠 主页 • 🖥️ 聊天平台 • 🔌 MCP (模型上下文协议) • 📚 文档 • 💬 Discord • ✉️ 联系

📢 更新

📑 PageIndex 简介

🎯 核心功能

📍 探索 PageIndex

🛠️ 部署选项

🧪 快速上手

🌲 PageIndex 树状结构

⚙️ 包使用

1. 安装依赖项

2. 设置您的 LLM API 密钥

3. 为您的 PDF 生成 PageIndex 结构

智能体式无向量 RAG 示例

📈 案例研究：PageIndex 引领金融问答基准测试

🧭 资源

⭐ 支持我们

联系我们

PageIndex 快速上手指南

简介

环境准备

安装步骤

1. 克隆仓库

2. 安装依赖

3. 配置环境变量

基本使用

1. 生成文档树索引 (PDF)

2. 生成文档树索引 (Markdown)

3. 运行 Agent 式无向量 RAG 示例

更多资源

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch