Files
insightflow/docs/PRD-v2.0.md
2026-02-17 18:13:29 +08:00

141 lines
4.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# InsightFlow 产品需求规格说明书 (PRD)
**产品代号**: InsightFlow (洞察流)
**版本**: v2.0 (全域知识版)
**最后更新**: 2026-02-17
---
## 1. 产品综述
### 1.1 产品定义
InsightFlow 是一个基于音频与文档的领域知识构建平台。它通过 ASR (语音识别) 和 LLM (大模型) 将离散的会议录音和文档转化为结构化的知识图谱和智能批注文档。
**核心差异点**: 不仅仅是"转文字",而是通过 Human-in-the-Loop (人机回圈) 的交互修正,将单次会议的信息融合进一个不断生长的"项目知识库"中,实现越用越聪明的效果。
### 1.2 核心价值主张
1. **从"听得见"到"看得懂"**: 自动提取专有名词并生成解释,解决"听不懂黑话/缩写"的问题
2. **双视图联动**: "文档视图"负责细节阅读与纠错,"图谱视图"负责宏观逻辑与关系洞察
3. **知识生长**: 支持上传多份录音及外部资料,系统自动进行实体对齐,构建越来越丰满的全域图谱
### 1.3 用户画像
- **核心用户**: 产品经理、咨询顾问、分析师、项目经理
- **场景**: 需要整理大量会议录音,梳理复杂项目关系,并希望沉淀项目术语库的人群
---
## 2. 核心业务流程
```
上传音频 → ASR转录 → LLM提取实体 → 人工纠错 → 知识图谱生长
↑ ↓
└────────────── 持续迭代优化 ──────────────────┘
```
---
## 3. 功能需求
### 3.1 全能导入与预处理
**F1.1 多模态导入**
- 音频: 支持 MP3, WAV, M4A (单文件限制 500MB)
- 文档: 支持 PDF, DOCX, MD, TXT (作为补充资料)
**F1.2 项目空间 (Project Space)**
- 用户需先创建/选择一个"项目" (Project)
- 所有上传的文件都属于该项目,共享同一个"全域图谱"和"术语表"
**F1.3 智能预处理**
- ASR 热词注入: 上传音频时,系统自动提取该项目已有的"术语表"喂给 ASR 模型
- 说话人分离: 自动区分 Speaker A/B/C
### 3.2 智能分析引擎
**F2.1 实体抽取与解释**
- 识别专有名词 (项目代号、技术栈)、人名、关键数据
- Contextual Definition: 根据当前文档上下文,生成一句话解释
**F2.2 全局实体对齐**
- 能够判断本次录音里的"老张"和上次录音里的"张总"是同一个人
- 将新信息 Merge 到全局唯一的 Entity_ID 上
### 3.3 交互式工作台
**界面布局**: 左文右图 (Left-Text, Right-Graph)
**左栏:智能批注编辑器**
- ASR 文本展示,支持富文本编辑
- 自动高亮已识别的实体
- 置信度提示: AI 不确定的词标黄,提示人工确认
- 术语卡片: 鼠标悬停弹出,显示实体名称、解释、属性
- 划词新建: 选中普通文本 → 标记为实体 → 立即生成新节点
**右栏:动态图谱与知识面板**
- 上下文图谱: 默认展示该文件的核心关系网
- 联动状态: 点击左侧实体,图谱自动聚焦到该节点
- 可视化编辑: 拖拽建立关系,点击编辑属性
- 知识溯源: 点击关系连线,显示来源文档和位置
### 3.4 Agent 助手
- 对话式指令: "把所有提到的'客户端'都合并到'App'这个节点里"
- 智能问答: "根据这三次会议,张总对这个项目的态度有变化吗?"
---
## 4. 数据架构
### 4.1 实体表 (Global Entities)
- 存储在 SQLite/Neo4j
- 跨文件共享的全域知识
### 4.2 提及表 (Mentions)
- 记录实体在具体文件中的位置
- 支持溯源
### 4.3 关系表 (Relations)
- 存储实体间的关系
- 支持多对多关系
---
## 5. 非功能性需求
- **性能**: 图谱节点 < 1000 时,前端渲染 FPS > 50
- **准确性**: 用户手动修正一次实体,后续所有新上传自动应用该规则
- **数据隐私**: 严格按 Project 隔离,禁止跨用户数据训练
---
## 6. 实施路线图
### Phase 1: 骨架与单体分析 (MVP)
- 目标: 跑通 [上传 → ASR → LLM → 简单文本编辑器 + 静态图谱]
- 交付: Web端原型能把录音转成带高亮的文字
### Phase 2: 交互与纠错 (The Workbench)
- 目标: 实现 [文本编辑器与图谱联动] + [人工修正数据保存]
- 交付: 完整的编辑器,用户改了字,图也变;改了图,字也变
### Phase 3: 记忆与生长 (The Knowledge Base)
- 目标: 引入 Project 概念,实现 [多文件图谱融合] + [实体对齐算法]
- 交付: "项目知识库"面板,支持上传 PDF 补充信息
---
## 7. 技术栈
- **前端**: Next.js + Tailwind + D3.js/Cytoscape
- **后端**: FastAPI + SQLite/Neo4j
- **ASR**: 阿里云听悟
- **LLM**: Kimi / OpenAI
- **存储**: 阿里云 OSS
---
*文档版本: v2.0 | 创建日期: 2026-02-17*