Phase 3: Memory & Growth - Multi-file fusion, Entity alignment with embedding, Document import, Knowledge base panel

This commit is contained in:
OpenClaw Bot
2026-02-18 12:12:39 +08:00
parent 643fe46780
commit da8a4db985
11 changed files with 1842 additions and 167 deletions

View File

@@ -4,7 +4,7 @@
## 当前阶段
Phase 2: 交互与纠错工作台 - **已完成 ✅**
Phase 3: 记忆与生长 - **已完成 ✅**
## 已完成
@@ -64,22 +64,70 @@ Phase 2: 交互与纠错工作台 - **已完成 ✅**
- ✅ update_relation() - 更新关系
- ✅ update_transcript() - 更新转录文本
## Phase 3 计划 (记忆与生长) - **即将开始**
### Phase 3: 记忆与生长 ✅
- 多文件图谱融合
- 实体对齐算法优化
- PDF/DOCX 文档导入
- 项目知识库面板
#### 多文件图谱融合
- ✅ 支持上传多个音频文件到同一项目
- ✅ 系统自动对齐实体,合并图谱
- ✅ 实体提及跨文件追踪
- ✅ 文件选择器切换不同转录内容
- ✅ 转录列表 API 返回文件类型
#### 实体对齐算法优化
- ✅ 新增 `entity_aligner.py` 模块
- ✅ 使用 Kimi API embedding 进行语义相似度匹配
- ✅ 余弦相似度计算
- ✅ 自动别名建议
- ✅ 批量实体对齐 API
- ✅ 实体对齐回退机制(字符串匹配)
#### PDF/DOCX 文档导入
- ✅ 新增 `document_processor.py` 模块
- ✅ 支持 PDF、DOCX、TXT、MD 格式
- ✅ 文档文本提取并参与实体提取
- ✅ 文档上传 API (/api/v1/projects/{id}/upload-document)
- ✅ 文档类型标记audio/document
#### 项目知识库面板
- ✅ 全新的知识库视图
- ✅ 侧边栏导航切换(工作台/知识库)
- ✅ 统计面板:实体数、关系数、文件数、术语数
- ✅ 实体网格展示(带提及统计)
- ✅ 关系列表展示
- ✅ 术语表管理(添加/删除)
- ✅ 文件列表展示(区分音频/文档)
#### 术语表功能
- ✅ 术语表数据库表 (glossary)
- ✅ 添加术语 API
- ✅ 获取术语列表 API
- ✅ 删除术语 API
- ✅ 前端术语表管理界面
#### 数据库更新
- ✅ transcripts 表新增 `type` 字段
- ✅ entities 表新增 `embedding` 字段
- ✅ 新增 glossary 表
- ✅ 新增索引优化查询性能
## 技术债务
- 听悟 SDK fallback 到 mock 需要更好的错误处理
- 实体相似度匹配目前只是简单字符串包含,需要 embedding 方案
- 前端需要状态管理(目前使用全局变量)
- 需要添加 API 文档 (OpenAPI/Swagger)
- Embedding 缓存需要持久化
- 实体对齐算法需要更多测试
## 部署信息
- 服务器: 122.51.127.111
- 项目路径: /opt/projects/insightflow
- 端口: 18000
- Docker 镜像: insightflow:phase3
## 下一步 (Phase 4)
- 知识推理与问答
- 实体属性扩展
- 时间线视图
- 导出功能PDF/图片)