Files
insightflow/README.md
2026-02-19 09:53:12 +08:00

146 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# InsightFlow - Audio to Knowledge Graph Platform
## Phase 3: Memory & Growth - Completed ✅
### 新增功能
#### 1. 多文件图谱融合 ✅
- 支持上传多个音频文件到同一项目
- 系统自动对齐实体,合并图谱
- 实体提及跨文件追踪
- 文件选择器切换不同转录内容
#### 2. 实体对齐算法优化 ✅
- 新增 `entity_aligner.py` 模块
- 支持使用 Kimi API embedding 进行语义相似度匹配
- 余弦相似度计算
- 自动别名建议
- 批量实体对齐 API
#### 3. PDF/DOCX 文档导入 ✅
- 新增 `document_processor.py` 模块
- 支持 PDF、DOCX、TXT、MD 格式
- 文档文本提取并参与实体提取
- 文档类型标记(音频/文档)
#### 4. 项目知识库面板 ✅
- 全新的知识库视图
- 统计面板:实体数、关系数、文件数、术语数
- 实体网格展示(带提及统计)
- 关系列表展示
- 术语表管理(添加/删除)
- 文件列表展示
### 技术栈
- 后端: FastAPI + SQLite
- 前端: 原生 HTML/JS + D3.js
- ASR: 阿里云听悟
- LLM: Kimi API
- 文档处理: PyPDF2, python-docx
### 部署
```bash
# 构建 Docker 镜像
docker build -t insightflow:phase3 .
# 运行容器
docker run -d \
-p 18000:8000 \
-v /opt/data:/app/data \
-e KIMI_API_KEY=your_key \
-e ALIYUN_ACCESS_KEY_ID=your_key \
-e ALIYUN_ACCESS_KEY_SECRET=your_secret \
insightflow:phase3
```
### API 文档
#### 新增 API
**文档上传**
```
POST /api/v1/projects/{project_id}/upload-document
Content-Type: multipart/form-data
file: <文件>
```
**知识库查询**
```
GET /api/v1/projects/{project_id}/knowledge-base
```
**术语表管理**
```
POST /api/v1/projects/{project_id}/glossary
GET /api/v1/projects/{project_id}/glossary
DELETE /api/v1/glossary/{term_id}
```
**实体对齐**
```
POST /api/v1/projects/{project_id}/align-entities?threshold=0.85
```
### 数据库 Schema 更新
- `transcripts` 表新增 `type` 字段audio/document
- `entities` 表新增 `embedding` 字段
- 新增索引优化查询性能
---
## Phase 4: Agent 助手与知识溯源 - 开发中 🚧
### 开发任务清单(由定时任务自动推进)
1. **Agent 助手后端 API**
- [ ] 对话指令解析接口
- [ ] RAG 问答接口
- [ ] 实体操作指令执行
2. **Agent 助手前端面板**
- [ ] 可折叠聊天面板
- [ ] 消息历史展示
- [ ] 指令快捷按钮
3. **知识溯源功能**
- [ ] 关系来源追踪
- [ ] 提及位置高亮
- [ ] 跨文档关联显示
4. **术语卡片**
- [ ] 悬停卡片 UI
- [ ] 实体详情展示
- [ ] 快捷编辑入口
5. **置信度系统**
- [ ] LLM 返回置信度
- [ ] 低置信度标记
- [ ] 人工确认流程
6. **Neo4j 集成**
- [ ] 图谱数据同步
- [ ] 复杂图查询支持
## Phase 5: 高级功能 - 规划中 📋
- [ ] 知识推理与问答增强
- [ ] 实体属性扩展
- [ ] 时间线视图
- [ ] 导出功能PDF/图片)
- [ ] 协作功能(多用户)
- [ ] API 开放平台
---
## 项目文档
- [PRD v2.0](docs/PRD-v2.0.md) - 产品需求规格说明书
- [STATUS.md](STATUS.md) - 详细开发状态跟踪
## 部署信息
- **服务器**: 122.51.127.111:18000
- **项目路径**: /opt/projects/insightflow
- **Git 仓库**: https://git.sivdead.cn/claw/insightflow