Files
insightflow/README.md

195 lines
4.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# InsightFlow - Audio to Knowledge Graph Platform
## Phase 3: Memory & Growth - Completed ✅
### 新增功能
#### 1. 多文件图谱融合 ✅
- 支持上传多个音频文件到同一项目
- 系统自动对齐实体,合并图谱
- 实体提及跨文件追踪
- 文件选择器切换不同转录内容
#### 2. 实体对齐算法优化 ✅
- 新增 `entity_aligner.py` 模块
- 支持使用 Kimi API embedding 进行语义相似度匹配
- 余弦相似度计算
- 自动别名建议
- 批量实体对齐 API
#### 3. PDF/DOCX 文档导入 ✅
- 新增 `document_processor.py` 模块
- 支持 PDF、DOCX、TXT、MD 格式
- 文档文本提取并参与实体提取
- 文档类型标记(音频/文档)
#### 4. 项目知识库面板 ✅
- 全新的知识库视图
- 统计面板:实体数、关系数、文件数、术语数
- 实体网格展示(带提及统计)
- 关系列表展示
- 术语表管理(添加/删除)
- 文件列表展示
### 技术栈
- 后端: FastAPI + SQLite
- 前端: 原生 HTML/JS + D3.js
- ASR: 阿里云听悟
- LLM: Kimi API
- 文档处理: PyPDF2, python-docx
### 部署
```bash
# 构建 Docker 镜像
docker build -t insightflow:phase3 .
# 运行容器
docker run -d \
-p 18000:8000 \
-v /opt/data:/app/data \
-e KIMI_API_KEY=your_key \
-e ALIYUN_ACCESS_KEY_ID=your_key \
-e ALIYUN_ACCESS_KEY_SECRET=your_secret \
insightflow:phase3
```
### API 文档
#### 新增 API
**文档上传**
```
POST /api/v1/projects/{project_id}/upload-document
Content-Type: multipart/form-data
file: <文件>
```
**知识库查询**
```
GET /api/v1/projects/{project_id}/knowledge-base
```
**术语表管理**
```
POST /api/v1/projects/{project_id}/glossary
GET /api/v1/projects/{project_id}/glossary
DELETE /api/v1/glossary/{term_id}
```
**实体对齐**
```
POST /api/v1/projects/{project_id}/align-entities?threshold=0.85
```
### 数据库 Schema 更新
- `transcripts` 表新增 `type` 字段audio/document
- `entities` 表新增 `embedding` 字段
- 新增索引优化查询性能
---
## Phase 4: Agent 助手与知识溯源 - 已完成 ✅
### 已完成功能
1. **Agent 助手后端 API**
- 对话指令解析接口 `/agent/command`
- RAG 问答接口 `/agent/query`
- 实体操作指令执行
2. **Agent 助手前端面板**
- 可折叠聊天面板
- 消息历史展示
- 指令快捷按钮
3. **知识溯源功能**
- 关系来源追踪 `/relations/{id}/provenance`
- 提及位置高亮
- 跨文档关联显示
4. **术语卡片**
- 悬停卡片 UI
- 实体详情展示
- 快捷编辑入口
5. **置信度系统**
- LLM 返回置信度
- 低置信度标记
- 人工确认流程
6. **Neo4j 集成** - 待开发 ⏳
- 图谱数据同步
- 复杂图查询支持
## Phase 5: 高级功能 - 进行中 🚧
### 已完成功能 ✅
1. **知识推理与问答增强**
- 后端推理引擎 `knowledge_reasoner.py`
- 因果/对比/时序/关联推理
- 智能项目总结 API
- 实体关联路径发现
- 前端推理面板 UI
2. **时间线视图**
- 项目时间线 API
- 实体演变追踪
- 时间线可视化面板
3. **实体属性扩展**
- 数据库层: `entity_attributes`, `attribute_templates`, `attribute_history`
- 后端 API: 属性模板管理、实体属性 CRUD、属性历史查询
- 支持属性类型: text, number, date, select, multiselect, boolean
- 属性筛选搜索 API
### 待开发任务 📋
4. **导出功能**
- 知识图谱导出为 PNG/SVG
- 项目报告导出为 PDF
- 实体数据导出为 Excel/CSV
- 转录文本导出为 Markdown
5. **协作功能**
- 多用户支持
- 项目权限管理
- 评论和批注
- 变更历史追踪
6. **Neo4j 图数据库集成**
- 数据同步到 Neo4j
- 复杂图查询(最短路径、社区发现)
- 图算法分析PageRank、中心性
## Phase 6: 企业级功能 - 规划中 📋
1. **API 开放平台**
- RESTful API 文档
- API Key 管理
- 调用统计和限流
2. **数据安全增强**
- 端到端加密
- 数据脱敏
- 审计日志
3. **性能优化**
- 数据库分片
- 缓存层Redis
- CDN 加速
---
## 项目文档
- [PRD v2.0](docs/PRD-v2.0.md) - 产品需求规格说明书
- [STATUS.md](STATUS.md) - 详细开发状态跟踪
## 部署信息
- **服务器**: 122.51.127.111:18000
- **项目路径**: /opt/projects/insightflow
- **Git 仓库**: https://git.sivdead.cn/claw/insightflow