Phase 3: Memory & Growth - Multi-file fusion, Entity alignment with embedding, Document import, Knowledge base panel
This commit is contained in:
103
README.md
103
README.md
@@ -1,27 +1,88 @@
|
||||
# InsightFlow
|
||||
# InsightFlow - Audio to Knowledge Graph Platform
|
||||
|
||||
音频与文档的领域知识构建平台
|
||||
## Phase 3: Memory & Growth - Completed ✅
|
||||
|
||||
## 产品定位
|
||||
将会议录音和文档转化为结构化的知识图谱,通过人机回圈(Human-in-the-Loop)实现知识持续生长。
|
||||
### 新增功能
|
||||
|
||||
## 核心特性
|
||||
- 🎙️ ASR 语音识别 + 热词注入
|
||||
- 🧠 LLM 实体抽取与解释
|
||||
- 🔗 双视图联动(文档视图 + 图谱视图)
|
||||
- 📈 知识生长(多文件实体对齐)
|
||||
#### 1. 多文件图谱融合 ✅
|
||||
- 支持上传多个音频文件到同一项目
|
||||
- 系统自动对齐实体,合并图谱
|
||||
- 实体提及跨文件追踪
|
||||
- 文件选择器切换不同转录内容
|
||||
|
||||
## 技术栈
|
||||
- 前端: Next.js + Tailwind
|
||||
- 后端: Node.js / Python
|
||||
- 数据库: MySQL + Neo4j
|
||||
- ASR: Whisper
|
||||
- LLM: OpenAI / Kimi
|
||||
#### 2. 实体对齐算法优化 ✅
|
||||
- 新增 `entity_aligner.py` 模块
|
||||
- 支持使用 Kimi API embedding 进行语义相似度匹配
|
||||
- 余弦相似度计算
|
||||
- 自动别名建议
|
||||
- 批量实体对齐 API
|
||||
|
||||
## 开发阶段
|
||||
- [ ] Phase 1: 骨架与单体分析 (MVP)
|
||||
- [ ] Phase 2: 交互与纠错工作台
|
||||
- [ ] Phase 3: 记忆与生长
|
||||
#### 3. PDF/DOCX 文档导入 ✅
|
||||
- 新增 `document_processor.py` 模块
|
||||
- 支持 PDF、DOCX、TXT、MD 格式
|
||||
- 文档文本提取并参与实体提取
|
||||
- 文档类型标记(音频/文档)
|
||||
|
||||
## 文档
|
||||
- [PRD v2.0](docs/PRD-v2.0.md)
|
||||
#### 4. 项目知识库面板 ✅
|
||||
- 全新的知识库视图
|
||||
- 统计面板:实体数、关系数、文件数、术语数
|
||||
- 实体网格展示(带提及统计)
|
||||
- 关系列表展示
|
||||
- 术语表管理(添加/删除)
|
||||
- 文件列表展示
|
||||
|
||||
### 技术栈
|
||||
- 后端: FastAPI + SQLite
|
||||
- 前端: 原生 HTML/JS + D3.js
|
||||
- ASR: 阿里云听悟
|
||||
- LLM: Kimi API
|
||||
- 文档处理: PyPDF2, python-docx
|
||||
|
||||
### 部署
|
||||
|
||||
```bash
|
||||
# 构建 Docker 镜像
|
||||
docker build -t insightflow:phase3 .
|
||||
|
||||
# 运行容器
|
||||
docker run -d \
|
||||
-p 18000:8000 \
|
||||
-v /opt/data:/app/data \
|
||||
-e KIMI_API_KEY=your_key \
|
||||
-e ALIYUN_ACCESS_KEY_ID=your_key \
|
||||
-e ALIYUN_ACCESS_KEY_SECRET=your_secret \
|
||||
insightflow:phase3
|
||||
```
|
||||
|
||||
### API 文档
|
||||
|
||||
#### 新增 API
|
||||
|
||||
**文档上传**
|
||||
```
|
||||
POST /api/v1/projects/{project_id}/upload-document
|
||||
Content-Type: multipart/form-data
|
||||
file: <文件>
|
||||
```
|
||||
|
||||
**知识库查询**
|
||||
```
|
||||
GET /api/v1/projects/{project_id}/knowledge-base
|
||||
```
|
||||
|
||||
**术语表管理**
|
||||
```
|
||||
POST /api/v1/projects/{project_id}/glossary
|
||||
GET /api/v1/projects/{project_id}/glossary
|
||||
DELETE /api/v1/glossary/{term_id}
|
||||
```
|
||||
|
||||
**实体对齐**
|
||||
```
|
||||
POST /api/v1/projects/{project_id}/align-entities?threshold=0.85
|
||||
```
|
||||
|
||||
### 数据库 Schema 更新
|
||||
- `transcripts` 表新增 `type` 字段(audio/document)
|
||||
- `entities` 表新增 `embedding` 字段
|
||||
- 新增索引优化查询性能
|
||||
|
||||
Reference in New Issue
Block a user