Files
insightflow/README.md

273 lines
7.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# InsightFlow - Audio to Knowledge Graph Platform
InsightFlow 是一个音频转知识图谱平台,支持将音频、文档转换为结构化的知识图谱,并提供强大的分析和推理能力。
## 功能特性
### Phase 1-3: 基础功能 ✅
- 音频上传与转录(阿里云听悟 ASR
- 实体提取与关系抽取
- 知识图谱可视化D3.js
- 多文件图谱融合
- PDF/DOCX 文档导入
- 实体对齐与别名管理
- 项目知识库面板
### Phase 4: Agent 助手与知识溯源 ✅
- AI 助手对话RAG 问答)
- 实体操作指令执行
- 知识溯源(关系来源追踪)
- 实体悬停卡片
- 置信度提示
### Phase 5: 高级功能 ✅
- **知识推理** - 因果/对比/时序/关联推理
- **时间线视图** - 实体演变追踪
- **实体属性扩展** - 自定义属性模板
- **Neo4j 图数据库** - 复杂图查询、最短路径、社区发现
- **导出功能** - SVG/PNG/Excel/CSV/PDF/JSON
### Phase 6: API 开放平台 ✅
- **API Key 管理** - 创建、撤销、权限控制
- **Swagger/OpenAPI 文档** - 在线 API 文档
- **限流控制** - 滑动窗口限流、调用统计
- **调用日志** - 详细调用记录和分析
## 技术栈
- **后端**: FastAPI + SQLite
- **前端**: 原生 HTML/JS + D3.js
- **ASR**: 阿里云听悟
- **LLM**: Kimi API
- **图数据库**: Neo4j
- **文档处理**: PyPDF2, python-docx
## 快速开始
### 本地开发
```bash
# 克隆仓库
git clone https://git.sivdead.cn/claw/insightflow
cd insightflow
# 安装依赖
cd backend
pip install -r requirements.txt
# 运行开发服务器
python -m uvicorn main:app --reload --host 0.0.0.0 --port 8000
```
### Docker 部署
```bash
# 构建镜像
docker build -t insightflow:latest .
# 运行容器
docker run -d \
-p 18000:8000 \
-v /opt/data:/app/data \
-e KIMI_API_KEY=your_key \
-e ALIYUN_ACCESS_KEY_ID=your_key \
-e ALIYUN_ACCESS_KEY_SECRET=your_secret \
-e INSIGHTFLOW_MASTER_KEY=your_master_key \
insightflow:latest
```
### Docker Compose 部署(推荐)
```bash
# 启动所有服务(含 Neo4j
docker-compose up -d
```
## API 认证
从 Phase 6 开始API 需要认证才能访问:
```bash
# 1. 创建 API Key需要 Master Key
curl -X POST http://localhost:18000/api/v1/api-keys \
-H "X-API-Key: your_master_key" \
-H "Content-Type: application/json" \
-d '{"name": "My App", "permissions": ["read", "write"]}'
# 2. 使用 API Key 访问受保护端点
curl http://localhost:18000/api/v1/projects \
-H "X-API-Key: ak_live_xxxxx"
```
## API 文档
- Swagger UI: http://122.51.127.111:18000/docs
- ReDoc: http://122.51.127.111:18000/redoc
## 部署信息
- **服务器**: 122.51.127.111:18000
- **Neo4j**: 122.51.127.111:7474 (HTTP), 122.51.127.111:7687 (Bolt)
- **Git 仓库**: https://git.sivdead.cn/claw/insightflow
## 开发状态
详见 [STATUS.md](STATUS.md)
## 项目文档
- [PRD v2.0](docs/PRD-v2.0.md) - 产品需求规格说明书
- [STATUS.md](STATUS.md) - 详细开发状态跟踪
## 许可证
MIT
---
## Phase 7: 智能化与生态扩展 - 规划中 🚧
基于现有功能和用户反馈Phase 7 聚焦**智能化增强**和**生态扩展**
### 1. 智能工作流自动化 🤖
**优先级: P0**
- 定时任务自动分析新上传的音频/文档
- 自动实体对齐和关系发现
- 智能提醒(如发现新关联、实体冲突)
- Webhook 集成支持飞书、钉钉、Slack 通知)
### 2. 多模态支持 🎬
**优先级: P0**
- 视频文件导入(提取音频 + 关键帧 OCR
- 图片内容识别白板、PPT、手写笔记
- 多模态实体关联(同一实体在音频、图片、文档中的提及)
### 3. 协作与共享 👥
**优先级: P1**
- 项目分享(只读/可编辑链接)
- 评论和批注(在实体、关系、转录文本上添加评论)
- 变更历史(谁修改了什么,何时修改)
- 团队空间(多用户项目协作)
### 4. 智能报告生成 📊
**优先级: P1**
- 一键生成项目总结报告PDF/Word
- 实体关系网络分析报告
- 会议纪要和行动项提取
- 自定义报告模板
### 5. 插件与集成 🔌
**优先级: P2**
- Chrome 插件(网页内容一键导入)
- 飞书/钉钉机器人(群内直接分析音频)
- Zapier/Make 集成(连接 5000+ 应用)
- WebDAV 同步(与坚果云等网盘联动)
### 6. 高级搜索与发现 🔍
**优先级: P2**
- 全文搜索(跨所有转录文本)
- 语义搜索(基于 embedding 的相似度搜索)
- 实体关系路径发现A 和 B 之间如何关联)
- 知识缺口识别(项目中缺失的关键信息)
### 7. 数据安全与合规 🔒
**优先级: P1**
- 端到端加密(敏感项目数据加密存储)
- 数据脱敏(自动识别并脱敏敏感信息)
- 审计日志(完整操作记录)
- GDPR/数据合规支持
### 8. 性能优化与扩展 ⚡
**优先级: P2**
- Redis 缓存层(热点数据缓存)
- 数据库分片(支持大规模项目)
- CDN 加速(静态资源全球加速)
- 异步任务队列Celery + Redis
---
## Phase 7 开发进度
| 任务 | 状态 | 完成时间 |
|------|------|----------|
| 1. 智能工作流自动化 | ✅ 已完成 | 2026-02-23 |
| 2. 多模态支持 | ✅ 已完成 | 2026-02-23 |
| 7. 插件与集成 | ✅ 已完成 | 2026-02-23 |
| 3. 数据安全与合规 | ✅ 已完成 | 2026-02-23 |
| 4. 协作与共享 | ✅ 已完成 | 2026-02-24 |
| 5. 智能报告生成 | ✅ 已完成 | 2026-02-24 |
| 6. 高级搜索与发现 | ✅ 已完成 | 2026-02-24 |
| 8. 性能优化与扩展 | ✅ 已完成 | 2026-02-24 |
**Phase 7 全部完成!** 🎉
**实际完成时间**: 2 周
---
## Phase 8: 商业化与规模化 - 规划中 🚧
基于 Phase 1-7 的完整功能Phase 8 聚焦**商业化落地**和**规模化运营**
### 1. 多租户 SaaS 架构 🏢
**优先级: P0**
- 租户隔离(数据、配置、资源完全隔离)
- 自定义域名绑定CNAME 支持)
- 品牌白标Logo、主题色、自定义 CSS
- 租户级权限管理(超级管理员、管理员、成员)
### 2. 订阅与计费系统 💳
**优先级: P0**
- 多层级订阅计划Free/Pro/Enterprise
- 按量计费转录时长、存储空间、API 调用次数)
- 支付集成Stripe、支付宝、微信支付
- 发票管理、退款处理、账单历史
### 3. 企业级功能 🏭
**优先级: P1**
- SSO/SAML 单点登录企业微信、钉钉、飞书、Okta
- SCIM 用户目录同步
- 审计日志导出SOC2/ISO27001 合规)
- 数据保留策略(自动归档、数据删除)
### 4. 运营与增长工具 📈
**优先级: P1**
- 用户行为分析Mixpanel/Amplitude 集成)
- A/B 测试框架
- 邮件营销自动化(欢迎序列、流失挽回)
- 推荐系统(邀请返利、团队升级激励)
### 5. 开发者生态 🛠️
**优先级: P2**
- SDK 发布Python/JavaScript/Go
- 模板市场(行业模板、预训练模型)
- 插件市场(第三方插件审核与分发)
- 开发者文档与示例代码
### 6. 全球化与本地化 🌍
**优先级: P2**
- 多语言支持i18n至少 10 种语言)
- 区域数据中心(北美、欧洲、亚太)
- 本地化支付(各国主流支付方式)
- 时区与日历本地化
### 7. AI 能力增强 🤖
**优先级: P1**
- 自定义模型训练(领域特定实体识别)
- 多模态大模型集成GPT-4V、Claude 3
- 智能摘要与问答(基于知识图谱的 RAG
- 预测性分析(趋势预测、异常检测)
### 8. 运维与监控 🔧
**优先级: P2**
- 实时告警系统PagerDuty/Opsgenie 集成)
- 容量规划与自动扩缩容
- 灾备与故障转移(多活架构)
- 成本优化(资源利用率监控)
---
**建议开发顺序**: 1 → 2 → 3 → 7 → 4 → 5 → 6 → 8
**预计 Phase 8 完成时间**: 6-8 周