OpenAvatarChat 是一个模块化的实时交互数字人系统,通过整合语音识别(ASR)、多模态语言模型(LLM)和语音合成(TTS)技术,在本地PC上实现低延迟的数字人对话与音视频交互。消费级PC也能部署,i9-13900KF + RTX 4090平台下平均响应延迟仅2.2秒。
项目概述
目标:实现模块化的交互数字人对话系统,支持在单台PC上运行完整功能。
核心功能:音频处理:整合SenseVoice(ASR)、qwen-plus(LLM)、CosyVoice(TTS)。支持实时音视频传输(RTC)、语音活动检测(VAD)、多模态语言模型(MiniCPM-o)和轻量级数字人渲染。提供云端LLM API替代方案,降低本地配置需求。
上篇:
Khoj - 个人人工智能应用程序
下篇:
OmAgent - 为快速原型和生产构建多模态语言代理
1 OxyGent - 面向生产环境的多智能体系统开发框架 2 morphik - 开源多模态RAG 3 DevDocs - 免费开源文档处理平台 4 AI Agent?Google 出品的 智能体 5 OmAgent - 为快速原型和生产构建多模态语言代理 6 ReflyAI - 自由画布×多模态AI引擎 7 OpenAvatarChat - 实时交互数字人系统 8 Khoj - 个人人工智能应用程序 9 public-apis - 可靠、高效的API资源 10 mcp.so - 最大的 MCP 服务器集合 11 Krillin AI 是一款全能型音视频本地化与增强解决方案 12 AgenticSeek - 不联网也能写代码、搜文件