项目核心功能
· 图像文本识别:从上传的图片中识别并提取文本内容
· 本地运行:无需依赖云服务,全部在本地设备上处理
· 结构化输出:以结构化的 Markdown 格式展示识别结果
技术组件
· Gemma-3:Google 开发的视觉语言模型,通过 Ollama 在本地运行
· Streamlit:用于构建 Web 界面的 Python 框架
· @ollama:本地部署和运行大型语言模型的框架
上篇:
cognita - 低代码 RAG 框架
下篇:
Local-NotebookLM:开源 + 本地版 NotebookLM
1 KAG - 知识库 2 Fireplexity — 极速 AI 搜索引擎 3 Vizro - 数据可视化,低代码 Python 工具包 4 Stand-In - 身份保持型视频生成框架 5 sparka - 多模型 AI 聊天平台 6 Maxun:开源无代码网页数据采集平台,让网站秒变 API 和表格! 7 Suna - 通用 AI 智能体 8 morphik - 开源多模态RAG 9 DevDocs - 免费开源文档处理平台 10 AI Agent?Google 出品的 智能体 11 OmAgent - 为快速原型和生产构建多模态语言代理 12 OpenAvatarChat - 实时交互数字人系统