Gemma3-OCR - 本地运行的计算机视觉应用
项目核心功能
· 图像文本识别:从上传的图片中识别并提取文本内容
· 本地运行:无需依赖云服务,全部在本地设备上处理
· 结构化输出:以结构化的 Markdown 格式展示识别结果
技术组件
· Gemma-3:Google 开发的视觉语言模型,通过 Ollama 在本地运行
· Streamlit:用于构建 Web 界面的 Python 框架
· @ollama:本地部署和运行大型语言模型的框架
上篇:
cognita - 低代码 RAG 框架
下篇:
Local-NotebookLM:开源 + 本地版 NotebookLM
相关主题
1 GenBI AI Agent 2 ollama-deep-researcher——基于ollama的本地的网络研究... 3 OpenAI Agents SDK:轻量级多智能体工作流框架 4 Oliva - 高效的商品检索能力,支持 语音交互 5 ZO2:低显存环境下的 175B LLM 全参数微调解决方案 6 AIaW - 全功能、轻量级、可扩展的AI对话客户端 7 Mastra : 专为 TS 开发者设计的 AI 应用开发框架 8 GraphRAG:基于图像检索增强生成开源到爆火,解锁新RAG技术 9 GeoAI: 人工智能驱动的地理空间数据分析 10 Local Deep Research - 本地深度 AI 研究助手 11 text-generation-inference - 推理任务 12 DistillFlow
热门
焦点
视点
头条