Gemma3-OCR - 本地运行的计算机视觉应用
0 ihunter 2025/03
Gemma3-OCR:完全本地运行的计算机视觉应用,特别适合需要离线文本识别能力的场景,或者对数据隐私有较高要求的用户

项目核心功能
· 图像文本识别:从上传的图片中识别并提取文本内容
· 本地运行:无需依赖云服务,全部在本地设备上处理
· 结构化输出:以结构化的 Markdown 格式展示识别结果

技术组件
· Gemma-3:Google 开发的视觉语言模型,通过 Ollama 在本地运行
· Streamlit:用于构建 Web 界面的 Python 框架
· @ollama:本地部署和运行大型语言模型的框架
收藏 有帮助 没帮助

上篇: cognita - 低代码 RAG 框架
下篇: Local-NotebookLM:开源 + 本地版 NotebookLM

相关主题
 IT博客索引
 AI软件索引
 猜你喜欢
热门
焦点
视点
头条