项目核心功能
· 图像文本识别:从上传的图片中识别并提取文本内容
· 本地运行:无需依赖云服务,全部在本地设备上处理
· 结构化输出:以结构化的 Markdown 格式展示识别结果
技术组件
· Gemma-3:Google 开发的视觉语言模型,通过 Ollama 在本地运行
· Streamlit:用于构建 Web 界面的 Python 框架
· @ollama:本地部署和运行大型语言模型的框架
上篇:
cognita - 低代码 RAG 框架
下篇:
Local-NotebookLM:开源 + 本地版 NotebookLM
1 Maxun:开源无代码网页数据采集平台,让网站秒变 API 和表格! 2 Suna - 通用 AI 智能体 3 morphik - 开源多模态RAG 4 DevDocs - 免费开源文档处理平台 5 AI Agent?Google 出品的 智能体 6 OmAgent - 为快速原型和生产构建多模态语言代理 7 OpenAvatarChat - 实时交互数字人系统 8 Khoj - 个人人工智能应用程序 9 mcp.so - 最大的 MCP 服务器集合 10 AgenticSeek - 不联网也能写代码、搜文件 11 GenBI AI Agent 12 ollama-deep-researcher——基于ollama的本地的网络研究...