Story Flicks 是一款基于多模态AI大模型的开源工具,用户只需输入故事主题,即可自动生成包含 高清图像、动态分镜、多语言配音、智能字幕 的完整短视频。项目完全免费,代码公开于GitHub,支持灵活配置和二次开发,真正实现“输入文字,输出电影”的零门槛创作体验。
二、核心功能与技术架构
全流程AI生成能力
文本生成:调用GPT-4o、阿里云Bailian等模型,自动生成故事脚本并拆解为分镜逻辑。
图像生成:集成Stable Diffusion、阿里云FLUX-1等模型,支持4K画质和动态场景(如火箭升空、角色互动)。
音频合成:支持30+语言及方言配音(如四川话、粤语),可调节语速和情感。
视频合成:通过FFmpeg自动对齐音画,添加字幕和过渡特效,输出MP4/GIF格式。
技术栈
后端:Python + FastAPI,负责AI模型调用和视频合成。
前端:React + Ant Design + Vite,提供交互式操作界面。
多模型兼容:支持OpenAI、阿里云、DeepSeek、Ollama等主流AI服务商,用户可自由切换。
Story Flicks 是一款基于多模态AI大模型的开源工具,用户只需输入故事主题,即可自动生成包含 高清图像、动态分镜、多语言配音、智能字幕 的完整短视频。项目完全免费,代码公开于GitHub,支持灵活配置和二次开发,真正实现“输入文字,输出电影”的零门槛创作体验。
二、核心功能与技术架构
全流程AI生成能力
文本生成:调用GPT-4o、阿里云Bailian等模型,自动生成故事脚本并拆解为分镜逻辑。
图像生成:集成Stable Diffusion、阿里云FLUX-1等模型,支持4K画质和动态场景(如火箭升空、角色互动)。
音频合成:支持30+语言及方言配音(如四川话、粤语),可调节语速和情感。
视频合成:通过FFmpeg自动对齐音画,添加字幕和过渡特效,输出MP4/GIF格式。
技术栈
后端:Python + FastAPI,负责AI模型调用和视频合成。
前端:React + Ant Design + Vite,提供交互式操作界面。
多模型兼容:支持OpenAI、阿里云、DeepSeek、Ollama等主流AI服务商,用户可自由切换。
生成你的第一部短片
在网页输入故事主题(如“太空小猫拯救火星”)。
选择风格:卡通/写实/3D动画,设定视频长度(1-5分钟)。
点击生成,系统自动完成分镜、绘图、配音和合成。
四、应用场景与案例
自媒体涨粉:3分钟生成热点解说视频(如“淄博烧烤经济学”),比真人出镜效率提升10倍。
教育培训:将课文《孔乙己》转化为动画短片,学生“追剧式”学习。
商业变现:宠物店为顾客定制“萌宠大片”,收费99元/部。
个人创作:将聊天记录变成情侣微电影,作为纪念日礼物。
Story Flicks 的诞生,标志着短视频创作从“专业团队专利”走向“全民可玩”。无论是蹭热点、做教学,还是记录生活,这个工具都能让你5分钟内成为“导演”。
上篇:
weekly_report - 周报生成器
下篇:
storm - 生成维基百科风格的报告
1 morphik - 开源多模态RAG 2 DevDocs - 免费开源文档处理平台 3 AI Agent?Google 出品的 智能体 4 OmAgent - 为快速原型和生产构建多模态语言代理 5 ReflyAI - 自由画布×多模态AI引擎 6 OpenAvatarChat - 实时交互数字人系统 7 Khoj - 个人人工智能应用程序 8 mcp.so - 最大的 MCP 服务器集合 9 AgenticSeek - 不联网也能写代码、搜文件 10 OpenAI Agents SDK:轻量级多智能体工作流框架 11 Oliva - 高效的商品检索能力,支持 语音交互 12 ZO2:低显存环境下的 175B LLM 全参数微调解决方案