Story Flicks 是一款基于多模态AI大模型的开源工具,用户只需输入故事主题,即可自动生成包含 高清图像、动态分镜、多语言配音、智能字幕 的完整短视频。项目完全免费,代码公开于GitHub,支持灵活配置和二次开发,真正实现“输入文字,输出电影”的零门槛创作体验。
二、核心功能与技术架构
全流程AI生成能力
文本生成:调用GPT-4o、阿里云Bailian等模型,自动生成故事脚本并拆解为分镜逻辑。
图像生成:集成Stable Diffusion、阿里云FLUX-1等模型,支持4K画质和动态场景(如火箭升空、角色互动)。
音频合成:支持30+语言及方言配音(如四川话、粤语),可调节语速和情感。
视频合成:通过FFmpeg自动对齐音画,添加字幕和过渡特效,输出MP4/GIF格式。
技术栈
后端:Python + FastAPI,负责AI模型调用和视频合成。
前端:React + Ant Design + Vite,提供交互式操作界面。
多模型兼容:支持OpenAI、阿里云、DeepSeek、Ollama等主流AI服务商,用户可自由切换。
Story Flicks 是一款基于多模态AI大模型的开源工具,用户只需输入故事主题,即可自动生成包含 高清图像、动态分镜、多语言配音、智能字幕 的完整短视频。项目完全免费,代码公开于GitHub,支持灵活配置和二次开发,真正实现“输入文字,输出电影”的零门槛创作体验。
二、核心功能与技术架构
全流程AI生成能力
文本生成:调用GPT-4o、阿里云Bailian等模型,自动生成故事脚本并拆解为分镜逻辑。
图像生成:集成Stable Diffusion、阿里云FLUX-1等模型,支持4K画质和动态场景(如火箭升空、角色互动)。
音频合成:支持30+语言及方言配音(如四川话、粤语),可调节语速和情感。
视频合成:通过FFmpeg自动对齐音画,添加字幕和过渡特效,输出MP4/GIF格式。
技术栈
后端:Python + FastAPI,负责AI模型调用和视频合成。
前端:React + Ant Design + Vite,提供交互式操作界面。
多模型兼容:支持OpenAI、阿里云、DeepSeek、Ollama等主流AI服务商,用户可自由切换。
生成你的第一部短片
在网页输入故事主题(如“太空小猫拯救火星”)。
选择风格:卡通/写实/3D动画,设定视频长度(1-5分钟)。
点击生成,系统自动完成分镜、绘图、配音和合成。
四、应用场景与案例
自媒体涨粉:3分钟生成热点解说视频(如“淄博烧烤经济学”),比真人出镜效率提升10倍。
教育培训:将课文《孔乙己》转化为动画短片,学生“追剧式”学习。
商业变现:宠物店为顾客定制“萌宠大片”,收费99元/部。
个人创作:将聊天记录变成情侣微电影,作为纪念日礼物。
Story Flicks 的诞生,标志着短视频创作从“专业团队专利”走向“全民可玩”。无论是蹭热点、做教学,还是记录生活,这个工具都能让你5分钟内成为“导演”。
上篇:
weekly_report - 周报生成器
下篇:
storm - 生成维基百科风格的报告
1 OpenAI Agents SDK:轻量级多智能体工作流框架 2 Oliva - 高效的商品检索能力,支持 语音交互 3 ZO2:低显存环境下的 175B LLM 全参数微调解决方案 4 AIaW - 全功能、轻量级、可扩展的AI对话客户端 5 Mastra : 专为 TS 开发者设计的 AI 应用开发框架 6 GraphRAG:基于图像检索增强生成开源到爆火,解锁新RAG技术 7 cognita - 低代码 RAG 框架 8 Refly - 开源的AI原生创作引擎 9 WebWalker - 专注于模拟人类的网络浏览和搜索行为 10 Agent TARS:智能多模态 AI 代理,助力高效自动化 11 Gurubase - 开源 RAG 问答助手 12 Clara - 隐私至上的本地 AI 助手与智能代理构建器