## easy-dataset
- https://github.com/ConardLi/easy-dataset
大型语言模型微调数据集创建工具
如何快速创建 LLM 微调数据集?
在微调大型语言模型(LLM)时,你是否遇到过数据集整理繁琐、问题生成低效、格式转换复杂的问题?Easy Dataset 提供了一种高效、智能的解决方案,帮助你轻松构建高质量的微调数据集,让模型训练更加顺畅。
✨ Easy Dataset 是什么?
Easy Dataset 是一个专为 LLM 设计的数据集构建工具,能够自动拆分文档、生成问题、创建答案,并提供多种格式导出,使微调过程更加高效。
⚡ 主要特点
✅ 智能文档处理 – 支持 Markdown 文件上传,自动拆分为有意义的文本片段。
✅ 智能问题生成 – 从文本片段中提取相关问题,提高数据集质量。
✅ 自动答案生成 – 利用 LLM API 生成高质量答案,减少人工干预。
✅ 灵活编辑 – 可随时修改问题、答案及数据集内容。
✅ 多种导出格式 – 支持 Alpaca、ShareGPT 等格式,兼容 JSON、JSONL 文件类型。
✅ 广泛模型支持 – 兼容所有符合 OpenAI 格式的 LLM API。
✅ 用户友好界面 – 适合技术人员和非技术用户,无需复杂配置。
✅ 可定制系统提示 – 添加自定义提示词,引导模型生成更符合需求的回答。
❓ Easy Dataset 解决了哪些问题?
🚀 数据标注成本高? 自动化数据生成,大幅减少人工整理工作。
🛠️ 格式转换麻烦? 一键导出多种格式,无需手动适配。
上篇:
axolotl - 构建和部署人工智能模型
下篇:
dynamo - 一个数据中心规模的分布式推理服务框架
1 OpenAI Agents SDK:轻量级多智能体工作流框架 2 Oliva - 高效的商品检索能力,支持 语音交互 3 ZO2:低显存环境下的 175B LLM 全参数微调解决方案 4 AIaW - 全功能、轻量级、可扩展的AI对话客户端 5 Mastra : 专为 TS 开发者设计的 AI 应用开发框架 6 GraphRAG:基于图像检索增强生成开源到爆火,解锁新RAG技术 7 GeoAI: 人工智能驱动的地理空间数据分析 8 DistillFlow 9 Gemma3-OCR - 本地运行的计算机视觉应用 10 cognita - 低代码 RAG 框架 11 WebWalker - 专注于模拟人类的网络浏览和搜索行为 12 Second Me - AI 分身平台