## easy-dataset
- https://github.com/ConardLi/easy-dataset
大型语言模型微调数据集创建工具
如何快速创建 LLM 微调数据集?
在微调大型语言模型(LLM)时,你是否遇到过数据集整理繁琐、问题生成低效、格式转换复杂的问题?Easy Dataset 提供了一种高效、智能的解决方案,帮助你轻松构建高质量的微调数据集,让模型训练更加顺畅。
✨ Easy Dataset 是什么?
Easy Dataset 是一个专为 LLM 设计的数据集构建工具,能够自动拆分文档、生成问题、创建答案,并提供多种格式导出,使微调过程更加高效。
⚡ 主要特点
✅ 智能文档处理 – 支持 Markdown 文件上传,自动拆分为有意义的文本片段。
✅ 智能问题生成 – 从文本片段中提取相关问题,提高数据集质量。
✅ 自动答案生成 – 利用 LLM API 生成高质量答案,减少人工干预。
✅ 灵活编辑 – 可随时修改问题、答案及数据集内容。
✅ 多种导出格式 – 支持 Alpaca、ShareGPT 等格式,兼容 JSON、JSONL 文件类型。
✅ 广泛模型支持 – 兼容所有符合 OpenAI 格式的 LLM API。
✅ 用户友好界面 – 适合技术人员和非技术用户,无需复杂配置。
✅ 可定制系统提示 – 添加自定义提示词,引导模型生成更符合需求的回答。
❓ Easy Dataset 解决了哪些问题?
🚀 数据标注成本高? 自动化数据生成,大幅减少人工整理工作。
🛠️ 格式转换麻烦? 一键导出多种格式,无需手动适配。
上篇:
axolotl - 构建和部署人工智能模型
下篇:
dynamo - 一个数据中心规模的分布式推理服务框架
1 Fireplexity — 极速 AI 搜索引擎 2 Vizro - 数据可视化,低代码 Python 工具包 3 Hexabot - AI 聊天机器人 / 智能代理构建 4 Stand-In - 身份保持型视频生成框架 5 sparka - 多模型 AI 聊天平台 6 sim - 人工智能代理工作流 7 Maxun:开源无代码网页数据采集平台,让网站秒变 API 和表格! 8 Suna - 通用 AI 智能体 9 morphik - 开源多模态RAG 10 DevDocs - 免费开源文档处理平台 11 AI Agent?Google 出品的 智能体 12 OmAgent - 为快速原型和生产构建多模态语言代理