分享
用户指南篇 – KTransformers 微调 × LLaMA-Factory 集成
输入“/”快速插入内容
用户指南篇 – KTransformers 微调 × LLaMA-Factory 集成
用户790
用户790
2025年11月8日修改
MadSys实验室, KVCache-AI团队, 趋境科技, LLaMA-Factory团队
Introduction
从
DeepSeek-V3
/R1
到
Qwen3-MoE、Kimi-K2
,每一次超大模型的开源都带来性能与规模上的巨大跃升。然而,多数研究者与开发者受限于昂贵的显卡与动辄数千亿参数的模型,
难以在资源受限条件下微调超大模型
。面对这种差距,我们提出了一种更具可行性的方案:通过
KTransformers 与 LLaMA-Factory 的结合
,仅需2~4张RTX 4090与较高内存CPU,便可微调DeepSeek-671B等超大规模的MoE模型。
该架构的核心目标是为资源受限下的研究者提供
在本地探索超大规模模型微调的可能性
。同时,也在较小规模(如 14B/30B)提供快速定制特定场景的路径。我们以
风格化对话、西式腔调翻译、医学问答
作为代表任务,验证架构的可行性,并展示在
数小时内达成个性化适配
的可操作性。
如下图所示,LLaMA-Factory 是整个微调流程的统一调度与配置框架,负责数据处理、训练调度、LoRA 插入与推理接口管理; KTransformers 则作为其可插拔的高性能后端,在相同的训练配置下接管 Attention / MoE 等核心算子,实现异构设备(GPU+CPU)的高效协同。
我们在 LLaMA-Factory 框架下,对比评测了
HuggingFace
、
Unsloth
、
KTransformers
三种后端的 LoRA 微调方案。结果显示,KTransformers为超大规模的MoE模型(671B等)提供了
4090 级别
的唯一可行方案,并在较小规模的MoE模型(DeepSeek-14B)上面也展现了更高的吞吐和更低的显存占用。
†
1400 GB
为
理论显存
(FP16 全参数常驻,非可运行配置);
70 GB
为 KT 策略(Attention 驻 GPU + MoE分层 offload)下的
实测峰值
。
微调效果示例
风格化对话测试(CatGirl风格语气)
数据集:
NekoQA-10K: 面向猫娘语言建模的对话数据集
,目标是提升风格一致性与可辨识度。
下图对比了原始模型和微调模型的回答,可以看到微调后模型在语气和称谓上更加稳定地保持了猫娘风格(红框部分),验证了
风格迁移微调
的有效性。
Benchmark测试
数据集选取:
(1)采用了
西式翻译腔数据集
,该数据集要求模型按西式表达习惯进行夸张的翻译,有明确的定制化风格需求。
(2)采用了
AfriMed-QA
数据集(ACL-2025),作为非洲地区医疗领域的专用数据集,具有很强的场景定制特征,包含选择题和简答题两种形式,非常适合作为垂直领域微调的评估。针对单选和简答形式,我们分别进行测试,结果如下。
下表显示了微调前后模型在这些数据集上的指标变化。可以看到经过 LoRA 微调后,各项指标
大幅提升
,验证了微调的有效性: