[开源]Penny-1.7B:基于GRPO的单卡A6000训练的《爱尔兰便士杂志》风格迁移模型
talkingdev • 2025-06-02
21567 views
开发者dleemiller近日在Hugging Face平台发布了Penny-1.7B语言模型,该模型通过创新性的训练方法实现了对19世纪《爱尔兰便士杂志》古英语风格的精准模仿。项目采用纯GRPO(一种新型优化算法)训练策略,仅用单张NVIDIA A6000显卡在24小时内完成训练,且未使用任何监督微调(SFT)。核心技术在于构建了由古英语原文与合成现代译文组成的平行语料库,并创新性地采用MiniLM2小型编码器作为风格分类器引导模型生成。测试显示,模型能稳定输出符合维多利亚时期文风的文本,在保持语义准确性的同时完成现代英语到古英语的风格迁移。这种轻量化训练范式为小规模团队开发领域专用语言模型提供了新思路,目前已在Hacker News引发136分热度讨论。
核心要点
- 采用纯GRPO算法在单卡A6000上24小时完成1.7B参数模型的训练
- 创新使用MiniLM2小型编码器实现古英语风格迁移,无需监督微调
- 构建古英语-现代英语平行语料库解决历史语言数据稀缺问题