漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

对比激活下的Steering Llama 2技术

talkingdev • 2024-01-09

733293 views

有很多方式可以对齐语言模型,例如SFT、LoRa、RLHF、DPO、Prompting和Threatening。本研究提出使用负嵌入加到偏置项中,以将模型生成推向期望的结果。

核心要点

  • 使用对比激活技术的Steering Llama 2
  • 推动模型生成期望结果的方法
  • 探索对齐语言模型的新方式

Read more >