对比激活下的Steering Llama 2技术

talkingdev • 2024-01-09

733293 views

有很多方式可以对齐语言模型，例如SFT、LoRa、RLHF、DPO、Prompting和Threatening。本研究提出使用负嵌入加到偏置项中，以将模型生成推向期望的结果。