今天本来就想更一期强化学习,但是突然看了Anthropic的persona vector,所以又来写这一篇,因为我觉得这个很有价值以往我们玩LLM比较怕的事就事他乱说话作为概率模型,它能说对,它也能乱编,乱编轻症就是所谓的幻觉,乱编的重症就严重了,比如输出一些有毒的内容,涉黄涉恐内容,虽然上线前都做过毒性测试,但是事实证明,几乎任何模型都在一定条件下可以被jailbreak还有一个就是可解释性神经
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号