【ITBEAR科技资讯】5月11日消息,由于人们对于AI算法的可解释性越来越关注,OpenAI最近公布了其最新研究成果,通过让GPT-4去试着解释GPT-2的行为,从而一定程度上解决了AI模型的“黑盒”问题。
AI模型一直被视为“黑盒”,其内部工作方式难以被理解,这也让许多人对于其正确性和偏见性产生了质疑。为了解决这个问题,OpenAI决定通过让一个AI“黑盒”去解释另一个AI“黑盒”的方式,来了解大型语言模型中神经元的行为特征,为AI算法的可解释性提供一种新的思路。
具体来说,OpenAI让GPT-4去解释GPT-2的行为,首先通过给出一个GPT-2神经元的激活情况和相关文本序列,让GPT-4生成相应的解释;然后,再用GPT-4模拟被解释的神经元行为,最后通过比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果,评分GPT-4的解释质量。据ITBEAR科技资讯了解,OpenAI共让GPT-4解释了GPT-2中的307200个神经元,其中大多数解释的得分很低,但超过1000个神经元的解释得分高于0.8。
OpenAI承认目前GPT-4生成的解释仍不完美,尤其在解释比GPT-2规模更大的模型时,效果更是不佳。但是,OpenAI认为这个研究成果意义重大,因为它为AI算法的可解释性提供了一种新的思路,也为相关领域的研究提供了新的工具和数据集。未来,随着ML技术的不断发展,GPT-4的解释能力也将不断提高。
不过,OpenAI也指出,这个研究仍然存在许多局限性和挑战,例如GPT-4生成的解释总是很简短,但神经元可能有着非常复杂的行为;当前的方法只解释了神经元的行为,并没有涉及下游影响;整个过程计算密集,算力消耗较大等问题。因此,在AI算法可解释性的研究领域还需要更多的努力和探索。