在模型规模进步的刺激下,大型语言模型(LLMs)已经展示了执行各种自然语言处理(NLP)任务的能力,即不需要针对下游数据进行调整。最近,ChatGPT的首次亮相引起了自然语言处理(NLP)界的极大关注,因为它可以对人类的输入产生高质量的反应,并根据后续的对话对以前的错误进行自我纠正。
然而,ChatGPT是否能作为一个通用的模型,可以零次(zero-shot)地执行许多NLP任务,目前还不得而知。
在这项工作中,作者通过对涵盖7个代表性任务类别的20个流行的NLP数据集进行评估,实证分析了ChatGPT的零次学习能力。通过广泛的实证研究,作者表明了当前版本的ChatGPT的有效性和局限性,发现ChatGPT在许多有利于推理能力的任务上表现良好(例如,算术推理),而在解决诸如序列标签等特定任务时,它仍然面临着挑战。此外,作者还通过定性案例研究进行了深入分析。