如今,与人工智能(AI)的在线互动不仅比以往更加频繁,而且对用户来说也更加隐形。
研究人员开始通过一个涉及一个人和三个不同人工智能模型的实验来测试人们是否能够区分人工智能和人类。
“图灵测试”最初由计算机科学家艾伦·图灵于 1950 年提出,是一种“模仿游戏”,旨在评估机器展示与人类无异的智能的能力。
为了通过这项测试,机器必须让对话者相信它是一个人。
科学家们决定通过要求 500 名参与者与四名受访者聊天来重复这一测试:人类、20 世纪 60 年代的ELIZA程序以及在 ChatGPT 上运行的 GPT-3.5 和 GPT-4 模型。
每次对话持续五分钟,之后参与者必须确定他们是在与人类还是人工智能对话。
ELIZA 是一个具有预编程反应但没有大型语言模型 (LLM) 或神经架构的系统,只有 22% 的时间被判定为人类。
GPT-3.5 得分为 50%,而人类得分为 67%。
电气和电子工程师协会 (IEEE )的人工智能研究员 Nell Watson指出:机器可以像人类一样创建合理的解释。
他们可能会受到认知扭曲的影响,但却感到困惑和操纵,变得越来越具有欺骗性。
所有这些元素使得人工智能系统与人类相似,这使得它们与以前具有有限的现成答案的方法显着不同。
这项研究建立在数十年来让人工智能通过图灵测试的努力的基础上,强调了人们普遍担心被视为类人的人工智能系统将产生“广泛的社会和经济后果”。
科学家们还指出,对图灵测试过于简单化的批评是合理的,他们认为“风格和社会情感因素在通过图灵测试方面比传统的智力概念发挥着更重要的作用。”
这表明人工智能研究的方法需要重新考虑。
这项研究对人机交互的未来提出了挑战,人们将对这种交互的性质越来越怀疑,尤其是在敏感问题上。
这项研究展示了人工智能在GPT时代发生了怎样的变化。
ELIZA 受到现成反应的限制,这极大地限制了其能力。
它可以愚弄某人五分钟,但很快局限性就会显现出。
语言模型非常灵活,能够综合各种主题的答案,说特定的语言或方言,并表现出独特的个性和价值观。
与任何手动编程相比,这都是一个巨大的进步,无论它做得多么熟练或仔细。
像 GPT-4 这样的现代人工智能语言模型展示了模仿人类智能和语言的非凡能力,挑战了传统的人工智能概念。
在复制图灵测试的实验中,GPT-4 在 54% 的时间内被识别为人类,显着优于之前的人工智能系统。
这表明人工智能的发展取得了重大进展,并且具有产生可与人类相媲美的可靠、灵活和情境响应的能力。
然而,人工智能与人类的高度相似性也引发了人们对当人们无法区分与人工智能的交互和与人类的交互时可能产生的社会和经济后果的担忧。
这需要审查人工智能的评估方法,并制定新的标准和方法来区分人类和人工智能。
未来,人们在与人工智能互动时,尤其是在敏感问题上,需要更加谨慎和批判,以避免被操纵和误判。