图灵测试已经过时了吗？

奥特之父 · 发表于 2023-7-30 10:32:57

在机器智能测试领域，最著名的方案一直是图灵测试。该测试由英国数学家兼计算机先驱阿兰·图灵于 1950 年提出，当时的计算机尚处于起步阶段。
图灵提出了一种所谓“模仿游戏”的评估方法，在该场景中，人类裁判分别与隐藏在屏幕之后的计算机和人类进行简短的文本对话，看其能否据此准确识别出机器和人。图灵认为，这应该能回答“机器有没有思考能力”的问题。
Mitchell 指出，图灵并没有详细说明该场景的大量细节，因此缺乏确切规则可供遵循。来自谷歌的软件工程师 François Chollet 认为，“图灵测试并不是能在机器上实际运行的具体测试——而更多只是种思想实验。”
但这种用语言来检测机器是否具备思考能力的观点，已经在技术领域根深蒂固。几十年来，商人兼慈善家 Hugh Loebner 长期资助一年一度的图灵测试活动，也就是“Loebner 奖”。但计算机科学家 Rob Wortham 表示，这项活动在 2019 年之后就停止了，因为随着 Loebner 本人过世、活动经费也无以为继。Wortham 是英国人工智能与行为模拟研究学会的联席主任，该学会自 2014 年开始就代表 Loebner 主办这场竞赛。他解释道，大语言模型现在基本具备了骗过人类的能力，所以 Loebner 奖在大语言模型全面起飞前夕被迫停办颇有种黑色幽默的意味。
其他研究人员也认为，GPT-4 等大语言模型已经基本具备了通过图灵测试的能力。至少在简短的对话中，多数人恐怕很难分辨谁是人、谁是大模型。
今年 5 月，**特拉维夫 AI21 实验室的研究人员报告称，有超过 150 万人参与过基于图灵测试的在线游戏。用户将参与到两分钟的聊天当中，面对的要么是另一位用户、要么是根据研究人员提示伪装成真人的大语言模型。玩家正确识别出机器人的概率只有 60%，已经跟完全乱猜差不多了 3。
但比较熟悉大语言模型的研究者还是能从种种细节中分辨出聊天机器人。
Chollet 指出，他发现只要利用系统的已知弱点，就能轻松检测出谁是大语言模型。“如果让我自己接受测试，判断到底是不是在跟大语言模型聊天，那我肯定能得出正确答案。”
而其中的关键，就是让大语言模型走出自己的舒适区。他的诀窍就是向大语言模型提出与常见训练场景不同的差异化场景。在多数情况下，大语言模型都是在根据训练数据输出可能性最高的单词，而并非真的按照新场景给出正确答案。
而且，Chollet 等人对于这种基于欺骗性能的测试方法持怀疑态度。“这明显就是为了欺骗人类裁判而存在”，这样的测试只会鼓励开发者向 AI 灌输更多伪装技巧，并不能激发出更多有用或者有趣的功能。

		记住登录	找回密码
密码			立即注册

轻松一点找工作

这群人红包拿不停

脱单秘籍点这里！

商业推广找她

图灵测试已经过时了吗？

浏览过的版块