“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户会创作含双关语、多义词、因果倒置和谐音词等或令人拍案叫绝或“烧脑”的内容。一些内容设有逻辑陷阱,即使对人类来说也是挑战。
今年4月,中国科学院研究团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果,超过了他们收集的其他有监督微调指令集数据。后者来自包括小红书、豆瓣、知乎等社交平台。
图说:论文截图 图源:网络
“幽默是区别人类与机器的分水岭”
文章走红是意料之内,也是意料之外。吧主公孙闬告诉纵相新闻记者:“去年12月,互联网上已有很多AI大战弱智吧的内容,但我们的确没想到中科院用它来训练AI。”
视频网站上,网友将弱智吧内的问题向AI进行提问,用来测试AI的理解与逻辑分析能力。“这些视频的流量都很高,但我们自己的视频账号反而没什么人关注。”公孙闬笑着说,当然他们做这些也并非为了流量,“重要的是我们自己玩得开心。”
“一个半小时是几个半小时?”“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“救火是在灭火”“我最新的照片其实是我最老的照片”……
这些弱智吧成员的创作,初看透着幽默与机灵劲儿,仔细一想,创作者通过对现实世界的解构与再建构,贡献了人类对于逻辑、幽默与哲学的思考,可以说他们是段子手、诗人,也是哲学家。
图源:弱智吧截图
2004年,弱智吧成立。5年后,14岁的公孙闬开始发文与吧友互动。他没有想到自己有一天会成为这个贴吧的吧主,并且令那么多人了解到这个贴吧,“当时的贴吧更像聊天室,社区氛围很轻松,大家在一起分享自己的奇思妙想。”
“幽默是区别人类与机器的重要分水岭。”从最初轻松活泼的社区氛围,到如今成为大数据语聊库,公孙闬希望通过快乐地“玩”来探底AI能在何种程度理解人类的幽默,“现在的AI没有人味儿,太正经了。我发一个梗,AI只会一板一眼地解释,瞬间没了沟通的兴致。”
“大模型变聪明,有我一份贡献”
幽默是人类稀缺又珍贵的能力,这或许也为脱口秀成为大众喜剧增加了一个注脚。
弱智吧成员胡萝北毕业于天津理工大学数学系,“守护最好的谐音梗”是他另一个更为人所熟知的身份,一名脱口秀演员。上个月他举办个人单口喜剧专场,知名脱口秀演员李雪琴进行了推荐。
对于为什么叫胡萝北,他给出的回答很“数学”,“因为一搜胡萝卜显示的都是食物,而胡萝北具有唯一性。”
2019年,胡萝北看到弱智吧的精选帖子,“当时对‘生鱼片是死鱼片’这句印象特别深,觉得我也能写,这地儿能发我写的东西。”由此,胡萝北逐渐在社区内发布自己的创作。
幽默的复杂性令研究人员称之为人工智能的“最后边界”。“种什么因得什么果,种咖啡因得咖啡果”就是胡萝北的创作,他坦言的确没想到弱智吧的内容会作为大数据语料投喂,“AI看似与普通人无关,但其实我们每天的日常从某种程度而言都在为未来的AI投喂数据。”
图源:外滩大会
9月7日,胡萝北将在外滩大会创新者舞台进行《关于我在外滩演讲的‘内’摊事》分享。工作人员告诉记者,外滩大会今年首度推出创新者舞台,希望向大家介绍更多有趣、多元,普通人感兴趣的科技创新者,也给他们提供展示的机会。
“山是地质年代极其缓慢的浪”“空中的垃圾袋装满了没人要的风”……弱智吧成员饭希向纵相新闻介绍了吧友们的创作,他也喜欢运用修辞艺术进行创作,“诗的创作需要跳脱常人的固定思维,但又需要有一定的关联性,需要寻找一种适合的意向。”
不难发现,表达人类复杂情感的文学类语言运用了许多修辞艺术。从某种意义上而言,修辞是打破了语言的固定逻辑,这就导致一板一眼的AI难以处理这类表达,更不用说与人类进行互动。
图源:网络
而弱智吧中看似无厘头的语料内容,通过研究者筛选收集,构建出具有挑战性的、真实的中文语料互动数据,对于训练和评估大语言模型理解和执行中文指令的能力而言非常有价值。通俗来说,用户在与AI互动过程中,大模型在回答中将减少差错,即输出一些不符合事实或常识的内容。
饭希说自己虽然是一个普通人,但希望为AI更好地理解人类做出自己的努力。他向记者举了一个例子:如果一位母亲得知孩子所在的城市降温了,她会想孩子是否添衣保暖,但她只是想知道孩子穿暖了吗?
“不是的,她思念孩子。”饭希说,“如果哪天AI能读懂我们的言外之意,我相信它就能更好地为人类服务。”(东方网·纵相新闻 陈丽娜 丁一涵)