正如加密货币的热潮带来了许多新行话一样,人工智能的热潮也带来了很多我们经常听到,但不一定都能理解的专业术语。
如果你想了解聊天机器人和LLM(大型语言模型)之间的区别,或者深度学习和机器学习的区别,那你来对地方了,这里汇总了20个人工智能相关的术语,并提供了详细的解释。
人工智能(AI)
简单来说,人工智能就是让计算机或机器具备像人类一样的智能。这个词非常宽泛,包含了很多不同类型的机器智能。
目前的讨论主要集中在那些可以创作艺术、内容或总结、转录内容的工具上。虽然是否应该把这些工具称为"智能"还有争议,但"人工智能"这个词已经被大家广泛接受了。
算法
算法是一组指令,程序按照这些指令来得出结果。常见的例子包括搜索引擎,它会根据你的查询显示一系列结果;或者社交媒体应用,它会根据你的兴趣显示内容。通过算法,人工智能工具可以创建预测模型,或者根据你的输入生成内容或艺术作品。
偏见
在人工智能领域,偏见指的是由于算法做出了错误的假设或缺乏足够的数据而产生的错误结果。
例如,语音识别工具可能无法正确理解某些英语口音,因为这些工具只用美国口音进行过训练。
对话式人工智能
对话式人工智能是一种通过自然语言处理(NLP)和机器学习技术,这种技术使计算机能够理解、处理和生成人类语言,从而进行流畅的对话。例如,智能语音助手如苹果的Siri和亚马逊的Alexa,就是典型的对话式人工智能应用。
数据挖掘
数据挖掘是指从大量数据中找出模式或趋势的过程。一些人工智能工具利用数据挖掘来帮助你了解人们在商店或网站上购买更多商品的原因,或者如何优化业务以应对高峰时段的需求。
深度学习
深度学习试图模仿人类大脑的学习方式,利用三层或更多的神经网络层来处理大量数据,并通过实例进行学习。这些层各自处理给定数据的各自观点,然后汇总起来得出最终结论。
自动驾驶汽车软件利用深度学习,通过识别停车标志、车道标记和交通信号灯来工作:具体做法是向人工智能工具展示特定物体的许多示例(例如停车标志)来实现的,通过反复训练,人工智能工具最终能够以接近100%的准确率识别出这些物体。
大型语言模型(LLM)
大型语言模型 (LLM) 是一种深度学习算法,它基于海量数据集进行训练,以生成、翻译和处理文本。
LLM(如 OpenAI 的 GPT-4)允许 AI 工具理解你的查询,并根据查询生成文本输入。LLM 还能帮助 AI 工具识别文本或视频的重要部分,并为你进行总结。
生成式人工智能
生成式人工智能可以根据你的输入生成艺术、图像、文本或其他结果,而这些结果通常由 LLM 提供支持。它已成为目前许多公司在其产品中使用这种人工智能技术的总称。
例如,生成式人工智能模型可以通过一些文字提示生成图像,或将竖排照片变成宽屏壁纸。
幻觉
当人工智能把虚构的东西当作事实时,我们称之为幻觉。当人工智能的数据集不准确或训练有缺陷时,就会产生幻觉,因此它会根据现有知识输出一个它确信的答案。
由于人工智能的复杂性,我们不总是能理解这些幻觉的具体原因。
图像识别
识别图像中特定主体的能力。计算机程序可以利用图像识别功能发现图像中的花朵并为其命名,或识别照片中不同种类的鸟类。
机器学习
机器学习是一种通过算法和数据,使计算机能够自动改进其性能的技术。它通过从大量数据中学习模式和规律,以便在没有明确编程的情况下做出决策或预测。
例如,电子邮件的垃圾邮件过滤器就是一种机器学习应用。它通过分析大量电子邮件的内容,学习如何区分垃圾邮件和正常邮件,从而自动将垃圾邮件筛选出来。
自然语言处理
自然语言处理是指程序能够理解和处理以人类语言编写的输入内容。例如,当你问Siri“今天天气怎么样?”时,你的日历应用程序或者Siri就能理解你在说什么。
神经网络
人类大脑有很多层的神经元,它们不断地处理信息并从中学习。人工智能的神经网络模仿了神经元的这种结构,从数据集中进行学习。神经网络是实现机器学习和深度学习的系统,最终可以让机器执行图像识别和文本生成等复杂的任务。
光学字符识别(OCR)
光学字符识别(OCR)是从图片中提取文本的技术。支持 OCR 的程序可以识别手写或输入的文本,并且还可以进行复制和粘贴。
提示工程(Prompt engineering)
提示工程是设计和优化输入给人工智能模型的文本提示,以获得所需输出的一门技术。
就人工智能而言,提示工程是一门编写提示的艺术,目的是让聊天机器人给出最有用的回复。
从人类反馈中强化学习(RLHF)
RLHF 是利用人类反馈来训练人工智能的过程。当人工智能给出错误结果时,人类会向其展示正确的响应。这样,人工智能就能以更快的速度提供准确、有用的结果。
语音识别
程序理解人类语言的能力。语音识别可用于对话式人工智能,以理解你的查询并提供回复,也可用于语音转文本工具,以理解口语并将其转换为文本。
代币(Token)
当你向人工智能工具输入文本查询时,它会将文本分解为标记(文本中常见的字符序列),然后由人工智能程序进行处理。
例如,如果你使用的是 GPT 模型,那么定价就基于它所处理的标记数量:你可以使用该公司的标记器工具计算这个数字,该工具还会向你展示如何将单词分解为标记。
OpenAI 表示,一个标记大约等于四个字符的文本。
训练数据
训练数据是机器学习模型用来学习和改进的数据。就像学生通过做练习题来掌握知识一样,机器学习模型通过分析这些数据来识别模式和规律,从而在新情况下做出预测或分类。
例如,如果我们想训练一个程序来识别照片中的猫和狗,我们会给它大量标记好的猫和狗的照片,模型通过这些照片学习如何区分猫和狗。训练数据的质量和数量直接影响模型的表现。
图灵测试
艾伦·图灵是英国数学家,被誉为 "理论计算机科学和人工智能之父"。他的图灵测试(或称 "模仿游戏")旨在确定计算机的智能是否与人类相同。
如果人类被计算机的反应骗了,以为是人类写的,那么计算机就通过了图灵测试。