作者
Cole Stryker
Editorial Lead, AI Models
Eda Kavlakoglu
Program Manager
什么是人工智能 (AI)?
人工智能 (AI) 是一种让计算机和机器能够模拟人类学习、理解、问题解决、决策制定,以及发挥创造力和自主性的技术。
配备人工智能的应用程序和设备可以看到并识别物体。它们可以理解人类的语言并做出回应;可以从新的信息和经验中学习;可以向用户和专家提出详细的建议;可以独立行动,取代对人类智能或人工干预的需求(自动驾驶汽车就是一个人工智能设备典型的例子)。
但在 2024 年,大多数人工智能研究人员和从业者——以及大多数与人工智能相关的头条新闻——都聚焦于生成式人工智能的突破,这种技术可以创建原创文本、图像、视频和其他内容。要充分了解生成式人工智能,首先要了解构建生成式人工智能工具的技术:机器学习 (ML) 和深度学习。
行业时事通讯
专家为您带来最新的 AI 趋势
获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。
谢谢!您已订阅。
您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明。
机器学习与人工智能
可以将 AI 简单理解为过去 70 多年来逐渐形成的一系列嵌套或衍生概念:
人工智能的正下方是机器学习,它涉及通过训练算法来创建模型,以根据数据做出预测或决策。它涵盖了一系列广泛的技术,让计算机能够从数据中学习并做出推理,而无需针对特定任务进行明确的编程。
机器学习技术或算法有很多种,包括线性回归、逻辑回归、决策树、随机森林、支持向量机 (SVM)、k-最近邻 (KNN)、聚类等。其中每种方法都适用于不同类型的问题和数据。
但是,最流行的机器学习算法类型之一称为神经网络(或人工神经网络)。神经网络是模仿人类大脑的结构和功能建立的。神经网络由相互连接的节点层(类似于神经元)组成,这些节点能协同处理和分析复杂数据。神经网络非常适合在大量数据中识别复杂模式和关系的任务。
机器学习最简单的形式称为监督学习,涉及使用标记数据集来训练算法,以准确进行数据分类或结果预测。在监督学习中,人类将每个训练示例与一个输出标签配对。目标是让模型学习训练数据中输入和输出之间的映射,以便可以预测新的、未见过的数据的标签。
深度学习与人工智能
深度学习是机器学习的一个子集,采用多层神经网络(称为深度神经网络)来更深入地模拟人脑的复杂决策能力。
深度神经网络包括一个输入层、至少三个但通常有数百个隐藏层,以及一个输出层,而经典机器学习模型中使用的神经网络通常只有一个或两个隐藏层。
这些多层级结构可实现无监督学习:它们可以自动从大型、未标记和非结构化数据集中提取特征,并对数据所代表的内容做出自己的预测。
深度学习不需要人工干预,因此可以实现大规模的机器学习。它非常适合自然语言处理 (NLP)、计算机视觉和其他涉及在大量数据中快速、准确地识别复杂模式和关系的任务。如今我们生活中的大多数人工智能 (AI) 应用程序都或多或少得到了深度学习的支持。
深度学习还可以实现以下几个方面:
半监督学习,使用标记和未标记的数据来训练人工智能模型以执行分类和回归任务,从而将监督学习和无监督学习相结合。
自我监督学习,从非结构化数据生成隐式标签,而不是依赖标记的数据集来获取监督信号。
强化学习,通过试错和奖励函数学习,而不是从隐藏模式中提取信息。
迁移学习,利用通过一项任务或数据集获得的知识来改善其他相关任务或不同数据集的模型性能。
生成式人工智能
生成式人工智能是指能够根据用户的提示或请求创建复杂的原创内容(如长篇文本、高质量图像、逼真的视频或音频等)的深度学习模型。
在较高的层次上,生成式人工智能模型对所用训练数据的简化表示进行编码,然后从该表示中提取内容来创建与原始数据类似但并不完全相同的新作品。
多年来,统计学中一直使用生成式人工智能模型来分析数值数据。但在过去十年中,它们已经发展到可以分析和生成更复杂的数据类型。这种演变与三种复杂的深度学习模型类型的出现相吻合:
变分自编码器 (VAE) 于 2013 年推出,让模型能够根据提示或指令生成内容的多种变体。
扩散模型最早出现于 2014 年,可在图像上添加“噪声”直到其无法识别,然后再消除噪声以根据提示生成原始图像。
转换器(也称为转换器模型),在序列数据上进行训练,以生成扩展的内容序列(例如句子中的单词、图像中的形状、视频的帧或软件代码中的命令)。转换器是当今大多数热门生成式人工智能工具(包括 ChatGPT 和 GPT-4、Copilot、BERT、Bard 和 Midjourney)的核心。
Mixture of Experts | 4 月 25 日,第 52 集
解码 AI:每周新闻摘要
加入我们由工程师、研究人员、产品负责人等组成的世界级专家团队,他们将突破 AI 的喧嚣,为您呈现最新的 AI 新闻和洞察分析。
观看最新播客节目
生成式人工智能的工作原理
一般来说,生成式人工智能分三个阶段运行:
训练,旨在创建基础模型。调整,旨在使模型适应特定应用程序。生成、评估和进一步调整,旨在提高准确性。
训练
生成式人工智能从“基础模型”开始;这是一个深度学习模型,是多种不同类型的生成式 AI 应用程序的基础。
当今最常见的生成式人工智能基础模型是大语言模型 (LLM),专为文本生成应用程序而创建。但也有用于图像、视频、声音或音乐生成的基础模型,以及支持多种内容的多模态基础模型。
为了创建基础模型,从业人员需要对海量相关的原始、非结构化、无标记数据(如来自互联网的 TB 或 PB 级的数据文本、图像或视频)进行深度学习算法训练。通过训练可以生成一个由数十亿个参数组成的神经网络(这些参数是数据中实体、模式和关系的编码表示),它可以根据提示自主生成内容。这就是基础模型。
此人工智能训练过程需要大量计算,耗时且成本高昂。它需要数千个集群图形处理器 (GPU) 和数周的处理时间,所有这些通常需花费数百万美元。开源基础模型项目,如 Meta 的 Llama-2,使生成式 AI 开发人员能够避免这一步骤及其成本。
微调
接下来,人工智能模型必须针对特定的内容生成任务进行调整。这可以通过多种方式实现,包括:
微调,涉及向模型馈送特定于应用程序的标签数据——应用程序可能收到的问题或提示,以及所需格式的相应正确答案。
带有人类反馈的强化学习 (RLHF),其中人类用户评估人工智能模型输出的准确性或相关性,以便人工智能模型能够自我改进。这可以很简单,比如让人们通过打字或回话来纠正聊天机器人或虚拟助理的错误。
生成、评估和进一步调整
开发人员和用户定期评估其生成式人工智能应用程序的输出,并进一步调整模型(甚至达到每周一次)以提高准确性或相关性。相比之下,基础模型自身的更新频率要低得多,可能每年或每 18 个月更新一次。
提高生成式人工智能应用程序性能的另一个选择是检索增强生成 (RAG),这是一种扩展基础模型的技术,使用训练数据之外的相关来源来完善参数,以获得更高的准确性或相关性。
人工智能的优势
人工智能为各行各业和各种应用带来了诸多好处。一些最常被提及的好处包括:
重复性任务的自动化。从数据中获得更多、更快的洞察分析。
增强决策能力。
减少人为错误。24x7 全天候可用。降低物理风险。
重复性任务的自动化
人工智能可以自动执行重复且通常十分乏味的日常任务,包括数据收集、输入和预处理等数字任务,以及仓库拣选和制造流程等物理任务。这种自动化可以腾出人力来从事价值更高、更具创意的工作。
增强决策能力
无论是用于决策支持还是全自动决策,人工智能都能实现更快、更准确的预测和可靠的数据驱动型决策。人工智能与自动化相结合,让企业能够抓住机遇,实时应对危机,无需人工干预。
减少人为错误
人工智能可以通过各种方式减少人为错误,包括人工智能指导相关人员完成流程的正确步骤,在潜在错误发生之前将其标记出来,以及无需人工干预即可实现流程完全自动化。这在医疗保健等行业尤其重要,例如人工智能引导的手术机器人可以实现始终如一的精度。
随着机器学习算法接触更多的数据并从经验中“学习”,人工智能可以不断提高准确性并进一步减少错误。
全天候可用性和一致性
人工智能始终在线,全天候可用,并且每次都能提供一致的性能。人工智能聊天机器人或虚拟助理等工具可以减轻客户服务或支持方面的人员需求。在其他应用(例如材料加工或生产线)中,人工智能用于完成重复性或繁琐的任务时,有助于保持一致的工作质量和产出水平。
降低物理风险
通过自动完成危险工作(例如控制动物、处理爆炸物、在深海、高海拔或外太空执行任务),人工智能让人类工人无需进入存在受伤风险甚至更大风险的环境。尽管目前尚不完善,但自动驾驶汽车和其他车辆有望降低乘客受伤的风险。
人工智能用例
人工智能在现实世界中的应用有很多。以下是各个行业的一小部分人工智能用例,以说明其潜力:
客户体验、服务和支持
企业可以采用人工智能驱动的聊天机器人和虚拟助理来处理客户咨询、支持请求等。这些工具使用自然语言处理 (NLP) 和生成式人工智能功能来了解和回应客户有关订单状态、产品详情和退货政策的问题。
聊天机器人和虚拟助理可以提供始终在线的支持,更快地解答常见问题 (FAQ),从而让人工客服可以专注于更高级别的任务,并为客户提供更快捷、更一致的服务。
欺诈检测
机器学习和深度学习算法可以分析交易模式,并标记异常情况,例如不寻常的消费或登录位置,这些信息表明存在欺诈性交易。因此,组织能够更快地对潜在的欺诈行为做出反应并限制其影响,从而让自己和客户更加安心。
个性化营销
零售商、银行和其他面向客户的企业可以利用人工智能来打造个性化的客户体验和营销活动,从而提升客户满意度、提高销售额并防止客户流失。根据客户购买历史和行为数据,深度学习算法可以推荐客户可能想要的产品和服务,甚至实时为个人客户生成个性化文案和特别优惠。
人力资源和招聘
人工智能驱动的智能招聘平台可以通过筛选简历、匹配候选人与职位描述,甚至使用视频分析进行初步面试来简化招聘流程。这些人工智能工具和其他相关工具可以大大减少与选派大量候选人相关的行政文书工作。人工智能还可以减少响应时间和招聘时间,改善候选人的体验(无论他们是否得到这份工作)。
应用程序开发和现代化
生成式人工智能代码生成工具和自动化工具可以简化与应用程序开发相关的重复性编码任务,并加速旧版应用程序的规模化迁移和现代化(重定格式和重定平台)。这些人工智能工具可以加快任务速度、帮助确保代码一致性并减少错误。
预测性维护
机器学习模型可以分析来自传感器、物联网 (IoT) 设备和运营技术 (OT) 的数据,以预测何时需要维护并预测设备故障。人工智能驱动的预防性维护有助于防止停机,并使您能够在供应链问题影响利润底线之前提前进行应对。
人工智能挑战和风险
各类组织都在争先恐后地利用最新的人工智能技术,并发挥人工智能的诸多优势。这种快速采用是必要的,但采用和维护人工智能工作流程伴随着挑战和风险。
数据风险
人工智能系统所依赖的数据集可能容易受到数据中毒、数据篡改、数据偏见或网络攻击的影响,从而导致数据泄露。组织可以通过在整个人工智能生命周期(从开发、训练、部署到部署后)保护数据完整性,并实施安全性和可用性措施来降低这些风险。
模型风险
威胁行为者可能会针对人工智能模型进行窃取、逆向工程或未经授权的操纵。攻击者可能会通过篡改人工智能模型的架构、权重或参数(决定模型行为准确性和性能的核心组件)来破坏模型的完整性。
运营风险
和所有技术一样,人工智能模型容易受到模型漂移、偏见和治理结构故障等运营风险的影响。如果不加以解决,这些风险可能会导致系统故障和网络安全漏洞,从而被威胁者利用。
道德和法律风险
如果组织在开发和部署人工智能系统时不优先考虑安全和道德问题,就有可能侵犯隐私并产生有偏见的结果。例如,用于招聘决策的有偏见的训练数据可能会强化性别或种族刻板印象,并创建有利于某些人口群体的人工智能模型。
人工智能伦理与人工智能治理
人工智能伦理是一个多学科领域,研究如何优化人工智能的有益影响,同时降低风险和不良后果。AI 伦理原则通过 人工智能治理体系得到应用,该体系由有助于确保人工智能工具和系统保持安全并合乎道德的防护措施组成。
人工智能治理包括应对风险的监督机制。以符合道德规范的方法进行 人工智能治理需要各种利益相关者的参与,包括开发人员、用户、政策制定者和伦理学家,有助于确保人工智能相关系统的开发和使用符合社会价值观。
以下是与人工智能伦理和负责任的人工智能 相关的共同价值观:
可解释性和可阐释性
人工智能的先进程度越来越高,人类已经很难去理解和追溯算法是如何得出结果的。可解释的人工智能 是一组流程和方法,使人类用户能够解释、理解和信任算法产生的结果和输出。
公平与包容
尽管机器学习就其本质而言是一种统计歧视形式,但当它使特权群体处于系统性优势,而某些弱势群体处于系统性劣势时,这种歧视就会变得令人反感,从而可能造成各种伤害。为了实现公平,从业者可以在数据收集和模型设计过程中尽量减少算法偏见,并建立更加多元和包容的团队。
稳健性和安全性
强大的人工智能可以有效处理异常情况,例如输入异常或恶意攻击,而不会造成意外伤害。它还可以保护暴露的漏洞,从而抵御有意和无意的干扰。
问责制和透明度
各组织应实施明确的责任和治理结构, 用于人工智能系统的开发、部署和结果。 此外,用户应该能够了解人工智能服务的工作原理, 评估其功能,了解其优势和 局限性。透明度的提升为人工智能消费者提供了必要的信息, 帮助他们更好地了解 AI 模型或服务是如何创建的。
隐私与合规
包括 GDPR 在内的许多监管框架都要求组织在处理个人信息时遵守某些隐私原则。至关重要的是能够保护可能包含个人信息的人工智能模型,首先控制进入模型的数据,并构建可适应人工智能伦理监管和态度变化的适应性系统。
弱人工智能与强人工智能
为了在不同复杂度和精细度的层面上对人工智能的使用进行情境化,研究人员根据精细度水平定义了几种 AI 类型:
弱人工智能:也称为“狭义人工智能”,定义旨在执行一项或一组特定任务的人工智能统。例如,“智能”语音助手应用程序,如 Amazon 的 Alexa、Apple 的 Siri、社交媒体聊天机器人或 Tesla 承诺的自动驾驶汽车。
强人工智能:又称“通用人工智能”(AGI) 或“通用 AI”,具有理解、学习和应用各种任务知识的能力,其水平相当于或超过人类智能。目前,这一级别的人工智能还处于理论研究阶段,尚无已知的人工智能系统能够达到这一复杂程度。研究人员认为,如果 AGI 真的有可能实现,那么就需要大幅提高计算能力。尽管 AI 领域最近取得了显著进展,但科幻作品中所描绘的具有自我意识的人工智能系统仍然只存在于虚构世界中。
人工智能的历史
“会思考的机器”的概念可以追溯到古希腊。但是,自从电子计算出现(并与本文讨论的一些主题相关)以来,人工智能发展历程中的重要事件和里程碑包括:
1950 年
艾伦·图灵 (Alan Turing) 发表了《计算机器与智能》(Computing Machinery and Intelligence)。在这篇论文中,因在二战期间破解德国 ENIGMA 密码而闻名,并常被称为“计算机科学之父”的图灵提出了以下问题:“机器能思考吗?”
为了回答这个问题,他提供了一个测试,这就是著名的“图灵测试”,在此测试中,人类询问者将尝试区分哪些文本响应是计算机做出的,哪些是人类做出的。虽然这项测试自发布以来经过了大量审查,但它仍然是人工智能历史的重要组成部分,也是哲学中一个不断发展的概念,因为它利用了有关语言学的想法。
1956 年
约翰·麦卡锡 (John McCarthy) 在达特茅斯学院举行的第一届人工智能会议上首创“人工智能”一词。(麦卡锡后来发明了 Lisp 语言。)同年晚些时候,Allen Newell、JC Shaw 和 Herbert Simon 共同创建了第一个运行的 AI 计算机程序——Logic Theorist。
1967 年
弗兰克·罗森布拉特 (Frank Rosenblatt) 建造了 Mark 1 Perceptron,这是第一台基于神经网络的计算机,可以通过反复试错来“学习”。仅仅一年后,Marvin Minsky 和 Seymour Papert 就出版了一本名为《感知器》 (Perceptrons) 的书,该书成为神经网络的里程碑式著作,至少在一段时间内成为反对未来神经网络研究项目的论据。
1980 年
使用反向传播算法进行自身训练的神经网络在人工智能应用中得到了广泛使用。
1995 年
斯图尔特·罗素 (Stuart Russell) 和彼得·诺维格 (Peter Norvig) 出版了《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach),成为人工智能研究领域的领先教科书之一。在这本书中,他们深入研究了人工智能的四个潜在目标或定义,这些目标或定义根据理性和思考与行动来区分计算机系统:
1997 年
IBM 的“深蓝”在一场国际象棋比赛(以及复赛)中击败了当时的世界象棋冠军 Garry Kasparov。
2004 年
约翰·麦卡锡 (John McCarthy) 撰写了一篇名为《什么是人工智能?》(What Is Artificial Intelligence?) 的论文,并提出了一个经常被引用的人工智能定义。此时,大数据和云计算时代已经到来,这使组织能够管理越来越大的数据资产,这些数据资产未来将用于训练 AI 模型。
2011 年
IBM Watson 在 Jeopardy! 比赛中击败冠军 Ken Jennings 和 Brad Rutter!同时,大约在这个时候,数据科学开始成为一门受欢迎的学科。
2015 年
百度的 Minwa 超级计算机使用一种称为卷积神经网络 (CNN) 的特殊深度神经网络来识别和分类图像,准确率超越普通人。
2016 年
DeepMind 的 AlphaGo 程序,由深度神经网络支持,在一场五局比赛中击败了围棋世界冠军李世石 (Lee Sodol)。由于棋局中可能出现大量棋步(四手之后就有超过 14.5 万亿个可能棋步!),因此,这场胜利意义重大。后来,据报道,Google 作价 4 亿美元收购了 DeepMind。
2022 年
大语言模型 (LLM)(例如 OpenAI 的 ChatGPT)的兴起为人工智能的性能带来了显著变化,并增强其为企业创造价值的能力。借助这些新一代的生成式人工智能技术,深度学习模型能够在海量数据上进行预训练。
2024 年
最新的人工智能趋势表明人工智能的复兴势头仍在持续。多模态模型可以接受多种类型的数据作为输入,提供了更丰富、更强大的体验。这些模型将计算机视觉中的图像识别和 NLP 语音识别功能结合在一起。在大规模模型收益递减、参数数量庞大的时代,小型模型也在不断进步。