WWDC 2024

苹果AI首秀:Siri更加智能,大模型教你高情商聊天

出品 | 搜狐科技

作者 | 王一鸣

时隔2个月,Apple Intelligence终于来了!

苹果这周最新发布了Apple Intelligence的之一个版本,AI功能改进了Siri、文本润色、文字转录、自动生成电子邮件、图像和通知排序。

“Apple Intelligence”是作为一个端侧大模型出现在iOS18.1的开发者测试版里的,开发者通过注册在候补名单中等待到名额之后,语言切换为英语并将国家地区调成美国,就能体验到苹果AI...的部分内容了。

Siri全新升级

启用Apple Intelligence之后,iPhone就可以成功召唤更加智能的Siri,屏幕边缘发出彩色光环的时候,就说明苹果的端侧AI模型已经准备好啦。

召唤Siri也有了全新的方式,轻点2次屏幕底部亮起白色横条之后,就能唤出Sir。

增强之后的Siri更加聪明,对人类的语言理解与之前相比有了巨大改进,使用自然语言再也不用担心它听不懂了。

Siri还有联系上下文功能,问完Olympia这个地方的天气可以直接问“开车过去要多久”。

不仅仅是常规问题,Siri还能解答关于产品方面的问题。哪个用户在使用产品时遇到问题或故障时,不希望问个活字说明书呢。

“快啊,很快啊”

另外,未来的Siri会进一步增加更多功能,比如感知屏幕上的内容,理解屏幕上的信息,还有代替你点按屏幕操作的能力。

等这些功能就像是等座上宾加入AI酒席似的。

写作小助手

本次更新最重要的功能之一就是书写润色,三下五除二就能把语法错误扫干净。润色文本的时候,有三个选项,分别是“友好型”、“专业型”和“简洁型”。此外,它还能生成文本摘要,把内容要点列条目做成一个表格。

还可以把伤人的话变得有一点点伤人。(虽然还是伤人)

“你真吵,一点都不喜欢你”变成“你有点点吵,我不是特别喜欢你”

“口吐芬芳”也可以变得温文尔雅。

除此之外还加入了通话录音,打 *** 时通过点击左上角的录音键就可以开始录音,与此同时对方的 *** 也会受到录音开启的语音提示。

备忘录里的录音功能是最有用,它终于随机附带了文字转录功能,转录后的文字也可以生成摘要。

不仅如此,Siri还能根据文字内容创建日程表和提醒事项,而不需要用户重述内容。

缺席的ChatGPT

苹果在此前的WWDC上宣布要与OpenAI的GPT-4o模型进行合作, 集成到iOS、iPadOS 和macOS的体验中,用户可以使用ChatGPT的功能(包括图像和文档理解),从而不需要在各个APP之间来回切换。

但是在本次iOS18.1的开发者测试版中我们并没有看到GPT-4o的身影。

国内许多人也期待Apple Intelligence的到来,但苹果并没有透露中国大陆地区上线时间表。

欧盟成员国的用户也希望能够体验到苹果AI的功能,但是欧盟最近颁布的《数字市场法案》(DMA) 导致监管复杂性增加,出于互操作性与隐私和安全问题,短期内Apple Intelligence也不会在欧盟国家内推出。

互操作性代表着短信、通话、语音消息、图像和视频共享等关键功能应该能够在第三方运营商和竞争设备之间运行。

蒂姆库克表示,苹果在与中国在内的世界各国监管机构“沟通”,苹果的目标是尽快推进,把Apple Intelligence的功能提供给所有人。但在此之前苹果需要了解各国监管需求,然后承诺符合相关规定,制定相应时间表,目前苹果正在与监管机构进行建设性的讨论。

据传言,苹果在国内会接入国内的人工智能语言模型,就像之前与高德地图合作一样。

端侧模型+云侧模型=Apple Intelligence

苹果基础模型(AFM)有两种版本,一个是大约3B参数量的端侧模型,另外一个是更大的基于服务器的语言模型,它通过私有云计算获得并在Apple Silicon服务器上运行。

云侧版本的参数量会更大一些,但具体未公布,两者都有32k的上下文本窗口。

根据调研显示,苹果的端侧模型(大约3B参数)在人类评估方面优于其他更大的模型,包括Phi-3-mini、Mistral-7B、Gemma-7B和Llama-3-8B。

苹果的服务器模型与DBRX-Instruct、Mixtral-8x22B、GPT-3.5和Llama-3-70B相比也毫不逊色,甚至超过了大部分模型。

值得注意的是苹果训练自己的基础模型并没有像许多厂商使用英伟达的GPU,而是使用了谷歌的张量处理单元(TPU)。TPU的标志性特征是其矩阵乘法单元(MXU),然而深度学习中最需要的就是MXU。因此它的优点是在相同的机器学习模型、数据集和训练周期的情况下,使用TPU的成本会更低。

TPU是垂直集成,拥有整个软件堆栈,包含模型实现(Vertex Model Garden)、深度学习框架(Keras、JAX和TensorFlow)和TPU优化的编译器(XLA)。

GPU则比较分散,它通常包含许多不同的深度学习框架一起运行,比如Meta开发的PyTorch,这些框架和工具并没有专门为特定类型的GPU进行优化,所以性能不如TPU。就好比同样硬件水平,很多3A游戏在PC运行表现就不如Play Station和XBOX,那是因为游戏厂商会专门为主机进行优化。

苹果的端侧模型使用了2048颗TPUv5p芯片训练,而云端使用了8192颗TPUv4芯片训练,配置为8×1024个芯片切片,其中切片通过数据中心 *** (DCN)连接在一起。

模型训练的数据来自苹果 *** 爬虫(Applebot)在互联网中抓取的公开可用信息。同时苹果还疯狂叠甲,明确表示他们专注于保护用户隐私,用到的数据中绝对不包含任何私人 Apple 用户数据。

代码数据都是来自开源的GitHub,涵盖14种编程语言,Swift、Python、C、Objective-C、C++、 JavaScript、Java、和Go等。

苹果基础模型的训练步骤分三步:核心训练(core)、继续训练(continued)和上下文延长(context-lengthening)。

云侧训练的核心训练中拥有6.3T tokens量,窗口长度为4096。端侧版本的核心训练是在此基础上进行知识蒸馏(knowledge distillation)和结构剪枝(structural pruning)。知识蒸馏为了提升模型性能,利用教师模型(teacher model)预测结果进行训练来“教学生”,提高效率数据和准确度。结构剪枝是为了减少模型的参数量,减少计算资源的损耗。

继续训练时是在初步训练的模型上提高数学运算和代码的权重,降低低质量数据的权重。进一步使用新的数据进行额外训练。此过程需要1T tokens的数据,窗口长度为8192。

长文本训练的窗口长度扩充到了32768 tokens,含有合成长文本答疑数据,总共量100B tokens。

苹果基础模型后训练使用了监督微调(SFT)和人类反馈强化学习(RLHF)。

监督微调阶段会收集并训练模型,使用特定提示的示例数据。同时会结合人类数据和合成数据,组成高质量混合数据,涵盖各种各样的自然语言使用场景。

人类反馈强化学习阶段,苹果使用了迭代教学委员会(iTeC)和在线强化学习算法(MDLOO)作为强化学习算法以提升模型表现和生成质量。

迭代教学委员会可以让模型进行迭代,类似于OpenAI的草莓项目,通过迭代收集人类偏好的训练数据来“指导”自己进入更高的智能水平。

经过监督学习微调(SFT)、奖励模型强化学习(RS)、直接偏好优化/间接偏好优化(DPO/IPO)和强化学习(RL)训练组合,苹果称它们为“模型委员会”(“model committee”)。

通过收集到人类的偏好反馈数据后,迭代教学委员会都会刷新奖励模型,然后训练新模型,左脚踩右脚迭代,逐渐提升模型质量。

在线强化学习算法用户训练期间实时的解码响应,使用强化学习算法更大化对模型的奖励力度,提升RLHF的效果。

具体的工作原理是在算法的解码阶段,通过对每个提示解码多个进行响应,每个响应的正反馈都是不同的,这就造成响应的奖励有差异性。这时候优势估计器(estimator)就会衡量响应情况得出符合人类偏好的响应。

也就说通过不断地学习解码的正反馈调整响应,来确定哪些响应是人类偏向看到的结果。

优势估计器使用的留一法(Leave-One-Out,简称LOO),镜像下降策略(Mirror Descent Policy Optimization,简称 MDPO)来优化整个学习过程中的策略。

模型量化以提高用户体验

为了使得用户在普通设备上有更好的体验,推理延迟和功耗效率是需要重点优化的事项,所以在端侧设备上苹果进行了模型量化。

通过量化模型,让模型容量和推理性能之间取得更佳平衡,苹果开发了量化 *** 和准确性恢复适配器(Accuracy-Recovery Adapters)的框架来达到精确无损的量化,以提高模型输出质量。

因为量化模型通常导致推理质量降低,所以需要通过LoRA适配器来恢复提高质量,保证训练过程与预训练和后训练一致。

苹果端侧模型在神经 *** 引擎(Neural Engine)上运行,采用调色板(palettization)的 *** 。采用分区量化,对于投影权重,每 16 列/行共享相同的量化常数使用K-means算法进行4位量化,量化块大小最多可达 100k。

模型的嵌入层在输入和输出之间是共享状态的,不同于神经 *** 引擎的投影层,嵌入层采用8位整数进行每通道量化以提高效率。

对比其他模型

这些技术这么先进,那么来看看它的表现吧。

苹果跟目前主要的模型进行对比,涵盖了人类评估(上文)、指令跟随(Instruction following)、工具使用(Tool use)、写作(Writing)、数学(Math)

在指令跟随(Instruction following,简称IF)测试中,苹果端侧模型大部分情况下优于其他模型。这个测试能够判断语言模型生成的响应是否准确地遵循提示中的指令。

工具使用可以测试模型在遇到响应指令调用工具的表现(遵循OpenAPI规范)。

苹果云端基础模型在整体准确性上表现更好,比Gemini-1.5-Pro-Preview-0514和GPT-4的成绩要高一些。

写作是大语言模型最关键的能力之一,苹果的模型跟普通模型和小开源模型展开了较量。

苹果端侧模型在总结语句方面优于Gemma-7B和Mistral-7B,虽然在写作方面略有不足,但是也只相差0.1分。云端模型明显超越了DBRX-Instruct和GPT-3.5,接近GPT-4。

数学基准测试中使用了G *** 8K和MATH数据集。

端侧模型在G *** 8K测试中逊于Phi 3 mini和Llama-3-8B,但值得注意的是端侧模型的参数量不到Mistral-7B和Gemma-7B的一半,但表现仍然更高。

云端模型不如GPT-4和Llama-3-70B,但高于Mixtral‑8x22B和GPT-3.5。

MATH的成绩表现较好,普遍优于其他模型。

此外,安全性也是目前评测一个模型的指标,它用来评价面对对抗指令时,内容是否有害或不安全。

可以看到苹果相对是最安全的,可以放心食用。