神经引擎
神经引擎是一种专门的处理器单元,通常集成在系统级芯片(SoC)中,专门设计用于处理人工智能(AI)和机器学习(ML)模型所需的密集数学运算。与通用CPU甚至标准GPU不同,神经引擎针对深度学习的支柱——并行矩阵乘法和卷积进行了优化。
复杂AI应用(如实时图像识别、自然语言处理和预测分析)的兴起,对巨大的计算能力提出了要求。传统的处理器在运行这些模型时效率可能不高,会导致高延迟和显著的功耗。神经引擎通过提供专用、高效的硬件加速来解决这个问题,使复杂的AI任务能够在本地、更快、更低能耗的情况下运行。
从核心上看,神经引擎的架构旨在以极高的并行性执行神经网络计算。它被设计用于非常快速地执行推理——即使用训练好的模型进行预测的过程。它通过专门的脉动阵列或类似结构来实现这一点,这些结构允许数千个乘加运算(MACs)同时发生。这种专业化绕过了通用指令集相关的开销,使其非常适合神经网络固有的重复性、结构化计算。
神经引擎是许多现代技术中的关键组成部分:
使用神经引擎的主要优势有三个:性能、效率和延迟。
尽管功能强大,但为神经引擎部署和优化也带来了挑战。模型量化(降低权重和激活的精度)通常是必要的,以便将模型有效地适配到引擎的约束范围内。此外,开发人员必须使用专门针对将他们的ML图有效地映射到引擎独特架构的框架和编译器。