此功能利用 Intel OpenVINO 工具包,优化神经网络架构,以实现最高的推理吞吐量。它针对量化、剪枝以及专为 Intel 硬件生态系统设计的图转换技术。该过程确保模型满足企业级延迟要求,同时最大限度地减少各种计算集群中的内存占用和能耗。
初始模型导入需要将模型从标准框架(如TensorFlow或PyTorch)转换为OpenVINO IR格式,以便启用特定的优化流程。
核心优化算法采用动态量化和布局转换技术,针对英特尔的特定处理器,例如Core Ultra系列或数据中心加速器等,进行优化。
最终验证措施评估了推理延迟降低的百分比以及与干预前建立的基准性能指标相比,所获得的内存效率提升。
将输入模型转换为 OpenVINO IR 格式。
应用量化和布局转换。
针对目标硬件优化图结构。
验证性能是否符合基准指标。
上传经过训练的模型,支持的格式可用于转换为OpenVINO中间表示形式 (IR)。
运行针对特定英特尔硬件规格的自动化量化和图优化脚本。
执行基准测试套件,以验证延迟的提升和内存占用量的降低。