加速 Web AI 的 WebAssembly 和 WebGPU 改进

在客户端计算机上直接运行 AI 推理可以减少延迟，通过将所有数据保留在客户端可提高隐私安全，并节省服务器成本。为加速这些工作负载，WebAssembly 和 WebGPU 正在不断发展，以便整合新的低等级原语。了解这些新功能如何赋予硬件快速能力，大幅加快 AI 推理速度，并使深度调优的推理库和框架能够高效运行大型 AI 模型。

中级

技术专题演讲