集成 Metal FlashAttention：加速 Apple 生态系统中图像生成的核心

企业开发 2023-08-11 18:53:03 阅读次数: 0

Draw Things是第一个在“边缘”直接在手机上运行成熟图像生成模型的实用应用程序。自推出以来，人们对本地运行的开源大型模型越来越感兴趣。LLaMA.cpp将大型语言模型引入笔记本电脑；MLC LLM在网络浏览器中执行语言和图像生成模型。最初的学术练习已经演变成一场运动：让我运行我的模型，就像云模型一样强大，本地且免费（“就像自由一样”）！

到目前为止，大多数算法创新和改进都发生在 NVIDIA CUDA 硬件上。当大多数人工智能相关计算发生在服务器端时，这是有意义的。然而，当我们将计算移近边缘时，如何为最常用的硬件平台之一推动相同的算法创新和改进激发了我们的想象力。

Metal FlashAttention

Metal FlashAttention 包含针对大型图像生成和语言模型中常见操作进行优化的 Metal 计算着色器。这包括薄矩阵乘法（例如 [4096, 320] x [320, 320]）、缩放点积注意力（多头注意力或转换器的核心）和层归一化。它是Metal Performance Shaders ( MPS )的开源替代品。

GEMM

GEMM 计算通常出现在模型的稳定扩散变体（v1、v2、XL）中，无法达到 Apple 的 Metal Performance Shaders 或 MPSGraph 实现的最佳效果。Metal FlashAttention 利用simdgroup_async_copyAPI（自 A14 起），这是一种未记录的硬件功能，与计算和加载指令重叠。

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132223452

集成 Metal FlashAttention：加速 Apple 生态系统中图像生成的核心

ELK生态系统——Java集成

flutter 集成apple登录

metal

Centrifuge生态系统现已集成至Moonbeam

【Metal引擎剖析（六）：Metal图像处理基础（上）】

先进工艺中的Cut Metal与 Metal Extension技术

Metal图像处理——直方图均衡化

Flutter+Metal实现图像处理

深入理解iOS GPU加速框架Metal及MPS

使用 Flutter 在 Android 上集成 Apple 登录

FlashAttention

apple系统安装教程

第二批生态系统Grants加速计划现已启动

基于VORS、CCDM模型、GeoDetector、GWR模型集成技术在城镇化与生态系统健康空间关系分析及影响效应中的应用

大数据生态系统基础：Hadoop（六）：Mac 下Hadoop-Eclipse-plugin编译和集成环境配置

对 iOS 中 GPU 编程的高度优化的框架 Metal

OCI中创建裸金属（Bare Metal）实例

metal feature

Metal入门

【Metal引擎剖析（四）：基于MPS的GPU加速光线追踪（Accelerating Ray Tracing）】

F5与BoCloud博云因技术结缘携手加速容器生态系统在华落地

通过Apple自动设备注册（ADE）将iOS设备注册到Intune（Intune与Apple 集成）

Metal拍摄视频&Metal处理视频

Apple 新产品中的机器学习算法

Apple SIP简介及在Clover中如何控制

如何管理企业环境中Apple设备

【重磅】“SAP 中国联合创新中心” 升级亮相——加速SAP合作伙伴生态系统发展推动联合创新实现共赢

容器生态系统

spring生态系统

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)