Mozilla的Llamafile 0.8.2凭借新的AVX2性能优化获得高分-趣考网

作为浏览器公司的创新和实验小组，Mozilla Ocho的一个有趣的创新是Llamafile，这是一种从单个文件分发和运行人工智能大型语言模型（LLM）的简单方法。今晚发布的是Llamafile 0.8.2，它是最新版本，更新了Llama.cpp，最令人兴奋的是一些AVX2性能优化。

Llamafile旨在通过支持单个文件中大型语言模型的精简部署，使用户和开发人员更容易访问AI LLM，该文件既可以与CPU和GPU执行协同工作，也可以跨平台工作。Llamafile已经支持利用AVX/AVX2获得更快的性能，并支持AVX-512获得更高的速度。今天的Llamafile 0.8.2版本提供了额外的AVX2优化。

Llamafile 0.8.2发行说明提到：

“此版本为K量子和IQ4_XS引入了更快的AVX2提示处理。这是@ikawrakow为llamafile做出的贡献，他最初于去年发明了K量子：ggerganov/llama.cpp@99009e7.在之前的版本中，我们推荐使用遗留的Q4_0 quant，因为它是使用最新matmul优化最简单、最直观的方法。由于Iwan Kawrakow的努力，最好的量子（例如Q5_K_M）现在将运行得最快（在现代x86系统上）。”

在过去的几年里，Advanced Vector Extensions 2在英特尔和AMD处理器中得到了广泛支持：自Haswell以来的过去十年中，大多数英特尔CPU或自挖掘机CPU以来的AMD方面。

拉取请求为更快的AVX2提示处理带来了一些令人兴奋的好处。据报道，不同数量的加速在1.4~2.3倍的范围内。

Justine Tunney积极参与Llamafile的开发，她最初回应了这一请求：

“这是一个显著的变化@ikawrakow。我很高兴看到最好的量化格式现在将运行得最快。对于即时处理，我一直看到x86-64机器上的速度在1.2倍到2.0倍之间。你甚至设法使代币生成更快（我发现这要困难得多），在某些情况下高达1.33倍！”

这些针对提示处理的AVX2优化对于Llamafile 0.8.2来说已经足够令人兴奋了。但这个v0.8.2版本也带来了内存错误修复、文本生成的轻微性能优化、本周针对Llama.cpp代码的更新以及各种新标志。

Downloads and more details on the Llamafile 0.8.2 release via GitHub. New Llamafile benchmarks against the new version soon.

本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！

THE END