Google力推的JAX在最近的基準測試中效能已經超過Pytorch和TensorFlow,7項指標排名第一。
而且測試並不是JAX效能表現最好的TPU上完成的。
雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。
但未來,也許有更多的大模型會基於JAX平台進行訓練和運行。
模型
最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras 2進行了基準測試。
首先,他們為生成式和非生成式人工智慧任務選擇了一組主流的電腦視覺和自然語言處理模型:
對於模型的Keras版本,其採用了KerasCV和KerasNLP中已有的實作進行建構。而對於原生的PyTorch版本,則選擇了網路上最受歡迎的幾個選項:
- 來自HuggingFace Transformers的BERT、Gemma、Mistral
#- 來自HuggingFace Diffusers的StableDiffusion
- 來自Meta的SegmentAnything
#他們將這組模型稱為「Native PyTorch」,以便與使用PyTorch後端的Keras 3版本進行區分。
他們對所有基準測試都使用了合成數據,並在所有LLM訓練和推理中使用了bfloat16精度,同時在所有LLM訓練中使用了LoRA(微調)。
根據PyTorch團隊的建議,他們在原生PyTorch實作中使用了torch.compile(model, mode="reduce-overhead")(由於不相容,Gemma和Mistral訓練除外)。
為了衡量開箱即用的效能,他們使用高階API(例如HuggingFace的Trainer()、標準PyTorch訓練循環和Keras model.fit()),並盡可能減少配置。
硬體配置
所有基準測試都使用Google Cloud Compute Engine進行,配置為:一塊擁有40GB記憶體的NVIDIA A100 GPU、12個虛擬CPU和85GB的主機記憶體。
基準測試結果
表2顯示了基準測試結果(以步/毫秒為單位)。每個步驟都涉及對單一資料批次進行訓練或預測。
結果是100步的平均值,但排除了第一步,因為第一步包括了模型創建和編譯,這會額外花費時間。
為了確保比較的公平性,對於相同的模型和任務(不論是訓練還是推理)都使用相同的批次大小。
然而,對於不同的模型和任務,由於它們的規模和架構有所不同,可根據需要調整資料批大小,從而避免因過大而導致記憶體溢出,或是批過小而導致GPU使用不足。
過小的批次大小也會使PyTorch看起來較慢,因為會增加Python的開銷。
對於大型語言模型(Gemma和Mistral),測試時也使用了相同的批次大小,因為它們是相同類型的模型,具有類似數量的參數(7B)。
考慮到使用者對單批文字產生的需求,也對批次大小為1的文字產生情況進行了基準測試。
關鍵發現
發現1
#不存在「最優」後端。
Keras的三種後端各展所長,重要的是,就效能而言,並沒有哪一個後端能夠始終勝出。
選擇哪個後端最快,往往取決於模型的架構。
這一點突顯了選擇不同框架以追求最佳效能的重要性。 Keras 3可以協助輕鬆切換後端,以便為模型找到最合適的選擇。
發現2
#Keras 3的效能普遍超過PyTorch的標準實作。
相對於原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明顯的提升。
特別是,在10個測試任務中,有5個的速度提升超過了50%。其中,最高更是達到了290%。
如果是100%,表示Keras 3的速度是PyTorch的2倍;如果是0%,則表示兩者效能相當
發現3
Keras 3提供一流的「開箱即用」效能。
也就是,所有參與測試的Keras模型都未進行過任何最佳化。相較之下,使用原生PyTorch實作時,通常需要使用者自行進行更多效能最佳化。
除了上面分享的數據,測試中還注意到在HuggingFace Diffusers的StableDiffusion推理功能上,從版本0.25.0升級到0.3.0時,性能提升超過了100% 。
同樣,在HuggingFace Transformers中,Gemma從4.38.1版本升級至4.38.2版本也顯著提高了效能。
這些效能的提升凸顯了HuggingFace在效能優化上的專注與努力。
對於一些手動最佳化較少的模型,如SegmentAnything,則使用了研究作者提供的實作。在這種情況下,與Keras相比,效能差距比大多數其他型號更大。
這表明,Keras能夠提供卓越的開箱即用效能,使用者無需深入了解所有最佳化技巧即可享受到快速的模型運行速度。
發現4
#Keras 3的表現總是優於Keras 2。
例如,SegmentAnything的推理速度提升了驚人的380%,StableDiffusion的訓練處理速度提升了150%以上,BERT的訓練處理速度也提升了100%以上。
這主要是因為Keras 2在某些情況下直接使用了更多的TensorFlow融合操作,而這可能對於XLA的編譯並不是最佳選擇。
值得注意的是,即使只升級到Keras 3並繼續使用TensorFlow後端,也能顯著提升效能。
結論
框架的表現在很大程度上取決於具體使用的模型。
Keras 3能夠幫助為任務選擇最快的框架,這種選擇幾乎總是超越Keras 2和PyTorch實作。
更為重要的是,Keras 3模型無需進行複雜的底層最佳化,即可提供卓越的開箱即用效能。
以上是Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1
強大的PHP整合開發環境