今年,瘦身成功的亞馬遜云科技高級副總裁Peter DeSantis,用生成式AI親手創作了幾張re:Invent《周一晚間直播》的配圖,來可視化他的演講。
這也為整場活動定下了基調,其實亞馬遜云科技在底層創新上一直有著悠久的歷史,從芯片設計到計算架構,再到AI加速,每一步都在推動技術邊界的發展。
自研芯片的技術版圖
亞馬遜云科技已經擁有超過十年“自研芯片”的歷程,已推出的四大自研芯片產品組合包括:六代Nitro系統、四代Graviton、兩代Trainium和Inferentia。
亞馬遜云科技在2018年re:Invent大會上發布了基于ARM架構的第一代Amazon Graviton。此后,Graviton芯片不斷針對現實的工作負載進行性能優化:第二代專注于橫向擴展性能,第三代聚焦高計算需求的專業工作負載,而第四代則成為專為云計算打造的性能最強芯片。
Peter DeSantis指出,過去兩年間,新投產的CPU算力中有超過50%運行在Amazon Graviton上。
與此同時,AWS Nitro System重新定義了服務器架構,從根本上革新了云的構建和保護云的方式。AWS也將AWS Nitro System的安全性拓展到Amazon Graviton4,通過兩者的結合,打造出亞馬遜云科技迄今為止最安全的計算產品之一。
AI加速器的硬核進化
Trainium加速器不屬于傳統的CPU或GPU,其采用了脈動陣列架構,是專門針對AI工作負載優化過的硬件架構。
“人工智能工作負載不是橫向擴展型的工作負載,而是擴張類型的工作負載。”Peter DeSantis說道。亞馬遜云科技采用“擴張”的方式,專注于提高單個系統的容量,而不是采用“橫向擴展”的方式,構建多個相同的系統,在多臺機器上分配工作負載。
在傳統CPU和GPU中,每個計算步驟通常需要從內存讀取數據、執行計算后,再將結果寫回內存。這種頻繁的內存操作會導致性能瓶頸,尤其是在需要大量帶寬的AI任務中。
脈動陣列設計目的是高效處理大規模的矩陣或張量運算,脈動陣列通過將計算結果直接從一個處理單元傳遞到下一個處理單元,減少了對內存的訪問需求,從而降低了內存帶寬的壓力。
Trainium2 Server也得益于此,其是目前亞馬遜云科技最強大的機器學習服務器,其擴張的速度也超過了曾經所有的服務器。現場還第一次展示了AWS Trainium2 UltraServer,其設置2個機架、4個服務器和64個Trainium加速器,以超高速的NeuronLink連接在一起。AWS Trainium2 UltraServer提供相比當前EC2 AI服務器多達5倍的計算容量和10倍的內存,算力峰值擴展到83.2PFLOPS。
同時推出全新Trainium3,其采用3nm制程的芯片,與上代Trainium2相比,計算能力增加2倍,能源效率提升40%。Trainium3專為滿足下一代生成式AI工作負載的高性能需求而設計,有助客戶更快地建立更大的模型,由Trainium3驅動的UltraServers預計將比 AWS Trainium2 UltraServer的效能高出四倍。
亞馬遜云科技同時也注意到推理性能優化的關鍵性需求,宣布了Latency-optimized inference option for Amazon Bedrock,使各種模型可以獲得最佳的推理性能。借助這一優化,Claude 3.5 Haiku在亞馬遜云科技上的運行速度比其他平臺快了60%。
AI生態的未來棋局
Anthropic 從成立那天起,就靠著前沿的 AI 技術圈足了眼球。11 月 23 日,亞馬遜再度追加40億美元投資,使總投資推高到80億。這可不只是砸錢,而是在下一盤關于AI未來的大棋。
Anthropic快速發展的背后,離不開亞馬遜云科技的強大技術支撐。其Amazon Trainium和 Amazon Inferentia芯片,不僅顯著提升了Claude模型的訓練和推理性能,還顯著降低了成本。11月4日,Claude 3.5 Haiku也在Amazon Bedrock中正式可用。
Anthropic還在《周一晚間直播》中宣布了Project Rainier項目,計劃在數百個Amazon Trainium 集群上進行訓練,構建出更快的、更可擴展的AI,以支持Anthropic的未來模型開發。
亞馬遜云科技還有很多底層基礎架構的創新,從性能提升到成本降低,每一項突破都在重新定義AI的技術邊界。