AMD的迭代模式似乎与英伟达的路线图相似,都是集中在提高HBM密度。
在 Llama 70B 吞吐量中,Sohu 每秒可处理超过 50万个 tokens,让用户可以构建 GPU 无法实现的产品。
为了满足飙升的需求,SK Hynix 计划通过在美国印第安纳州的先进封装设施以及韩国的 Cheongju 的 M15X 和 Yongin 的半导体集群进行投资,扩大生产能力。三星在四月份的季度财报电话会议上表示,其2024年的HBM位供应 “较去年增加了三倍以上”。
黄仁勋说:“我们每天都在赛跑。客户给我们施加了很大的压力,要求我们尽快交付这些系统,并让它们运行起来。”
AI的训练推理任务和传统的计算有很大的差异,比如单任务会很大并且很突发,所以如果不做一个更AI Native的调度策略,会使整个系统的资源利用率非常低,甚至导致客户任务经常挂掉重启,进而耽误AI发展进程。
发表评论