lare,云端AI芯片落地难题如何破解!
提到AI的落地你最先会想到什么?
有人想到了AI芯片的利用率以及底层硬件的调度;有人想到AI芯片的算力效益;还有人想到算力服务。
AI的落地,能够为智慧城市的建设,更精准的天气的预测,构建更安全的网络环境等提供底层支撑。
但是,AI的落地依旧面对诸多的挑战。比如,如何才能将AI用起来?如何才能渐进式的实现AI的价值?如何基于AI发展算力经济?
这逐层渐进的问题,考验着所有提供AI技术以及想要使用AI技术的人。对于最底层的AI芯片的提供者,目前非常棘手的问题之一就是软件。
燧原科技创始人兼COO张亚林在2022世界人工智能大会上就表示:“根据过往落地实践,我们发现,AI数据中心因其软件运维复杂,普遍具有方案选型难、各厂商产品兼容未知等痛点,而且数据中心部署交付周期长、沟通成本高、项目管理周期长。”
软件问题,特别是基于云端高性能AI推理和训练芯片的上层软件和生态,限制着众多AI芯片创新者的发展。
燧原科技创始人、CEO赵立东认为,“生态的垄断是目前我们面临的比较大挑战,而生态垄断的原因是紧耦合的软件和硬件。因此,我们一定要创新。”
为了解决当下云端AI芯片落地的挑战,不同的公司会从不同的维度突破软件和生态的挑战。
2022年9月3日,燧原科技在“算尽其用·定义AI算力中心新实践”云端算力产业应用论坛上给出了解决这一挑战的答案——云燧智算机(CloudBlazer POD)。
云燧智算机是针对大规模、集约化人工智能算力应用场景的高性能AI加速集群,有一站式预集成人工智能加速硬件、一体化开发与管理平台及配套人工智能应用软件与服务,适用于数字政府、科研院所、科创平台等。
简单来说,燧原科技在解决高性能云端AI芯片落地给出的一个解题思路就是“开箱即用”。
何为开箱即用?在交付方式上,云燧智算机提供包括采购、安装、运维一体的交钥匙方案。
能够以这样的方式交付,还是因为云燧智算机采用一体化设计。
硬件的算力层面,基于燧原科技已经发布的自研AI高性能芯片。在典型配置下,云燧智算机每单元可达到8PFLOPS的TF32浮点算力,并且支持按需横向扩容,可支持数千卡规模集群,能够实现顶级超算的E级算力。
同时,云燧智算机也集成了合作伙伴的CPU,提供充足的算力。但计算集群除了算力这个核心要素之外,网络和存储和非常关键。
张亚林介绍,“云燧智算机代表了燧原科技经过多个大规模工程实践所形成的计算、网络、存储的整体设计:以全局优化为目标,基于计算、存储、管理网络分离,全互联无阻塞的网络架构,结合高效的多级存储方式,在‘邃思’AI芯片与CPU的异构算力支撑下,云燧智算机能够提供卓越的AI性能。”
雷峰网了解到,燧原科技的第一代和第二代“邃思”芯片已实际应用于大规模AI集群工程中,落地规模达千卡级别,场景包括融媒体生成、城市智能感知等。
当然,提到计算集群就不得不关注数据中心整体能效(PUE),特别是在双碳目标以及绿色环保的总体趋势,以及东数西算有政策性要求。据悉,云燧智算机采用一体化冷板式液冷技术,实现单节点8颗高性能人工智能芯片液冷散热,PUE可降至1.1及以下。
前面提到,AI落地一个巨大的挑战就是软件。不过软件是一个很宽泛的概念,既需要能够提升AI芯片利用率的编译器、库等,也需要算力平台的管理软件。
随新推出的云燧智算机一起推出的是燧原科技提供燧池智算平台(CloudBlazer Station),包含基础设施层的异构算力调度平台,智能运维平台,驭算软件栈SDK,算法服务层的智能算法管理平台以及训推一体化平台。
同时,面对超大参数量的巨量模型趋势,云燧智算机可支持超千亿参数巨量模型的高效、并行训练,这主要是得益于云燧智算机计算节点内基于GCU-LARE2.0多芯互联技术提供近1TB/s的互联带宽,跨节点互联能力高达600Gb/s,可实现千卡级大规模集群高速互联。
开箱即用的计算集群确实能够在一定程度降低使用者的门槛,但计算集群毕竟是一个复杂的系统,最终能在多大程度上促进高性能AI计算的落地,还需要用更多的落地项目证明。
提到AI????????????落地你最先会想到什么?
有人想到了AI芯片????????????利用率以及底层硬件????????????调度;有人想到AI芯片????????????算力效益;还有人想到算力服务???????【】┱┲ぎみなたぜぼ゛ぬり????????
AI????????????落地女男???㊣?№?囍能够为智慧城市????????????建设女男???㊣?№?囍更精准????????????天气????????????预测女男???㊣?№?囍构建更安全????????????网络环境等提供底层支撑???????【】┱┲ぎみなたぜぼ゛ぬり????????
但是女男???㊣?№?囍AI????????????落地依旧面对诸多????????????挑战???????【】┱┲ぎみなたぜぼ゛ぬり????????比如女男???㊣?№?囍如何才能将AI用起来?如何才能渐进式????????????实现AI????????????价值?如何基于AI发展算力经济?
这逐层渐进????????????问题女男???㊣?№?囍考验着所有提供AI技术以及想要使用AI技术????????????人???????【】┱┲ぎみなたぜぼ゛ぬり????????对于最底层????????????AI芯片????????????提供者女男???㊣?№?囍目前非常棘手????????????问题之一就是软件???????【】┱┲ぎみなたぜぼ゛ぬり????????
燧原科技创始人兼COO张亚林在2022世界人工智能大会上就表示:“根据过往落地实践女男???㊣?№?囍我们发现女男???㊣?№?囍AI数据中心因其软件运维复杂女男???㊣?№?囍普遍具有方案选型难?¢€£∞?★??×各厂商产品兼容未知等痛点女男???㊣?№?囍而且数据中心部署交付周期长?¢€£∞?★??×沟通成本高?¢€£∞?★??×项目管理周期长???????【】┱┲ぎみなたぜぼ゛ぬり????????”
软件问题女男???㊣?№?囍特别是基于云端高性能AI推理和训练芯片????????????上层软件和生态女男???㊣?№?囍限制着众多AI芯片创新者????????????发展???????【】┱┲ぎみなたぜぼ゛ぬり????????
燧原科技创始人?¢€£∞?★??×CEO赵立东认为女男???㊣?№?囍“生态????????????垄断是目前我们面临????????????比较大挑战女男???㊣?№?囍而生态垄断????????????原因是紧耦合????????????软件和硬件???????【】┱┲ぎみなたぜぼ゛ぬり????????因此女男???㊣?№?囍我们一定要创新???????【】┱┲ぎみなたぜぼ゛ぬり????????”
为了解决当下云端AI芯片落地????????????挑战女男???㊣?№?囍不同????????????公司会从不同????????????维度突破软件和生态????????????挑战???????【】┱┲ぎみなたぜぼ゛ぬり????????
2022年9月3日女男???㊣?№?囍燧原科技在“算尽其用·定义AI算力中心新实践”云端算力产业应用论坛上给出了解决这一挑战????????????答案——云燧智算机(CloudBlazer POD)???????【】┱┲ぎみなたぜぼ゛ぬり????????
云燧智算机是针对大规模?¢€£∞?★??×集约化人工智能算力应用场景????????????高性能AI加速集群女男???㊣?№?囍有一站式预集成人工智能加速硬件?¢€£∞?★??×一体化开发与管理平台及配套人工智能应用软件与服务女男???㊣?№?囍适用于数字政府?¢€£∞?★??×科研院所?¢€£∞?★??×科创平台等???????【】┱┲ぎみなたぜぼ゛ぬり????????
简单来说女男???㊣?№?囍燧原科技在解决高性能云端AI芯片落地给出????????????一个解题思路就是“开箱即用”???????【】┱┲ぎみなたぜぼ゛ぬり????????
何为开箱即用?在交付方式上女男???㊣?№?囍云燧智算机提供包括采购?¢€£∞?★??×安装?¢€£∞?★??×运维一体????????????交钥匙方案???????【】┱┲ぎみなたぜぼ゛ぬり????????
能够以这样????????????方式交付女男???㊣?№?囍还是因为云燧智算机采用一体化设计???????【】┱┲ぎみなたぜぼ゛ぬり????????
硬件????????????算力层面女男???㊣?№?囍基于燧原科技已经发布????????????自研AI高性能芯片???????【】┱┲ぎみなたぜぼ゛ぬり????????在典型配置下女男???㊣?№?囍云燧智算机每单元可达到8PFLOPS????????????TF32浮点算力女男???㊣?№?囍并且支持按需横向扩容女男???㊣?№?囍可支持数千卡规模集群女男???㊣?№?囍能够实现顶级超算????????????E级算力???????【】┱┲ぎみなたぜぼ゛ぬり????????
同时女男???㊣?№?囍云燧智算机也集成了合作伙伴????????????CPU女男???㊣?№?囍提供充足????????????算力???????【】┱┲ぎみなたぜぼ゛ぬり????????但计算集群除了算力这个核心要素之外女男???㊣?№?囍网络和存储和非常关键???????【】┱┲ぎみなたぜぼ゛ぬり????????
张亚林介绍女男???㊣?№?囍“云燧智算机代表了燧原科技经过多个大规模工程实践所形成????????????计算?¢€£∞?★??×网络?¢€£∞?★??×存储????????????整体设计:以全局优化为目标女男???㊣?№?囍基于计算?¢€£∞?★??×存储?¢€£∞?★??×管理网络分离女男???㊣?№?囍全互联无阻塞????????????网络架构女男???㊣?№?囍结合高效????????????多级存储方式女男???㊣?№?囍在‘邃思’AI芯片与CPU????????????异构算力支撑下女男???㊣?№?囍云燧智算机能够提供卓越????????????AI性能???????【】┱┲ぎみなたぜぼ゛ぬり????????”
雷峰网了解到女男???㊣?№?囍燧原科技????????????第一代和第二代“邃思”芯片已实际应用于大规模AI集群工程中女男???㊣?№?囍落地规模达千卡级别女男???㊣?№?囍场景包括融媒体生成?¢€£∞?★??×城市智能感知等???????【】┱┲ぎみなたぜぼ゛ぬり????????
当然女男???㊣?№?囍提到计算集群就不得不关注数据中心整体能效(PUE)女男???㊣?№?囍特别是在双碳目标以及绿色环保????????????总体趋势女男???㊣?№?囍以及东数西算有政策性要求???????【】┱┲ぎみなたぜぼ゛ぬり????????据悉女男???㊣?№?囍云燧智算机采用一体化冷板式液冷技术女男???㊣?№?囍实现单节点8颗高性能人工智能芯片液冷散热女男???㊣?№?囍PUE可降至1.1及以下???????【】┱┲ぎみなたぜぼ゛ぬり????????
前面提到女男???㊣?№?囍AI落地一个巨大????????????挑战就是软件???????【】┱┲ぎみなたぜぼ゛ぬり????????不过软件是一个很宽泛????????????概念女男???㊣?№?囍既需要能够提升AI芯片利用率????????????编译器?¢€£∞?★??×库等女男???㊣?№?囍也需要算力平台????????????管理软件???????【】┱┲ぎみなたぜぼ゛ぬり????????
随新推出????????????云燧智算机一起推出????????????是燧原科技提供燧池智算平台(CloudBlazer Station)女男???㊣?№?囍包含基础设施层????????????异构算力调度平台女男???㊣?№?囍智能运维平台女男???㊣?№?囍驭算软件栈SDK女男???㊣?№?囍算法服务层????????????智能算法管理平台以及训推一体化平台???????【】┱┲ぎみなたぜぼ゛ぬり????????
同时女男???㊣?№?囍面对超大参数量????????????巨量模型趋势女男???㊣?№?囍云燧智算机可支持超千亿参数巨量模型????????????高效?¢€£∞?★??×并行训练女男???㊣?№?囍这主要是得益于云燧智算机计算节点内基于GCU-LARE2.0多芯互联技术提供近1TB/s????????????互联带宽女男???㊣?№?囍跨节点互联能力高达600Gb/s女男???㊣?№?囍可实现千卡级大规模集群高速互联???????【】┱┲ぎみなたぜぼ゛ぬり????????
开箱即用????????????计算集群确实能够在一定程度降低使用者????????????门槛女男???㊣?№?囍但计算集群毕竟是一个复杂????????????系统女男???㊣?№?囍最终能在多大程度上促进高性能AI计算????????????落地女男???㊣?№?囍还需要用更多????????????落地项目证明???????【】┱┲ぎみなたぜぼ゛ぬり????????
版权声明:本文由整形之家发布,如需转载请注明出处。