AMD、HPCおよびAIアプリケーション向け「AMD Instinct™」を発表
エコシステムを拡大し、エクサスケール・クラスのテクノロジーを提供

– 「AMD CDNA™ 2」アーキテクチャーと「AMD ROCm™5」を搭載した新しい「AMD Instinct MI210」GPUが、メインストリーム向けのインサイトと発見を加速 –

AMD（米国本社：米カルフォルニア州サンタクララ、社長兼CEO：リサ・スー）は本日、パートナーによるシステムサポートの拡大、新しい「AMD Instinct MI210アクセラレーター」、「ROCm 5ソフトウェア」の全てを含めたAMD Instinctエコシステムの提供開始を発表しました。今回発表となったパートナーには、ASUS、Dell Technologies、Gigabyte、HPE、Lenovo、Supermicroが含まれています。AMD InstinctとROCmのエコシステムを組み合わせて、エクサスケール・クラスのテクノロジーをHPCとAI分野に提供することで、コンピューティング・アクセラレーションによるデータセンターのワークロードに対する需要の高まりに対応し、インサイトと発見にかかる時間を短縮します。

HPCとAIの未来を支える
AMD Instinct MI200シリーズ・アクセラレーターは、エクサスケール・システムでの発見を促進し、研究者、科学者、エンジニアが気候変動からワクチン研究まで、緊急性の高い課題に取り組めるよう設計されています。AMD Instinct MI210アクセラレーターは、PCIe®フォーマットで卓越したHPCおよびAIパフォーマンスを必要とする顧客に対して、エクサスケール・クラスのテクノロジーを実現します。AMD CDNA 2アーキテクチャーを搭載した本ソリューションは、PCIeフォームファクター・カードの倍精度（FP64）コンピューティングで優れた性能を発揮します（注1）。また、AMD Matrix Coreテクノロジーに基づいて広範な混合精度機能を提供する、高速ディープラーニング・トレーニング向けの堅牢なソリューションも提供します。

ROCm採用の促進
AMD ROCmプラットフォームは、研究者、科学者、エンジニアがAMD Instinctアクセラレーターを利用して科学的な発見を可能にするオープン・ソフトウェア・プラットフォームで、トップクラスのHPCおよびAIアプリケーションを支える多数のアプリケーションとライブラリーを基盤としています。

ROCm 5により、AMDは、AMD Instinct MI200シリーズ・アクセラレーターとAMD Radeon™ PRO W6800プロフェッショナル・グラフィックス・カードといった新しいハードウェアへのサポートや、Red Hat® Enterprise Linux® 8.5のサポートを追加することでソフトウェア・プラットフォームを拡張しました。これにより、開発者はROCmへアクセスしやすくなり、主要なワークロード全体で優れたパフォーマンスを発揮できるようになります。

さらに、AMD GPUに実装、最適化されたオープンソース・アプリケーションの中心部であるAMD Infinity Hubを通じて、エンドユーザーはコンテナ化されたHPCアプリケーションやMLフレームワークを簡単に検索、ダウンロード、インストールすることができるようになりました。AMD Infinity Hubのアプリケーション・コンテナは、ソフトウェア・リリースの入手とインストールという従来からの手間を軽減し、ユーザーが経験や問題解決の機会を共有して学習できるように設計されています。

パートナー・エコシステムとカスタマー・エコシステムの拡大
ROCmやAMD Instinctアクセラレーターに最適化された専用アプリケーションが増える中、AMDはAnsys®、Cascade Technologies、TempoQuestなどの商用ISVを追加し、ソフトウェア・エコシステムの拡大を続けています。これらのISVは、数値流体力学（CFD）、気象、コンピューター支援エンジニアリング（CAE）などを含む高速ワークロード用のアプリケーションを提供しています。今回のアップデートは、HPC、AI、機械学習アプリケーション、AMBER、Chroma、CP2K、GRID、GROMACs、LAAMPS、MILC、Mini-HAAC、NAMD、NAMD 3.0、ONNX-RT、OpenMM、PyTorch、RELION、SPECFEM3D Cartesian、SPECFEM3D Globe、TensorFlowなどのROCmで提供されている既存のアプリケーションに追加されます。

AMDはまた、ASUS、Dell Technologies、Gigabyte、HPE、Lenovo、Supermicroなどのパートナーや、Colfax、Exxact、KOI Computers、Nor-Tech、Penguin、Symmetricなどのシステム・インテグレーターとの提携により、次世代コンピューティングの課題に対して、独自のソリューションを提供しています。オークリッジ国立研究所、KTH/Dardel、CSC/LUMI、Cines/Adastraなど、スーパーコンピューティング分野の企業では新規の顧客を獲得しています。

顧客とパートナーにアクセスを提供
AMD Accelerator Cloudは、AMD InstinctアクセラレーターとAMD ROCmソフトウェアにリモートでアクセスし評価する環境を提供します。レガシーコードの実装、アプリケーションのベンチマーク、マルチGPUやマルチノード・スケーリングのテストなど、検討中の企業やパートナーが最新のGPUやソフトウェアに迅速かつ簡単にアクセスできるようになりました。また、AMD Accelerator Cloudでは、既存顧客と見込み顧客の両方に提供されるハッカソンやROCmのトレーニング・セッションなど、さまざまなイベントにも利用されており、開発者はスキルを磨き、AMD Instinctアクセラレーターを最大限に活用する方法を学ぶことができます。

MI200シリーズの仕様

製品モデル	コンピュートユニット	ストリームプロセッサー	FP64 \| FP32ベクター（ピーク時）	FP64 \| FP32マトリックス（ピーク時）	FP64 \| bf16（ピーク時）	INT8 （ピーク時）	HBM2e ECCメモリー	メモリー帯域幅	フォームファクタ—
AMD Instinct MI210	104	6,656	Up to 22.6 TF	Up to 45.3 TF	Up to 181.0 TF	Up to 181.0 TOPS	64G	Up to 1.6 TB/sec	PCIe
AMD Instinct MI250	208	13,312	Up to 45.3 TF	Up to 90.5 TF	Up to 362.1 TF	Up to 362.1 TOPS	128G	3.2 TB/sec	OCP Accelerator Module （OAM）
AMD Instinct MI250x	220	14,080	Up to 47.9 TF	Up to 95.7 TF	Up to 383.0 TF	Up to 383.0 TOPS	128G	3.2 TB/sec	OCP Accelerator Module （OAM）

AMDについて
AMDは、ハイパフォーマンス・コンピューティング、グラフィックスと視覚化技術において50年以上にわたり革新をもたらしてきました。世界中の何十億人もの消費者、フォーチュン500企業、最先端の科学研究機関が、日常の生活、仕事、遊びを向上させるために、AMDのテクノロジーに頼っています。AMD社員は、可能性の限界を押し上げる高性能で適応性の高い製品開発に注力しています。日本AMD株式会社は、AMDの日本法人です。AMDのさらなる詳細については、AMDのウェブサイト、Facebookまたはツイッターをご覧ください。

（注1）MI200-41 – Calculations conducted by AMD Performance Labs as of Jan 14, 2022, for the AMD Instinct? MI210 (64GB HBM2e PCIeR card) accelerator at 1,700 MHz peak boost engine clock resulted in 45.3 TFLOPS peak theoretical double precision (FP64 Matrix), 22.6 TFLOPS peak theoretical double precision (FP64), and 181.0 TFLOPS peak theoretical Bfloat16 format precision (BF16), floating-point performance.

Calculations conducted by AMD Performance Labs as of Sep 18, 2020 for the AMD Instinct? MI100 (32GB HBM2 PCIeR card) accelerator at 1,502 MHz peak boost engine clock resulted in 11.54 TFLOPS peak theoretical double precision (FP64), and 184.6 TFLOPS peak theoretical half precision (FP16), floating-point performance.

Published results on the NVidia Ampere A100 (80GB) GPU accelerator, boost engine clock of 1410 MHz, resulted in 19.5 TFLOPS peak double precision tensor cores (FP64 Tensor Core), 9.7 TFLOPS peak double precision (FP64) and 39 TFLOPS peak Bfloat16 format precision (BF16), theoretical floating-point performance. The TF32 data format is not IEEE compliant and not included in this comparison.
www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Table 1.

Tags: 日本AMD株式会社