Nvidia Ampre GPU A100

NVIDIA는 차세대 "암페어 (Ampere)"아키텍처의 하이 엔드 GPU "NVIDIA A100 '을 발표했다.

NVIDIA A100은 TSMC의 7nm 공정의 고급 지향 GPU에서 다이 크기는 826 평방 mm와 Volta와 거의 동등의 최대 크기, 트랜지스터 수는 540 억과 Volta의 2 배 이상, DRAM은 HBM2 메모리 인터페이스는 6,144bit 6 개의 HBM 스택을 GPU에 연결한다. 메모리 대역폭은 1.6TB / s의 메모리 용량은 40GB. 현재는 일반적인 상용 칩으로는 최대 규모이다.

NVIDIA는 온라인 개최되었다 회사 주최의 GPU 컴퓨팅 컨퍼런스 "GTC (GPU Technology Conference) 2020 '의 기조 강연을 5 월 14 일 온라인으로 공개. 회사를 이끄는 Jensen Huang (젠슨 황) 씨 (Founder and CEO)가 연설 속에서 Ampere의 개요를 발표했다.

NVIDIA는 하이 엔드 GPU에 대해서는 GPU 컴퓨팅 포커스로 설계하지만, 그래픽 시장에 투입한다. 이번에도 같은 다이 그래픽 제품이 등장 할 전망이지만, GTC에서 발표 된 데이터 센터를위한 GPU 컴퓨팅 제품이다.

현재 GPU는 최대 규모의 NVIDIA A100은 연산 성능도 뛰어나다. 회사의 GPU의 프로세서 클러스터 인 SM (Streaming Multiprocessor) 수는 제품으로 사용 된 것이 108 개. 108 개의 SM에서 벡터 연산 유닛 부는 FP32 (32-bit 부동 소수점 연산) CUDA 코어가 6,912, FP64 (64-bit 부동 소수점 연산) CUDA 코어가 절반 3,456 연산 성능은 FP64에서 9.7TFLOPS, FP32 에서 19.5 TFLOPS. 동작 주파수는 피크가 1.4GHz 것으로 추정된다.

텐서 연산 유닛을 크게 확장

NVIDIA GPU는 Volta 이후 깊은 학습을위한 텐사 연산 유닛 "텐서코아 (Tensor Core) '를 탑재하고있다. GPU는 기본적으로 벡터 연산 프로세서이지만, 텐서 연산 프로세서를 결합한 하이브리드 구성하여 깊은 학습의 성능을 비약적으로 향상시켰다. Ampere 아키텍처도 그 연장에있다.

NVIDIA A100의 텐서코아 수는 432에서 각 SM 당 4 코어의 배치가된다. 각 SM에 8 코어이었다 Volta에 비해 텐서코아 수가 줄어든 것처럼 보이지만, 이것은 텐서코아 세는 방법이 바뀌었기 때문이다. Volta는 각 SM의 프로세싱 블록 당 16 × 16의 텐서 연산 유닛이 2 개로 계산하고 있었지만, Ampere는 16x32 단위로 계산되어있다.

Ampere는 텐서 코아가 크게 확장되었다. 첫째, 데이터 정확성은 새롭게 「BFloat16 '과’Tensor Float32 "의 두 가지 새로운 데이터 형식이 지원되었다. BFloat16 (Brain Floating Point 16)는 신경망 용도를 전제로 제안 된 새로운 부동 소수점 형식이다. 프로세서 업계에서 채용이 진행되고있다.

기존의 IEEE 754 부동 소수점은 FP32 (32-bit 단정도 부동 소수)가 부호 부 (Sign) 1-bit 지수 (Exponent) 8-bit, 가수 부 (Mantissa) 23-bit로 구성 되어있다.

반면 FP16 (16-bit 부동 소수점)는 부호 부 (Sign) 1-bit 지수 (Exponent) 5-bit, 가수 부 (Mantissa) 10-bit. bfloat16 (BF16)는 부호 부 (Sign) 1-bit 지수 (Exponent) 8-bit, 가수 부 (Mantissa) 7-bit.

데이터 크기는 FP16와 동등하면서 다이나믹 레인지는 FP32과 동등하고, 가수 부 데이터 정확도를 깎은. 다이나믹 레인지가 중요하다 신경망에 적합한 형식이다.

TF32 포맷을 지원하는 Ampere의 텐서코아

Ampere의 텐서 연산 유닛 텐서 코어는 새로운 BFloat16과 Tensor Float32 두 가지 새로운 데이터 형식을 지원 한편, Tensor Float32 (TF32)는 부호 부 (Sign) 1-bit 지수 (Exponent) 8-bit, 가수 부 (Mantissa) 10-bit. 19-bit 길이의 다이나믹 레인지는 FP32와 비슷하지만, 가수 부 데이터 정확도는 FP16과 동일합니다. FP32의 다이나믹 레인지를 반입하면서 FP16의 정확도를 지키는 새로운 형식으로되어있다.

Ampere의 텐서코아는 FP16 이외에 BF16, TF32, Int8, Int4, FP64 폭넓게 지원한다. TF32은 딥 러닝 교육을 주목적으로 한 확장에서 TF32의 도입으로 교육 성능이 크게 미친다.

스파 스 네트워크 하드웨어에서 지원하는 Ampere의 텐서코아 또한, Ampere의 텐서코아는 깊은 학습의 인화 렌스 처리에서의 전력 효율 향상의 핵심 "가지 치기 (Pruning : 전정)"하드웨어에서 지원했다. 정리 된 스파 스 (sparse) 네트워크를 효율적으로 수행하는 하드웨어를 갖춘다.

Ampere는 스파 스 네트워크의 실행시 성능이 최대 2 배된다고한다. 스파 스 대응은 깊은 학습의 인화 렌스 (추론)을위한 확장 이로 인해 Ampere는 인화 렌스의 성능이 두배로한다.

교육 및 인화 렌스 성능 모두를 스트레칭 SM의 증가, 새로운 데이터 형식의 도입, 스파 스 대응 제어의 도입으로 Ampere 아키텍처는 깊은 학습의 성능은 크게 늘어났다. 텐사코아의 BF16과 FP16 성능은 보통 때 312TFLOPS에서 스파 스시 2 배의 624TFLOPS. TF32의 성능은 보통 때 156TFLOPS에서 스파 스시 312TFLOPS. INT8 정수 연산 성능은 624TOPS, 스파 스 1,248TOPS되고있다.

Volta V100과의 성능 비교는 V100의 FP32 성능에 대해 A100 스파 스 TF32의 성능은 최대 20 배 가까이 계산된다. INT8의 비교에서는 V100에 A100은 희소 Int8 약 20 배 Volta 아키텍처는 인화 렌스 약했던 것이 Ampere는 교육과 인화 렌스 모두가 강화되었다. 딥 러닝 교육에서도 인화 컨퍼런스에서도 빠른 GPU가 A100이다.

NVIDIA는 지난 2 년의 깊은 학습 계의 자연 언어 인식 붐을 일으킨이 된 신경망 "BERT"의 가속 성능 비교로 보여 주었다. Volta V100에 Ampere A100은 BERT 교육에서의 6 배, BERT의 인화 컨퍼런스에서 7 배의 성능과된다고한다.

자연 언어 인식 신경망 "BERT"교육에 Volta V100의 6 배, BERT의 인화 컨퍼런스에서 7 배의 성능 또한 Ampere는 텐사코아에서 FP64도 지원했다. 벡터 부의 FP64은 9.7TFLOPS하지만 텐사 부의 FP64은 19.5TFLOPS과 FP16의 벡터 연산과 동등한 성능을 달성한다. 이곳은 과학 기술계의 응용 프로그램을 의식한 확장 것으로 보인다. 딥 러닝 가속기에 대해 GPU는 범용성이 지점에서 Ampere은 과학 기술계에서 중요하다 FP64 지원에서 일반적인 컴퓨팅도 강화되고있다.

이 밖에 Ampere 아키텍처는 GPU 칩 내의 리소스를 분할하여 다른 인스턴스를 병렬로 실행시키는 멀티 인스턴스에 대응한다. 최대 7 인스턴스까지를 1 칩 ​​속에서 달리게 할 수있다.

NVIDIA GPU는 지금까지 큰 워크로드에 칩 전체에 해당하는 것에 포커스왔다. 그러나 Ampere는 AMD GPU와 마찬가지로 더 세부 작은 작업을 병렬화하는 방향으로 방향을 끊었다.

GPU 칩 내의 리소스를 분할하여 다른 인스턴스를 병렬로 실행시키는 멀티 인스턴스에 대응. 최대 7 개까지의 인스턴스를 1 개의 Ampere GPU 속에서 병렬로 실행시킬 수있다 GPU 컴퓨팅 시스템 DGX 출시 딥 학습에서는 신경망의 크기는 점점 커지고 있으며, GPU는 확장이 요구된다. NVIDIA는 이러한 상황에 대응하여 GPU 칩 상호 연결 "NVLink"을 구현. GPU 간의 직접 연결을 제공하여왔다.

NVLink는 Volta 아키텍처 "Tesla V100 (GV100)"는 칩 총 대역폭은 최대 300GB / s이었다. Ampere 아키텍처의 A100은 NVLink의 총 대역폭은 두 배의 피크 600GB / s가된다.

NVIDIA는 A100을 GPU 컴퓨팅 시스템 "DGX"시리즈로 제공한다. Ampere 기반 "DGX A100 '은 8 개의 NVIDIA A100 GPU와 2 개의 64 코어 AMD Rome CPU, 거기 NVLink 스위치이다 NVSwitch 6 개의 구성으로되어있다. 시스템 전체의 성능은 FP16 5 PFLOPS하라. 가격은 199,000 달러이다.

8 개의 GPU를 탑재하는 GPU 컴퓨팅 시스템 “DGX A100”

CPU는 AMD의 Rome을 채용

5 PFLOPS이 완노도에 들어간 DGX A100

DGX A100의 가격은 199,000 달러 또한 NVIDIA는 Ampere 아키텍처를 에지를위한 AI 플랫폼 보드 "NVIDIA EGX A100 '로 제공한다. 빠르게 고성능이 요구되는 에지 사이드의 깊은 학습을 타겟으로 한 제품이다.

NVIDIA EGX A100

NVIDIA EGX A100

NVIDIA EGX A100を使ったロボティック工場 NVIDIA EGX A100을 사용한 로봇 공장 GPU의 프로세스 업데이트 경주에서 AMD에 뒤쳐되는 NVIDIA. 이 회사는 당초 소문되고 있던 Samsung 7nm 대신 TSMC의 7nm 공정에 올린 GPU를 투입 해왔다. 단발의 한계 다이 크기에서 비용은 높지만 성능도 비약적한다. NVIDIA는 Ampere 아키텍처에서 딥 러닝 가속기와 싸울 것입니다.