Intel이 개별 GPU의 프로토 타입을 발표


Intel의 GPU 연구 개발의 하나

Intel이 ISSCC에서 발표 한 테스트 칩 GPU의 개요

 Intel 이 "디스크리트 GPU"의 프로토 타입을 발표했다.

 Intel은 AMD에서 Radeon GPU 부문에서 최고이다 Raja Koduri (라자 코두리) 씨를 빼내고 Core and Visual Computing Group의 Chief Architect 겸 Senior Vice President으로 자리했다. 이 극적인 이적에서 Intel의 디스크리트 GPU에 진출하는 것 아니냐는 관측이 일부에서 나오고 있었다. 그런시기에 Intel은 미국 샌프란시스코에서 반도체 국제 회의 ISSCC (IEEE International Solid-State Circuits Conference)에서 개별 GPU의 프로토 타입 칩을 발표했다.

 그렇다고해도 이번 프로토 타입 칩 제품으로 시장에 내놓을 수있는 수준의 것이 아니다. 어디 까지나 기술 검증을위한 GPU 칩. 기존의 Intel의 내장 GPU 아키텍처를 기반으로 IVR (Integrated Voltage Regulator : 통합 전압 레귤레이터)를 사용한 전력과 성능 제어 기술을 검증 한 것이다.

 Intel은 과거에도 이러한 절전 기능 검증을위한 시제품 GPU 칩을 개발하고 있으며, 2014 년에도 ISSCC에서 22nnm의 프로토 타입 칩을 발표하고있다 ( "5.7 A Graphics Execution Core in 22nm CMOS Featuring Adaptive Clocking, Selective Boosting and State-Retentive Sleep "SB Nasir, et al., ISSCC 2014). 하지만이 프로토 타입 칩은 GPU로서 완벽한 기능을 갖추고있어 확장하면 제품에하는 것도 불가능하지 않다.

 이번 프로토 타입의 GPU 아키텍처는 최신 Intel Graphics Gen9 세대에서 Intel의 표준 GPU 코어 자체. 그러나 구현은 LP (저전력), 즉 Atom 계열 CPU 아키텍처 SoC에 혼재되어있는 저전력 GPU 코어 구현되고, 표준 셀 라이브러리 등이 PC 전용과 다른 것으로 보인다.

 프로세스는 Intel의 14nm에서 10 메탈 (배선) 층. 다이 크기는 8 × 8mm, 1.5B 트랜지스터. 동작 주파수와 전압은 50MHz / 0.51V에서 400MHz / 1.2V까지 트랜지스터 수가 많은 것은 캐시 SRAM을 대량으로 탑재하고 있기 때문이다.

Intel의 내장 GPU 코어를 기반으로 새로운 디자인을 도입

 Intel의 GPU 코어는 "EU (Execution Unit)"라는 베쿠타코아로 구성된다. 1 개의 EU는 2 개의 4-way 벡터 유닛을 탑재한다. FP32 (32-bit 부동 소수점 연산) 단위 4-way의 128-bit 길이의 벡터 유닛이다. EU는 2 개의 벡터 유닛과 7 멀티 스레드 범용 레지스터 (GRF) 명령 페처 및 분기 장치가 포함된다.

 프로토 타입 칩은 EU가 6 개 바인딩 된 "Sub-Slice (SS : 서브 슬라이스) '를 구성하고있다. 서브 슬라이스은 EU뿐만 아니라 샘플러 (texture 유닛) 및 L1 / L2 캐시, 스레드 디스패처 데이터 포트 등이 포함된다.

 이번 칩은 3 개의 서브 슬라이스에서 1 개의 "Slice (슬라이스) '를 구성하고있는 것으로 보인다. 다이 사진은 SS0에서 SS2까지 3 개의 EU가 보인다. 3 개의 EU의 서브 슬라이스 중 이번 새로운 전력 제어 메커니즘이 구현되어있는 것은 2 개. SS1과 SS2가 새로운 디자인의 EU와의되고있다.

 SS0는 비교 용으로 종래대로의 설계로되어있다. 3 개의 SS로 구성된 슬라이스 완전한 기능의 GPU 코어가되고, 그래픽 고정 기능 (FF : Fixed Function)와 명령 스트 리머, L3 캐시 등을 내포한다.

프로토 타입 칩
Intel의 GPU 아키텍처의 예 
PDF 판은 이쪽

 테스트 칩은 1 슬라이스 구성에서 총 3 개의 서브 슬라이스, 18 개의 EU를 탑재한다. 벡터 유닛의 FP32 (32-bit 부동 소수점 연산)의 곱 일본 재래의 주산 유닛은 총 144 유닛의 계산이다. PC 용 Intel 그래픽 저가형 GT1은 표준 구현 96 FP32된다.

 테스트 칩은 주파수가 낮은 LP 구현 144 단위이므로 거친 말 저가형 PC 용 그래픽 수준의 성능이라고 말할 것 같다. 또한 보통의 GPU 코어는 동영상 코덱 등 멀티미디어 코어가 포함 된 이번 프로토 타입 칩에 포함되어 있는지 명시되어 있지 않다.

 ISSCC에서 발표 된 GPU 칩은 GPU 코어뿐만 아니라 제어 시스템 및 I / O 방향을 포함한 System Agent (SA : 시스템 에이전트)가 탑재되어있다. 메모리 인터페이스는 호스트 측. 그래서인지 SA에 4MB와 큰 페이징 캐시도 탑재되어있다. 호스트 PC는 FPGA의 다리를 통해 연결된다. 구성을 보면 한 실증 실험용 프로토 타입이다.

IVR을 활용 한 치밀한 전압 / 주파수 제어

 Intel의 이번 테스트 칩의 가장 큰 특징은 IVR을 이용한 치밀한 V / F (Voltage / Frequency : 전압 / 주파수) 제어와 파워 게이팅을 행하고있는 점. 전통적으로 GPU는 CPU에 비해 ​​이러한 V / F 제어 및 절전 기능이 약하다. 이것은 전통적인 그래픽 작업은 높은 부하가 일정 기간 계속하거나 부하가 매우 가벼운하거나 어느 것이 많다고 생각했기 때문이다. GPU 벤더도 GPU의 전력 제어에는 그다지 주력하고 오지 않았다.

 그러나, Intel은 GPU 코어 치밀한 전력 제어를 도입하는 것으로, 조건에 따라서는 성능 효율을 향상시킬 수 있음을 입증했다. 전력 제어에 뛰어난 Intel CPU 코어의 노하우를 살려 CPU보다 더 앞선 전력 제어를 GPU 코어를 넣는 것으로, 효과가 발휘되는 것을 보여 주었다. GPU에 입도가 작은 다양한 작업을 달리게하게되면 이러한 전력 제어가 더 효과가 올 것이다.

 기본적인 아이디어는 GPU를 세밀 블록 단위로 동작 주파수와 전압을 제어 필요한 블록이 최적의 주파수와 전력에서 작동하도록한다. 그 오에 온칩 (On-Die)에 통합 된 IVR (통합 전압 레귤레이터)은 빠른 전압 전환을 가능하게한다. 유휴 블록은 레지스터 등의 SRAM 데이터를 저장할 수있는 한계의 보존 전압까지 떨어 누설 전류를 억제한다. 파워 게이트 (PG)은 GPU에 분산 된 PG 드라이버를 통해 안정적인 웨이크 업기구로 제어한다.

GPU의 동적 주파수 및 전압 제어와 슬립 파워 게이팅 제어의 개념도

IVR의 도입으로 유닛 당 전압 전환이 가능

 종래의 Intel의 설계에서는 모든 GPU에 대해 IVR에서 단일 전압 (Vgpu)에 전력이 공급되고 있었다. 아래의 슬라이드 왼쪽 그림과 같은 모양이다. 반면 이번 ​​설계에서는 GPU 내 연산 유닛 인 EU와 다른 장치에 별도의 전압에서 전력이 공급된다. 슬라이드의 오른쪽 그림과 같이된다. 각각 독립적 인 IVR이 할당된다.

새로운 설계의 전력 공급의 개념도

 기존의 구현의 경우, 컴퓨팅 집중 작업의 경우 EU의 부하가 높아져, 그 결과 GPU 전체의 전압이 높고 전환 클럭은 PLL을 리롯쿠 높은 클럭으로 전환된다. 그 때, EU 이외의 장치는 부하가 낮더라도 EU와 같은 전압이 시계에 밀려 GPU 코어 전체의 소비 전력이 올라 버린다.

기존의 구현 컴퓨팅 집중 작업의 경우 전압 및 주파수

 반면 EU와 다른 유닛을 개별적으로 주파수와 전압 제어하는 ​​경우보다 유연하게된다. EU의 전압 만 부하에 따라 인상 된 EU의 동작 주파수는 보통 주파수의 2 배에 교체된다. 개별적으로 응답 성이 뛰어난 IVR을 구현함으로써, 전압 인상을 단시간에 가능하게한다.

ISSCC에서 발표 된 독립적 인 전압 주파수 변환의 개념도

 또한 주파수는 배속으로 전환하여 PLL을 리롯쿠을 필요로한다. Intel은 이것을 "EU Turbo (EU 터보)"라고 부르고있다. 베이스 클럭을 2x로 공급하고 보통 때는 그 시계를 반으로 공급 터보시에는 본래의 2x 시계로 전환한다. 결과적으로 부하의 상하에 신속하게 응답하는 전압 / 주파수 전환이 가능해진다.

EU에 배속 클럭 공급

 반대로 EU가 단시간의 설치에 들어갔을 때는, EU에 전압을 보유 전압에 떨어 뜨리고, 클럭 공급을 중지 잠을한다. 기존 클럭 게이트시에 전압을 떨어 뜨릴 수 없었지만, ISSCC의 구현은 EU의 IVR이 독립하고 있기 때문에 EU의 전압을 SRAM을 유지할 수있는 하한 전압에 떨어 뜨려 전력을 줄일 수있다.

리 텐션 티브 슬립

 또한 EU 각각 개별적으로 IVR을 설치하여 작동 할 수있는 최저 전압 Vmin의 차이를 조정할 수도있다. 프로세스 자체의 변화뿐만 아니라 온도에 따른 차이도 있지만, IVR에서 동적으로 각 유닛 각각 Vmin을 조정할 수있다. 따라서 Vmin을 단위마다 최소 전압에 할 수있다.

블록 단위의 Vmin 조정

2 종류의 IVR을 GPU에 통합

 이번 프로토 타입 칩 IVR의 특징은 2 개의 다른 VR을 통합 한 하이브리드 설계를 취한 것이다. Intel은 이전부터 도입했다 "Switched Capacitor VR (SCVR)"뿐만 아니라 "Digitally Controlled Low Dropout (DLDO) '을 병용하고있다. 2 종류의 IVR을 통해 다양한 전압 범위에 걸쳐 높은 전압 변환 효율을 실현하는

DLDO과 SCVR 두 가지 IVR 하이브리드 설계

 입출력 사이의 전위차가 작은 경우에 유효한 DLDO를 정상 작동시에 사용한다. 1.15V의 입력 전압 (Vin)에 대해 0.785V ~ 1.11V 정도의 출력 전압 (Vout). 곡식의 제어는 DLDO을 기반으로한다. MIM 커패시터를 내장하는 SCVR은 출력 전압이 0.3V ~ 0.7V 낮은 경우에 사용한다. 입력에 대한 출력의 전위가 3 : 2,2 : 1,3 : 1의 비율이다.

DLDO과 SCVR의 2 계통의 IVR과 전력 효율성

 EU 내부에서는 SCVR가 6 타일 배치되어있다. 그리고 DLDO는 EU의 중앙에 척수처럼 컨트롤러가 배치되어 DLDO로 제어되는 파워 게이트 (PG)가 EU 전체에 바둑판 패턴으로 배치되어있다. 1,400 이상의 PG 배치된다고한다.

DLDO 통합

 새로운 디자인의 12 EU에 대한 EU의 워크로드 점유율이 54 %의 경우는 EU 터보의 성능 향상은 최대 40 %, 평균 37 %가된다고한다. 100 %의 EU 점유율의 경우는 EU 터보 의해 기준선 최대 32 %, 평균 29 %의 전력 절감이 가능하게된다고한다. 또 EU 터보를 사용하여 EU의 동작 주파수를 인상하면서 일부 EU를 파워 게이트함으로써 전력 절감과 성능 향상을 실현할 수있다.

EU 터보 의한 성능 이득
EU 터보 의한 전력 절감
EU 터보와 게이팅 조합의 예

 이번 Intel이 발표 한 프로토 타입 GPU는 제품 화로 향하는 같은 수준은 아니다. 그러나, Intel 프로세서에 대한 전력 제어 설계의 방향성이 보이는 점에서 흥미 롭다.

 Intel은 IVR 구현에 계속 진지하게 임하고있어 Haswell 세대보다 진보 된 디자인을 시도하고있다. 그것도 CPU뿐만 아니라 GPU 코어에도 미치려고하고있다. Intel의 절전 제어는, 실은 Intel의 보이지 않는 강점이며, AMD가 빠르게 추격하고있는 부분이기도하다. 앞으로의 진화가 주목된다.

https://pc.watch.impress.co.jp/docs/column/kaigai/1107078.html

+ Recent posts