GPGPU ; General-Purpose computing on GPU
2009. 12. 21. 10:40 가상
범용 GPU(GPGPU, General-Purpose computing on Graphics Processing Units: 그래픽 처리 장치를 통한 일반 목적의 컴퓨팅)는 GPGP 또는 GP2 라고도 불리며, 컴퓨터 그래픽스를 위한 계산만 다루는 GPU를 사용하여 CPU가 전통적으로 취급했던 응용 프로그램들의 계산을 수행하는 기술이다. 이를 가능하게 한 것은 프로그램 가능한 "단"과 고정도 연산을 그래픽 파이프라인에 연결하는 것으로, 이를 통하여 소프트웨어 개발자들이 그래픽이 아닌 데이터에 흐름 처리(Stream Processing)를 사용할 수 있게 된다.
GPU 프로그래밍 개념
GPU는 그래픽에 특화되어 설계되었으며 따라서 연산과 프로그래밍에 있어서 매우 제한적이다. 그 본성에 따라, GPU는 흐름 처리를 이용하여 풀 수 있는 문제에서만 효과적이며 그 하드웨어를 사용하는 방식은 정해져 있다.
흐름 처리(Stream Processing)
GPU는 독립적인 꼭지점들과 프래그먼트만 처리할 수 있지만 다수를 병렬로 처리할 수 있다. 이것은 특히 프로그래머가 같은 방식으로 많은 수의 꼭지점 또는 프래그먼트를 처리하고자 할 때 유용하다. 이런 의미에서, GPU는 흐름 프로세서이다. 즉, 병렬로 한번에 하나의 커널을 흐름 속의 많은 레코드에 실행시키는 것이다.
흐름이란 단순히 유사한 계산을 필요로 하는 레코드의 모음이다. 흐름으로 데이터 병렬성을 구할 수 있다. 커널이란 함수로써 흐름 속의 각 요소에 적용되는 것이다. GPU에서는 꼭지점과 프래그먼트가 흐름 속의 요소이고, 셰이더가 그 위에서 작동하는 커널이다.
GPU가 요소들을 독립적으로 처리하므로 공유되는 또는 정적인 데이터는 없다. 단지 각 요소를 입력으로부터 읽고, 연산을 수행하고, 출력으로 쓸 뿐이다. 다양한 입력과 다양한 출력을 갖는 것은 허용되는 편이나 읽고 쓰기에 모두 사용되는 메모리는 없다.
산술 치열도는 전송되는 메모리 워드 당 연산으로 정의된다. 중요한 것은 GPGPU 응용 프로그램이 높은 산술 치열도를 가지는 것으로 그렇지 않다면 메모리 접근 불확실성이 계산 속도를 제한할 것이다. 이상적인 GPGPU 응용 프로그램의 데이터 집합은 크고, 병렬도는 높고, 데이터 요소간 의존성은 최소이다.
계산 자원(Computational Resources)
GPU가 사용 가능한 계산 자원은 다양하다:
- 프로그램 가능한 프로세서 : 꼭지점, 파이프라인으로 프로그래머는 데이터의 흐름에 커널을 구현할 수 있다.
- 비트맵 변환기(Rasterizer) : 프래그먼트를 만들고 텍스쳐 좌표나 색상등의 상수를 꼭지점에 보간한다.
- 텍스쳐 유닛 : 읽기 전용 메모리 인터페이스
- 프레임 버퍼 : 쓰기 전용 메모리 인터페이스
사실, 프로그래머는 프레임 버퍼 대신 쓰기 전용 인터페이스로 바꿔치기할 수도 있다. 이는 Render-To-Texture(RTT) 또는 Render-To-Backbuffer-Copy-To-Texture(RTBCTT), 아니면 더 최근의 흐름 출력으로 이루어진다.
흐름으로서의 텍스쳐(Textures as Stream)
GPGPU에서 흐름이 취하는 가장 일반적인 형태는 2차원 격자이다. GPU안에 만들어져 있는 랜더링 모델에 알맞기 때문이다. 다수의 계산이 격자 형태로 변환될 수 있다: 행렬 계산, 이미지 처리, 물리 기반 시뮬레이션 등. 텍스쳐가 메모리로 사용되므로 텍스쳐 룩업은 메모리 읽기로 사용된다. 이 덕분으로 어떤 연산은 GPU에 의해 자동으로 이루어진다.
커널(Kernels)
커널은 반복문의 본체라고 생각할 수 있다. 예를 들어 만일 프로그래머가 CPU로 격자행렬을 다룬다면 그 코드는 다음과 비슷할 것이다:
// 입출력 격자는 각각 10000 x 10000 또는 백만 요소를 가지고 있다.
void
transform_10k_by_10k_grid
(float
in
[
10000
][
10000
],float
out
[
10000
][
10000
])
{
for(int
x
=0;
x
<10000;
x
++)
{
for(int
y
=0;
y
<10000;
y
++)
{
// 다음 행이 100만번 실행된다
out
[
x
][
y
]=
do_some_hard_work
(
in
[
x
][
y
]);
}
}
}
GPU상에서 프로그래머가 지정하는 것은 반복문의 본체 부분(커널)과 반복문이 기하 처리할 데이터 뿐이다.
흐름 제어(Flow control)
순차 코드에서는 if-then-else문과 다양한 반복문으로 흐름을 제어하는 것이 가능하다. 최근에야 비로소 이러한 흐름 제어 구조가 GPU에 추가되었다. 조건부 쓰기는 일련의 더 간단한 명령을 쓰는 것으로 이루어질 수 있었지만, 반복문이나 조건부 분기는 불가능했다. 최근의 GPU는 분기를 허용하지만, 보통 성능상 손실을 감수해야 한다. 분기를 일반적으로 안쪽 반복문에서는 피해야 하는 것은 CPU나 GPU나 마찬가지이고, 다양한 기술, 즉, 정적 분기 해소(static branch resolution), 선계산(pre-computation), Z-cull로 하드웨어 지원이 없을 때 분기할 수 있다.
GPU 기법
변환(Map)
변환 연산은 주어진 함수(커널)를 스트림의 모든 요소에 적용한다. 간단한 예로 스트림의 모든 값에 어떤 상수를 곱하는 것이다. (밝기 조절) 변환 연산은 GPU상에서 간단히 구현된다. 프로그래머는 화면의 각 픽셀의 프래그먼트를 생성하고 각각에 프래그먼트 프로그램을 적용한다. 결과로 얻어지는 같은 크기의 스트림이 출력 버퍼에 저장된다.
감축(Reduce)
어떤 계산은 큰 흐름으로부터 작은 흐름(단 한개의 요소만 남을 수도 있다)을 계산해야 한다. 이를 흐름의 감축이라 부른다. 일반적으로 감축은 여러 단계로 이루어질 수 있다. 이전 단계의 결과가 이번 단계의 입력으로 사용되고, 연산이 적용되는 범위가 흐름 요소 하나만 남을 때 까지 반복된다.
흐름 필터링(Stream Filtering)
흐름 필터링은 본질적으로 불균일 감축이다. 필터링은 어떤 기준에 따라 흐름에서 일부 요소를 제거하는 것이다.
흩뿌리기(Scatter)
흩뿌리기 연산은 꼭지점 처리에서 가장 자연스럽게 정의된다. 꼭지점 처리는 꼭지점의 위치를 조정할 수 있어서 프로그래머가 정보를 격자의 어디에 예치하는지 제어할 수 있게 해 준다. 다른 확장도 가능한데, 예를 들어 꼭지점이 영향을 미치는 영역의 크기를 제어하는 것이다. 프래그먼트 처리기는 직접 뿌리기 연산을 수행할 수 없는데, 그 까닭은 격자상에서 각 프래그먼트의 위치는 프래그먼트가 생성될 때 고정되어 프로그래머가 변경할 수 없기 때문이다. 그러나 논리적 흩뿌리기 연산은 추가적인 수집 단계로 때때로 재투사 또는 구현될 수 있다. 흩뿌리기를 구현하려면 먼저 출력값과 출력 주소 모두를 송출해야 한다. 그 직후의 수집 연산은 주소 비교를 통해 출력 값이 현재의 출력칸에 맞아떨어지는지 확인한다.
수집(Gather)
프래그먼트 처리기는 텍스쳐를 임의 방식으로 읽을 수도 있어서 단수/복수의 어떤 격자 칸으로부터도 원하는 대로 정보를 모을 수 있다.
정렬(Sort)
정렬 연산은 순서 없이 뒤섞인 요소 집합을 순서에 따라 정렬된 요소의 집합으로 변환한다. 가장 일반적은 GPU 구현은 정렬망을 이용하는 것이다.
탐색(Search)
탐색 연산으로 프로그래머는 흐름 안의 특정 요소 또는 특정 요소의 이웃 요소를 찾을 수 있다. GPU는 한 요소를 찾는 속도를 올리기 위해 사용되지는 않지만 대신 여러 탐색을 병렬로 실행하는 데 사용된다.
자료 구조(Data Structure)
다양한 자료 구조가 GPU상에서 표현될 수 있다:
- 고밀도(Dense) 배열
- 저밀도(Sparse) 배열 : 정적, 또는 동적
- 적응(Adaptive) 구조
<자료출처 : 위키>
'가상' 카테고리의 다른 글
전자정부 프레임워크 (2) | 2009.12.23 |
---|---|
GPU 프로그래밍의 시작, CUDA (0) | 2009.12.22 |
OOPrinciples SOLID (0) | 2009.11.23 |
웹접근성을 준수하는 [탭] 코딩 (2) | 2009.07.24 |
디버깅 원칙 3가지 (4) | 2009.06.10 |