딥러닝 GPU 비교 실험기 — GTX 1060부터 1080 Ti SLI까지 직접 테스트해봤습니다

2020년 5월에 게임용 PC를 딥러닝 워크스테이션으로 전환하면서 GPU를 4종 갈아끼워 비교 테스트해본 기록입니다. GTX 1060 6GB를 기준점으로 삼아 GTX 1070, GTX 1080 Ti, 마지막으로 GTX 1080 Ti SLI 구성까지 순서대로 올려가며 실제 딥러닝 학습 코드를 돌려봤습니다. 결론부터 말씀드리면, 단일 GPU 기준으로는 GTX 1080 Ti가 가성비 최고였고, SLI는 연산 속도 향상이 아니라 메모리 확장 목적으로만 유용하다는 점을 확인했습니다. 다만 이 결론에 이르기까지 발열, CPU 병목, SLI의 현실 등 꽤 많은 시행착오가 있었습니다. 그 과정을 순서대로 정리했습니다.

왜 GTX 1060에서 1080 Ti로 업그레이드했나

게임용으로 조립해둔 PC에 Ubuntu 18.04를 설치하고 딥러닝 프로젝트를 시작했는데, 모델 학습 시간이 너무 오래 걸리는 게 발목을 잡았습니다. 당시 최신 라인업이었던 RTX 2070 Super, RTX 2080, RTX 2080 Ti는 가격이 너무 부담스러웠습니다.

대안을 찾던 중 RTX 20시리즈보다 한 세대 이전인 GTX 1080 Ti가 벤치마크 수치상 딥러닝 성능이 여전히 준수하다는 걸 알게 됐습니다. 그런데 문제가 있었습니다. 게임 벤치마크 자료는 넘쳐나는데, 정작 머신러닝·딥러닝에 특화된 성능 비교 자료는 찾기 어려웠습니다. 결국 직접 테스트해보기로 결심했습니다.

테스트 환경

테스트 진행 중 케이스·PSU·CPU를 교체하게 됐는데, 초기 구성과 업그레이드 후 사양을 정리하면 아래와 같습니다.

구성 요소초기 구성업그레이드 후
CPUAMD Ryzen 7 1700 (3.6GHz, 오버클럭)AMD Ryzen 5 3600
RAMCorsair 32GB DDR4 3000MHz16GB DDR4 2400MHz (32GB는 제조사 A/S 중)
OSUbuntu 18.04Ubuntu 18.04
케이스미들타워빅타워 (발열 문제로 변경)
PSU (전원공급장치)미상1000W (SLI 구성용)

테스트한 GPU는 다음 4종입니다.

  • GTX 1060 6GB (기존 GPU, 기준점)
  • GTX 1070 8GB
  • GTX 1080 Ti 11GB
  • GTX 1080 Ti SLI (11GB × 2)

테스트 방법: GTX 1060 6GB에서 약 90% GPU 사용률을 보이는 딥러닝 코드를 기준 워크로드로 정하고, 각 GPU 구성에서 동일 코드의 실행 시간을 측정했습니다. 완전히 동일한 조건이라고 단언하기는 어렵고, 개략적인 성능 차이를 파악하는 데 목적을 뒀습니다.

GPU별 결과 비교

GTX 1060·1070·1080 Ti·SLI 4종 딥러닝 학습 시간 비교 차트

GTX 1060 6GB — 기준점

GTX 1060 6GB nvidia-smi 화면 — GPU 사용률 96%, 학습 실행 결과

기존에 사용하던 GTX 1060 6GB입니다. 딥러닝 학습 코드를 돌리면 학습 시간이 상당히 오래 걸렸고, 6GB 메모리 제한으로 배치 크기도 작게 유지해야 했습니다. 일상적인 딥러닝 실험을 반복하기에는 분명한 한계가 있었고, 이것이 업그레이드를 결심하게 된 직접적인 이유였습니다.

GTX 1070 8GB — 약 30% 향상

GTX 1070 8GB nvidia-smi 화면 — GPU 사용률 96%, 학습 실행 결과

GTX 1070으로 교체하자 GTX 1060 대비 약 30% 성능이 향상됐습니다. 메모리가 8GB로 늘어나면서 더 큰 모델과 배치 크기를 시도해볼 수 있게 됐습니다. 체감상 확실한 차이가 있었지만, 딥러닝 학습 특성상 긴 시간이 여전히 필요했고 “좀 더 올려보자”는 욕심이 생겼습니다.

GTX 1080 Ti 11GB — 약 2.5배 향상

GTX 1080 Ti 11GB nvidia-smi 화면 — GPU 사용률 87%, 학습 실행 결과

GTX 1080 Ti로 올라가자 GTX 1060 대비 약 2.5배 성능 향상이 확인됐습니다. 11GB 대용량 메모리 덕분에 복잡한 딥러닝 모델 학습도 메모리 걱정 없이 진행할 수 있었습니다. 이 시점에서 “이 정도면 개인 딥러닝 워크스테이션으로 충분하겠다”는 생각이 들었습니다.

CPU 병목 발견 — Ryzen 5 3600으로 교체

그런데 1080 Ti를 달았는데도 성능 향상폭이 기대보다 작았습니다. 원인을 파고들었더니 Ryzen 7 1700 + GTX 1080 Ti 조합에서 CPU 병목 현상이 나타나고 있었습니다. GPU가 고성능으로 올라가면서 상대적으로 CPU가 발목을 잡는 상황이었습니다.

이를 해결하기 위해 Ryzen 5 3600으로 CPU를 교체했습니다. 교체 전 수치는 당시 따로 기록해두지 않았지만, CPU 교체 후 동일한 코드의 실행 시간이 211초로 눈에 띄게 단축됐습니다. 고성능 GPU를 제대로 활용하려면 CPU 수준도 함께 받쳐줘야 한다는 걸 몸소 확인한 순간이었습니다. 사실 Ryzen 7 3700X로 업그레이드했다면 더 좋은 결과를 얻었을 것 같다는 아쉬움도 남습니다.

참고로 당시 RAM은 32GB 3000MHz가 제조사 A/S 중이어서, 16GB 2400MHz 환경에서 테스트가 진행됐습니다.

GTX 1080 Ti SLI — 연산보다 메모리 확장에 특화

SLI는 NVIDIA가 지원하는 멀티 GPU 연결 방식으로, 두 GPU를 하나의 시스템처럼 묶어 쓰는 기술입니다. 1080 Ti 두 장을 SLI로 연결해봤습니다. 메모리 용량은 늘어났지만, 연산 속도 자체는 크게 향상되지 않았습니다. SLI가 딥러닝 연산 속도를 두 배 가까이 끌어올려줄 거라는 기대는 맞지 않았습니다.

장점: 메모리 확장에서 빛난다

SLI 구성이 실질적으로 도움이 됐던 부분은 메모리 관련 활용이었습니다.

  • 더 큰 배치 사이즈: 두 GPU의 메모리를 합산해 배치 크기를 키울 수 있습니다.
  • 더 복잡한 모델 구현: 단일 GPU로는 메모리가 부족한 대형 모델을 올릴 수 있습니다.
  • 여러 모델 동시 학습: 두 GPU에 서로 다른 모델을 동시에 분산해 학습시킬 수 있습니다.

단점 ①: 발열

게임은 보통 3~4시간 정도 GPU를 풀로드하면 끝나지만, 딥러닝 학습은 며칠간 쉬지 않고 이어지는 경우가 많습니다. 두 장의 1080 Ti가 동시에 풀로드되면 발열이 심각해집니다. 미들타워에서 빅타워로 케이스를 통째로 바꿨는데도 공랭 쿨링은 역부족이었습니다. 딥러닝 특유의 장시간 풀로드를 게임용 냉각 구성으로 감당하기엔 한계가 있다는 걸 실감했고, 향후 수냉 도입을 진지하게 고민하게 된 계기가 됐습니다.

단점 ②: 전력 소비

SLI를 구성하면서 PSU를 1000W로 바꾸게 됐습니다. 퀘사이존(quasarzone.com) GPU 전력 소비 벤치마크 자료를 찾아봤더니, 1080 Ti SLI 구성은 순간 최대 650W의 전력을 소비한다는 수치가 나왔습니다. GPU 한 장 TDP가 250W이니 두 장 합산 500W를 훌쩍 넘는 수준인데, 수치를 보고 나니 1000W PSU 교체가 불가피하다는 게 납득이 됐습니다.

단점 ③: 딥러닝 프레임워크에서의 제한

가장 핵심적인 문제입니다. 게임이나 3D 렌더링은 SLI를 공식 지원해서 두 배 가까운 성능을 뽑아낼 수 있다고 하더라고요. 근데 딥러닝 프레임워크는 얘기가 달랐습니다. TensorFlow, PyTorch 같은 프레임워크는 멀티 GPU 통신에 NCCL(NVIDIA Collective Communications Library) 같은 소프트웨어 레이어를 통해 동기화합니다. 이 과정에서 GPU 간 데이터 교환이 병목이 되어, SLI 하드웨어 대역폭을 충분히 살리기 어렵습니다. 연산 속도 향상이 기대치에 훨씬 못 미치는 게 현실이었습니다.

결론: 가성비 딥러닝 머신

GPU 4종을 직접 갈아끼워 테스트해본 결론은 다음과 같습니다.

  1. GTX 1080 Ti 단일이 가성비 최고: GTX 1060 대비 약 2.5배 성능을 내면서 11GB 대용량 메모리로 복잡한 모델 학습도 소화합니다. 최신 RTX 워크스테이션이 부담스럽다면, RTX 20시리즈보다 한 세대 이전인 GTX 1080 Ti는 여전히 강력한 가성비 선택지입니다.
  2. SLI는 메모리 확장 목적: 연산 속도를 끌어올리고 싶다면 SLI보다 상위 단일 GPU를 선택하는 것이 낫습니다. SLI는 대형 모델이나 여러 모델 동시 학습이 필요할 때 메모리 측면에서 유용합니다.
  3. CPU·GPU 균형이 중요: GPU를 올리면서 CPU 병목을 간과하면 성능을 충분히 뽑아내지 못합니다. Ryzen 3000 시리즈 수준의 CPU와 함께 구성하는 것을 권장합니다.
  4. 발열 관리를 처음부터 계획: 게임용 냉각 구성으로는 장시간 딥러닝 학습에 부족합니다. 빅타워 + 충분한 공랭, 또는 수냉 도입을 처음부터 염두에 두는 것이 좋습니다.

가성비 딥러닝 머신을 직접 조립해보려는 분들께 조금이라도 도움이 됐으면 합니다.

Similar Posts