새로운 플레이스테이션 5 프로(PS5 Pro)가 발표되거나, 엔비디아(Nvidia)의 최강 그래픽 카드 RTX 시리즈가 공개될 때마다, 그리고 수백억 달러 규모의 챗GPT(ChatGPT) 훈련용 AI 슈퍼컴퓨터 클러스터가 구축될 때마다 마케터들이 빼놓지 않고 자랑스럽게 외치는 무적의 단어가 하나 있습니다. 바로 'TFLOPS(테라플롭스)' 입니다.
우리는 흔히 테크 유튜버나 벤치마크 기사에서 "A 콘솔은 10 테라플롭스인데, B 콘솔은 12 테라플롭스라서 B가 훨씬 우월하다" 거나 "엔비디아의 새로운 AI 칩셋은 4,000 테라플롭스를 달성했다" 라는 식의 숫자를 수없이 접하게 됩니다.
하지만 도대체 TFLOPS가 무엇을 측정하는 단위이길래, 원래 국가의 명운을 건 군사용 핵 시뮬레이션 슈퍼컴퓨터에나 쓰이던 그 단어가 어떻게 오늘날 50만 원짜리 거실용 게임기와 수백억 원짜리 AI 훈련용 데이터센터를 평가하는 절대적인 마법의 숫자가 되었을까요?
컴퓨팅 연산 파워가 지난 수십 년간 얼마나 기하급수적으로(Exponentially) 폭주해 왔는지, 그 숨 막히는 "플롭스(Flop) 연산 전쟁" 의 타임라인을 되짚어보겠습니다.
🧮 FLOP(플롭)의 해부학: 소수점의 마법
역사의 타임라인을 걷기 전에, 먼저 이 단위가 무엇을 뜻하는지 아주 쉽게 정의해 보겠습니다.
FLOPS 는 Floating Point Operations Per Second (초당 부동소수점 연산 횟수) 의 약자입니다. 여기서 '부동(Floating)'이라는 말은 둥둥 떠다닌다는 뜻입니다. 즉, 소수점의 위치가 고정되어 있지 않고 숫자의 크기에 따라 자유롭게 둥둥 떠다니며 이동할 수 있는 숫자 표기법(Floating point)을 의미합니다.
왜 굳이 이렇게 복잡한 소수점 연산을 잴까요?
게임 속에서 스포츠카 표면에 반사되는 빛의 미세한 굴절 각도를 계산하거나, 인공지능(AI) 신경망 안에서 뉴런이 다른 뉴런으로 전달되는 미세한 '가중치(Weights)' 수치를 곱하고 더할 때는 1이나 2 같은 딱 떨어지는 정수 계산이 아니라, 0.0003421... 처럼 몹시 정밀하고 끝없는 소수점 계산이 수없이 필요하기 때문입니다. 그래픽 카드(GPU)가 빗방울 하나를 화면에 그려낼 때, 그 내부에서는 수백만 번의 소수점 수학 문제가 미친 듯이 풀리고 있는 셈입니다.
우리는 이 수학 문제를 1초에 몇 개나 푸느냐에 따라 다음 단위들을 씁니다:
- 메가플롭스 (MFLOPS): 1초에 100만 번의 부동소수점 연산.
- 기가플롭스 (GFLOPS): 1초에 10억 번의 연산.
- 테라플롭스 (TFLOPS): 1초에 1조(1,000,000,000,000) 번의 연산.
자, 이제 인류가 언제 처음으로 "초당 1조 번"이라는 미지의 장벽을 깼는지 시계를 과거로 돌려봅시다.
🚀 1999년: "인류 최초의 테라플롭스" - 국가 기밀 슈퍼컴퓨터 ASCI Red
1999년 밀레니엄 버그(Y2K)가 세상을 휩쓸던 시기, 미국 에너지부는 핵실험을 가상으로 시뮬레이션하기 위해 "ASCI Red(아스키 레드)" 라는 거대한 슈퍼컴퓨터를 완성합니다. 축구장 절반만 한 넓은 체육관에 수백 개의 캐비닛을 줄지어 세워 놓은 이 거대한 괴물은, 인류 역사상 최초로 1 테라플롭스(TFLOPS)의 연산 장벽을 부수며 최대 1.3 TFLOPS 속도에 도달했습니다.
이 컴퓨터를 만드는 데 무려 5,500만 달러(약 700억 원) 가 투입되었고, 작동하는 데만 850킬로와트(kW) 수준의 전기와 이 어마어마한 열기를 식히기 위한 초대형 에어컨 단지 십수 대가 필요했습니다.
정확히 같은 연도(1999년)에, 전 세계 게이머들은 세가(Sega)가 만든 '드림캐스트(Dreamcast)' 라는 거실용 콘솔 게임기를 즐기고 있었습니다. 이 작고 하얀 게임기에 탑재된 그래픽 칩셋의 연산 능력은 약 1.4 기가플롭스(0.0014 TFLOPS) 였습니다. 1999년 당시, 최상위 국가 군사용 슈퍼컴퓨터와 소비자용 전자기기 사이에는 자그마치 '1,000배'라는 압도적이고 넘을 수 없는 우주적인 격차가 존재했습니다.
🎮 2000년: 과장 광고와 열정의 "이모션 엔진 (Emotion Engine)"
소니(Sony)가 역사적인 게임기 플레이스테이션 2(PS2)를 출시했습니다. 당시 소니의 마케팅 캠페인은 지금도 회자될 만큼 전설적이었습니다. 그들은 PS2에 탑재된 맞춤형 프로세서인 '이모션 엔진'이 진짜 사람의 감정을 실시간으로 연산해 낸다며 다소 터무니없는 홍보를 했죠. PS2 프로세서는 이론적인 최대치로 약 6.2 기가플롭스를 밀어낼 수 있었습니다. 닌텐도 64나 PS1에 비하면 비약적인 상승이었지만, 우리는 여전히 기가(Giga)의 시대에 머물러 있었습니다. 테라플롭스라는 고지는 아직 소비자들에겐 SF 소설 속 이야기였죠.
📺 2006년: HD 혁명과 "병렬 연산의 발견"
플레이스테이션 3(PS3)와 엑스박스 360(Xbox 360)이 고해상도(HD, 720p/1080p) 게이밍 시대를 화려하게 열었습니다. 늘어난 엄청난 수의 픽셀들을 부드럽게 렌더링하기 위해서, 콘솔 기기들의 연산 능력은 폭력적으로 공격적인 확장을 시작했습니다. Xbox 360의 GPU 설계는 대략 240 기가플롭스 (0.24 TFLOPS) 언저리의 처리 능력을 갖추었습니다.
바로 이 시기에 컴퓨터 공학자와 수많은 대학교 연구원들이 한 가지 기묘하고도 매력적인 사실을 깨닫게 됩니다. "GPU(그래픽 처리 장치)가 폴리곤을 그리기 위해 수행하는 고도로 반복적인 단순 소수점 연산 능력이, 사실 복잡한 과학 연산 수학 문제들을 '병렬로(Parallel)' 쪼개서 한꺼번에 푸는 데 기가 막히게 접합하다"는 사실 말입니다. 이 깨달음으로 인해 대학교 연구소들이 슈퍼컴퓨터를 비싸게 사는 대신, PS3 게임기를 수백 대씩 왕창 사 들여 그것들을 병렬로 묶어 '가성비 저렴이 슈퍼컴퓨터'를 만드는 유행이 번지기도 했습니다. 현대 GPU 컴퓨팅의 씨앗이 싹트기 시작한 순간입니다.
💥 2013년: 마침내, 거실로 들어온 "1조 번의 연산 (TeraFLOP Barrier Broken)"
플레이스테이션 4(PS4)와 Xbox One의 출시 연도인 2013년은 컴퓨팅 역사에 기념비적인 순간입니다. 마침내 1999년의 거대한 군사용 슈퍼컴퓨터 'ASCI Red'의 능력이 평범한 시민들의 거실 TV 밑으로 배달되기 시작했기 때문입니다.
표준형 PS4는 내부에 탑재된 AMD GPU를 통해 무려 1.84 TFLOPS의 연산 속도를 뿜어냈습니다.
한 번 상상해 보십시오. 불과 14년 전(1999년) 700억 원의 국가 예산을 붓고 축구장만 한 크기의 냉각 시스템을 돌려야 했던 국가 1급 기밀의 슈퍼컴퓨터보다, 고작 399달러(약 50만 원)를 주고 마트에서 장바구니에 담아온 얇고 세련된 플라스틱 콘솔 박스 하나가 수학적(Computational)으로 더 강력한 시대를 맞이한 것입니다. 심지어 전기는 헤어드라이어의 10분의 1 수준밖에 먹지 않으면서 말이죠. 실리콘 집적 회로의 발전, 즉 "무어의 법칙(Moore's Law)"이 보여준 폭력적일 만큼 무서운 기적입니다.
⛏️ 2017년: 암호화폐 채굴과 딥러닝 AI의 폭발
엔비디아(Nvidia)가 전설 명기라 불리는 GTX 1080 Ti를 PC 게이머들을 위해 출시했습니다. 단일 그래픽 카드 하나가 뿜어내는 연산량은 무려 11.3 TFLOPS 에 달했습니다.
하지만 이 막대한 컴퓨팅 파워는 더 이상 '단순히 게임 프레임'을 더 부드럽게 뽑아내는 역할에만 머무르지 않았습니다. 세상이 바뀌기 시작한 것입니다.
비트코인과 이더리움 같은 암호화폐 채굴자(Miners)들이 이 엄청난 처리량에 주목했습니다. 암호화 알고리즘 해시값을 푸는 것 역시 GPU가 제일 잘하는 '병렬 소수점 연산'이었기 때문이죠. 시중의 그래픽 카드 씨가 마르기 시작했습니다. 그 직후, 세계의 딥러닝 인공지능(AI) 연구원들이 결정적인 돌파구를 찾았습니다. 당시 기초 단계에 있던 거대한 신경망(Neural Networks, 지금의 챗GPT 라지 모델 아키텍처의 프로토타입)을 훈련시키기 위해서는 살인적인 양의 거대한 행렬곱 연산(Matrix Multiplications)이 필요했는데, 이것이야말로 GPU가 태생적으로 가장 뛰어나게 수행하는 작업이었습니다. 이때부터 "플롭(Flop)" 이라는 단위는 단순한 게임 성능을 넘어선 미래 산업의 화폐(Currency) 그 자체가 되어버렸습니다.
🗡️ 2020년: 현행 9세대 콘솔 경쟁과 플롭스의 한계
플레이스테이션 5(PS5)와 Xbox Series X 간의 치열하고 진흙탕 같은 마케팅 전쟁 속에서 "TFLOPS"는 가장 중요한 간판 성능 지표로 내걸렸습니다.
- PS5의 기본 출력 한계치는 10.28 TFLOPS입니다.
- Xbox Series X의 출력 한계치는 12.15 TFLOPS입니다.
종이 스펙 위에서는 분명 엑스박스가 우위에 있었지만, 진짜 게임을 플레이해 본 유저들과 수많은 벤치마커 리뷰어들은 곧 중요한 팩트를 하나 깨닫게 됩니다: "TFLOPS 숫자의 높고 낮음이 전체 시스템의 실제 퍼포먼스를 무조건 대변하지는 않는다" 는 사실입니다.
VRAM 메모리의 대역폭, 초고속 NVMe SSD의 미친 듯한 읽기/쓰기 속도, 그리고 CPU 아키텍처의 캐시 메모리 설계 효율이 게임의 프레임을 뽑아내는데 오히려 훨씬 더 강력한 영향을 미쳤습니다. 플롭스(FLOPS) 숫자를 세는 것은 마치 자동차 엔진의 '마력(Horsepower)' 숫자만 자랑하는 것과 같습니다. 마력이 아무리 높아도 코너링 서스펜션과 타이어 그립, 변속기의 효율이 안 좋으면 레이싱 트랙에서 무거운 고철덩어리가 될 뿐이듯, 게임 그래픽의 체감 성능을 플롭스 하나만으로 맹신할 수는 없습니다.
🧠 2024년: 거대 인공지능 슈퍼-가속기(Super-Accelerator)의 시대
오늘날, 세상의 돈과 권력은 더 이상 콘솔 게임기의 플롭스 경쟁을 비교하지 않습니다. 구글, 메타, 마이크로소프트, 오픈AI는 이제 수천억 원짜리 AI 서버 랙(Rack)의 연산 파워를 비교합니다.
오직 AI 트레이닝만을 위해 극단적으로 진화, 설계된 엔비디아의 현행 플래그십 서버용 GPU H100 텐서 코어 하나는, FP8(8비트 부동소수점 정밀도) 포맷 기준으로 입이 떡 벌어지는 3,958 TFLOPS (약 4 PetaFLOPS) 라는 경이롭고 무식한 수준의 연산 능력을 쏟아냅니다.
인류의 반도체 발전 역사가 내디딘 발걸음을 한눈에 보시겠습니까?:
- 1999년 최강 슈퍼컴퓨터: 1 TFLOP (유지보수 빼고 기계값만 700억 원)
- 2024년 H100 GPU 칩 단 하나: 약 3,900 TFLOPS (칩 하나당 가격 약 4,000만 원)
칩 하나가 과거 핵실험용 컴퓨터 수천 대의 힘을 냅니다.
💡 결론: 우리에게 계속해서 더 많은 플롭스가 필요할까? (The Law of Diminishing Returns)
게이머 입장이라면 무한한 테라플롭스가 더 이상 절실하지 않을 수 있습니다. 우리는 이미 엄청난 빛의 굴절과 반사 효과(Ray-Tracing 레이트레이싱)를 먹이면서도 4K 해상도로 초당 60프레임을 뽑아내는 시대에 살고 있습니다. 일정 수준 이상의 테라플롭스가 넘어가면, 인간의 눈은 그 미세한 그래픽 증가분을 체감하지 못하는 '수확 체감의 법칙' 또는 '인지적 상한선'에 부딪힐 것입니다.
하지만 인공지능(AI)의 학습에는 여전히 보이지 않는 천장(Ceiling)이 존재하지 않습니다. 인간의 뇌신경 구조를 무식하게 모델링하는 초거대 언어 모델(LLM, Large Language Models)을 훈련시키거나 고해상도 영상을 단 몇 초 만에 척척 생성해 내는 생성형 AI의 발전 속도는 말 그대로 무한한 부동소수점 연산 양을 걸신들린 듯이 탐식하고 있습니다. 전 세계 테크 거인들은 이제 테라플롭스의 다음다음 단위인, 1초에 무려 100경(Quintillion) 번을 연산해 내는 '엑사스케일(Exascale) 레이스' 에 본격적으로 뛰어들었습니다.
다음번 IT 뉴스나 유튜브 채널에서 최신 스마트폰 모델이 발표되며 가볍게 "저희의 새로운 AP 칩은 50 TFLOPS의 강력한 성능을 마크했습니다" 라고 말한다면, 1999년의 축구장 만했던 5,500만 달러짜리 아스키 레드를 한번 떠올리며 빙긋 썩소를 지어보시길 바랍니다. 당신 손바닥 위에 놓인 평범한 모래(실리콘) 덩어리가 지난 20년간 어떻게 진화해 왔는지 그 "경이로운 마법의 가치"를 더욱 선명하게 느낄 수 있을 것입니다.
