스타트업 그로크(groq) 차세대 추론 엔진 인공지능(AI)칩 공개

스타트업 그로크(groq) 차세대 추론 엔진 인공지능(AI)칩 공개

부루퉁의AI

미국 반도체 스타트업 기업 그로크(Groq)가 챗GPT와 같은 실시간 채팅 모델의 새로운 인공지능(AI) 추론 칩을 공개했습니다. 이 AI 추론 칩은 '언어 처리 장치(LPU)'라고 부르는데 AI 연산을 매우 빠르고 효율적으로 처리할 수 있는 작은 컴퓨터 부품입니다.

Groq LPU의 성능

Groq칩셋에서 실행한 LLaMA2의 답변 생성속도

먼저 LPU는 챗GPT, 그록, LLaMa, 제미나이 등과 같은 LLM의 실행 속도를 높이는 추론에 특화된 칩으로, 사용자의 질문에 대한 답변을 순식간에 생성합니다.

Groq가 공개한 LPU의 성능은 5120개의 벡터 ALU(산술 논리 장치)를 포함하고 있습니다. 또한 320*320 크기의 행렬 곱셈을 지원해 INT8 연산에서 750TOPS(1초당 1조번의 AI 연산), FP16 연산에서 188TFLOPS을 달성하며, TSP 아키텍처를 기반으로 하는 단일 코어 장치입니다. 이 장치는 초당 80TB의 대역폭을 갖춘 230MB의 로컬 SRAM을 제공합니다.

위 내용에 대해 쉽게 풀어서 설명하면, 우선 LPU는 크게 두 부분으로 나눌 수 있습니다.

  1. 벡터 ALU(산술 논리 장치): 간단한 수학 연산(사칙연산)을 처리합니다. 이런 연산을 동시에 수천개 처리할 수 있는 5120개의 ALU가 있다는 것입니다.
  2. TSP(Tensor-Sreaming Processor): 복잡한 AI연산, 특히 대량의 데이터를 처리하는 행렬 곱셈에 특화된 것을 말합니다. 이 칩은 INT8(정수 연산)에서 초당 750조번, FP16(부동 소수점 연산)에서 초당 188조 번의 연산을 수행할 수 있습니다. 즉, Groq의 LPU가 AI연산을 엄청나게 빠른 속도로 처리할 수 있다는 것입니다.

스타트업 Groq 삼성전자와 파트너십도 체결

2016년 구글 엔지니어 출신들이 창업한 스타트기업 Groq는 삼성전자 파운드리에서 차세대 AI칩을 생산하기로 했습니다. 이번 AI칩은 삼성전자가 건설 중인 텍사스주 테일러공장에서 내년후부터 생산될 예정입니다.

삼성전자의 텍사스 오스틴 공장은 현재 14나노대 반도체를 생산하고 있으며, 테일러 공장은 4나노 칩생산을 위해 올해 연말 완공을 목표로 건설하고 있습니다.

HBM뿐만 아니라 AI연산 LPU까지 수많은 AI반도체가 개발 및 생산되고 있습니다. 어쩌면 AGI라는 나무는 더이상 오르지못할 나무가 아니라는 생각이 듭니다.

부루퉁의AI 네이버 블로그: https://blog.naver.com/ldlquddnr

Comments