경불진 이피디의 경제공부방

[이피디픽]딥시크 갓성비 비법은 ‘증류’?!···미 스탠퍼드대 활용한 이유는? 본문

카테고리 없음

[이피디픽]딥시크 갓성비 비법은 ‘증류’?!···미 스탠퍼드대 활용한 이유는?

경불진 이피디 2025. 2. 16. 07:06
반응형

 

“우린 50달러면 돼.”

 

이게 무슨 말일까요? 미국 대학 연구진이 단돈 50달러(73000)라는 초저비용으로 AI 모델을 개발했다고 주장했습니다. 이 주장이 사실이라면 딥시크 만큼이나 큰 충격을 줄 수 있을텐데요. 과연 사실일까요?

 

일단 주장한 곳의 네임밸류를 보면 믿을 수 밖에 없을 듯합니다. 그 유명한 미국의 스탠퍼드대와 워싱턴대 AI 연구진이 논문을 통해 이런 주장을 했기 때문인데요. 그래서 이들의 주장을 살펴보도록 하겠습니다.

 

일단 두 대학 연구진이 개발한 것은 AI ‘추론모델입니다. 모델명은 ‘s1’, 딥시크의 R1을 의식한 듯한 이름이죠. 45페이지 분량의 논문을 보면 연구팀은 알리바바(Alibaba)의 오픈소스 모델인 큐원 2.5(Qwen 2.5)를 기반으로 s1을 개발하고 구글 '제미나이 2.0 플래시 싱킹 실험‘(Gemini 2.0 Flash Thinking Experimental)’ 모델을 활용해 추론 능력을 학습했습니다. 그 결과 오픈AI‘o1’ 및 중국 딥시크 ‘R1’ 모델과 비슷한 수준의 수학 및 코딩 문제 해결 능력을 보여줬다고 주장합니다.

 

연구진은 깃허브(GitHub) 웹서비스에 관련 데이터, 코드와 함께 s1 모델을 올려 누구나 사용할 수 있도록 했는데요. 여기서 주목할 만한 내용이 있습니다. 연구팀은 특별히 모델을 개발하는 대신 흔하게 구할 수 있는(off-the-shelf) 기본 모델을 토대로 AI를 구축했다고 밝혔습니다. 이게 무슨 소리일까요? 딥시크도 활용한 것으로 추정되는 이른바 증류(distillation)’ 기술을 통해 이를 정교하게 다듬었다는 건데요.

 

AI에서 갑자기 증류라니 뭔소리일까요? 증류는 끓는 점의 차이를 이용해 액체 상태의 혼합물을 분리하는 방법이죠. 흔히 소주 등 술을 만들 때 쓰는 방식입니다. 우리가 흔하게 먹는 소주는 화학주고 안동소주 등이 바로 증류 방식으로 만든 술이죠. 그러면 딥시크나 스탠퍼드대가 데이터를 끓였다는 이야기일까요?

AI에서의 증류는 ‘knowledge Distillation’이라고 합니다. 대량의 데이터를 학습한 대형의 AI 모델(교사 모델)로부터, 계산 속도가 빠른 소형의 AI 모델(학생 모델)에 지식을 이전하는 기술을 가리키죠. 예를들어 선생님이 수십년 배운 지식을 학생들에게 어떻게 가르치나요? 자신이 공부한대로 가르치지는 않죠. 수많은 시행착오를 겪어 쌓은 지식 중 액기스를 학생들에게 알려주잖아요. 요점정리도 하고 꼭 외어야 할 것만 뽑아주기도 하죠.

 

지식증류도 마찬가지입니다. 정보의 바다 속에서 가장 필요한 것만 뽑는다는 거죠. 그러니까 증류라는 이름을 붙습니다. 이를 기가막히게 표현한 인터넷 만화가 있습니다.

 

귀여운 고양이 두 마리가 나오는데 오픈AI라는 고양이는 크고 넓은 데이터 바다에서 낚시를 하고 있습니다. 잡은 물고기는 챗GPT라는 양동이에 담아놨죠. 그런데 딥시크라는 고양이가 나중에 오던 데이터 바다에서 낚시를 하는 것이 아니라 챗GPT 양동이에서 낚시를 합니다. 당연히 시간도, 돈도 적게 들겠죠. 만일 낚시터에서 이런 일이 벌어진다면 어떻게 될까요? 아마 난리가 나겠죠. 자신이 잡은 물고기를 넣어둔 양동이에 낚시대를 들이대는 놈을 가만 나둘리 없잖아요. ‘도둑놈 심보라며 주먹을 날릴 지도 모릅니다.

 

그런데 딥시크나 스탠퍼드대가 이용한 증류 방식의 기본 개념이 바로 이 만화와 비슷합니다. 다른 고양이, 즉 딥시크 등이 잡아 놓은 물고기 양동이에 낚시대를 들이미는 방식이라는 거죠. 물론 도둑놈 심보 같지만 이런 방식을 이용하면 더 큰 모델의 성능을 비슷하게 구현하면서도 더 가벼운 기기에서, 더 빠른 속도로 AI를 가동할 수 있습니다. 그러니 딥싱크에 갓성비라는 수식어가 붙고 스탠퍼드대도 바로 따라한 것으로 보입니다.

 

물론 딥시크 갓성비의 비법이 증류에만 있는 것이 아닙니다. 훈련비용을 줄이는 비법이 기발한데요. 기존 오픈AI AI 기업들은 연산의 결과가 맞는지 틀리는 지를 어떻게 검증했을까요? 바로 사람이 했습니다.

 

예를들어 ‘AI의 증류 기법이 뭔가요?’라는 질문에 인터넷 상에 있는 다양한 내용을 추론해 챗GPT가 대답을 하면 그걸로 끝나는 것이 아니죠. 앞서 언급한 것처럼 지식증류를 제대로 설명했을 수도 있지만 엉뚱하게 소주 증류 방식을 알려줄 수도 있죠. 실제로 챗GPT가 처음 나왔을 때 한국의 대통령은?’이란 질문에 윤석열이 아니라 돌아가신 노무현 대통령이라고 답하기도 했잖아요. 이런 오류를 할루시네이션이라고 하죠.

하지만 이제는 이런 오류가 많이 사라졌는데요. 바로 대답을 사람이 일일이 검증했기 때문입니다. 그런데 이런 검증을 알바생을 써서 했을까요? 쉽지 않죠. 전문적인 질문에 대한 검증을 아무나 할 수 없잖아요. 따라서 오픈AI 등은 수많은 석박사 인력을 이런 검증에 투입했다고 합니다. 그래서 훈련비용이 엄청나게 들어갈 수 밖에 없었죠.

 

그러면 딥시크는 이런 엄청난 비용을 어떤 방식으로 줄였을까요? 바로 석박사가 아니라 석박사 급의 AI를 활용했습니다. AIAI로 검증한다는 거죠. 사람 대신 AI를 썼으니 비용이 급감할 수 밖에 없겠죠. 갓성비의 비법이 바로 이런 역발상에 있습니다.

 

이에 대해 AI 업계는 게임의 법칙이 바뀌고 있다고 설명합니다. 다들 아시다시피 딥시크가 개발 경과를 설명한 기술보고서에 따르면, 개발 비용이 약 5576000달러(80억원)입니다. 오픈AI(GPT-4)18분의 1, 메타(라마 3.1)10분의 1 수준 밖에 안되죠. AI 개발은 규모()의 경쟁이라는 공식이 더 이상 통하지 않는다는 거죠.

 

이에대해 이정동 서울대 공대 교수는 미국 오픈AI가 새로운 기술을 선보인 과학적 혁신을 일으켰다면, 중국 딥시크는 새롭지는 않지만 효율성을 높인 엔지니어링 혁신을 이뤄낸 것이라고 평가했습니다.

 

딥시크의 성공을 보고 많은 기업들이 따라할 것입니다. 이미 스탠퍼드대와 워싱턴대도 결과물을 내놨잖아요. 이보다 앞서 버클리대 연구팀도 지난달 이 증류 기술을 이용해 약 450달러에 AI 추론 모델을 만든 바 있습니다.

 

물론 이런 비법이 계속 통할지는 미지수입니다. 오픈AI 같은 기업이 계속 엄청난 투자를 통해 고기를 잡아야 하는데 잡은 고기를 이런 방식을 빼앗길 수 있다면 그냥 있을까요? 양동이에 낚시를 들이밀지 못하도록 방어망을 칠 수 있습니다. 만일 이런 방어막이 불가능하다면 누가 처음 물고기를 잡으려고 할까요? 모두 남이 잡아 놓은 물고기가 담긴 양동이만 노린다면 결국 아무도 물고기를 잡지 않는 구성의 오류에 빠질 수도 있습니다.

 

이 때문일까요? 마이크로소프트(MS), 알파벳, 아마존, 메타플랫폼스 등 대형 클라우드 업체 빅4는 올해에도 AI에 대대적인 투자를 강행할 계획입니다. MS800억달러, 알파벳은 750억달러, 아마존은 1050억달러, 메타는 600~650억달러를 투자한다고 하는데요. 증류 방식을 통한 딥시크의 꼼수를 막을 비법이 있기 때문 아닐까요? 또 딥시크 등은 이를 뚫은 또다른 비법을 만들지 않을까요?

 

증류기술이 연금술과 화학, 과학혁명으로 이어졌듯이 지식증류도 또다른 혁명으로 이어질 것으로 보입니다.

 

https://smartstore.naver.com/kbjmall/products/4875486249

 

닉왁스베이스워시1리터 대용량(사은품: 베이스워시 300ml) : 경불진몰

[경불진몰] 경불진을 사랑하는 사람들의 착한 쇼핑몰

smartstore.naver.com

 

 

728x90
반응형
LIST