새로운 추론 모델을 출시한 DeepSeek은 OpenAI의 ChatGPT o1과 성능이 비슷하거나 더 뛰어난 모델을 만들며, 제약을 혁신의 기회로 바꾸는 데 성공했습니다.
이 중국 AI 스타트업은 DeepSeek R1을 개발했으며, 이 모델은 여러 주요 벤치마크에서 ChatGPT o1을 능가하거나 적어도 동등한 성능을 보이면서도 비용은 그 일부만으로 작동합니다.
이 성과는 첨단 반도체에 대한 미국의 수출 통제가 강화되는 상황에서 더욱 주목할 만합니다.
이러한 제재가 중국 AI 기업들을 억제하기보다는, DeepSeek와 같은 스타트업들이 효율성, 자원 공유, 협업을 우선시하는 방식으로 혁신을 촉진시키는 계기가 되었습니다.
DeepSeek의 돌파구는 자원 사용을 최적화하는 방식으로 훈련 과정을 재구성하는 데서 나왔습니다.
중국 시장을 위한 Nvidia GPU는 성능이 제한되어 있었지만, DeepSeek 엔지니어들은 이를 해결할 수 있는 방법을 찾았습니다.
이 모델은 중국의 AI 스타트업인 DeepSeek에 의해 개발되었으며,
DeepSeek는 R1이 여러 주요 벤치마크에서 OpenAI의 ChatGPT o1을 능가하거나 최소한 동등한 성능을 보이며, 비용은 그 일부에 불과하다고 주장합니다.
에모리 대학교 정보 시스템학과의 한청차오 교수는
“이것은 자원이 제한된 연구자와 개발자들에게 매우 평등한 혁신이 될 수 있으며, 특히 글로벌 사우스 국가들의 연구자들에게 유용할 것입니다”라고 말했습니다.
DeepSeek의 성공은 미국의 첨단 칩에 대한 수출 통제가 강화되는 등 제약을 받는 중국 AI 기업들의 상황을 고려할 때 더욱 눈에 띕니다.
그러나 초기 증거에 따르면 이러한 제재가 의도한 대로 작동하지 않고 있습니다.
오히려 이러한 제재는 DeepSeek와 같은 스타트업들이 효율성, 자원 pooling, 협업을 우선시하는 방식으로 혁신을 촉진시키는 듯 보입니다.
R1을 만들기 위해 DeepSeek는 훈련 과정에서 GPU에 가해지는 부담을 줄이기 위해 재구성해야 했습니다.
이 GPU는 중국 시장을 위해 Nvidia에서 출시했으며, 성능이 최고 제품의 절반 속도로 제한되어 있다고,
딥시크 전 직원이자 현재 Northwestern University에서 컴퓨터 과학 박사 과정 중인 위한 왕(Zihan Wang)은 말합니다.
DeepSeek R1은 수학과 코딩 같은 복잡한 추론 작업을 해결할 수 있는 능력으로 연구자들로부터 찬사를 받았습니다.
이 모델은 ChatGPT o1과 유사한 “사고의 연결(chain of thought)” 접근 방식을 사용하여, 문제를 한 단계씩 처리하여 해결할 수 있도록 합니다.
“DeepSeek은 모든 논리적 단계를 상세히 설명하기보다는 정확한 답을 목표로 했고,
이는 계산 시간을 크게 줄이면서도 높은 효과를 유지하는 방식입니다”라고 그는 설명했습니다.
DeepSeek은 또한 R1의 작은 버전 6개를 공개했으며, 이들 중 일부는 OpenAI의 o1-mini보다 특정 벤치마크에서 더 나은 성능을 보인다고 주장합니다.
Perplexity의 CEO인 아라빈드 스리니바사는 “DeepSeek은 o1-mini를 대부분 복제하여 오픈소스로 공개했습니다”라고 트위터에서 말했습니다.
MIT Technology Review의 논평 요청에 대해 DeepSeek은 응답하지 않았습니다.
R1에 대한 관심이 높아지고 있음에도 불구하고, DeepSeek은 여전히 비교적 알려지지 않은 기업입니다.
중국 항저우에 본사를 둔 이 회사는 2023년 7월에 Zhejiang 대학교 출신인 리앙 웬펑(Liang Wenfeng)이 창립했으며,
정보 및 전자 공학 분야에서 경력을 쌓은 인물입니다.
이 회사는 2015년에 리앙이 설립한 헤지펀드 High-Flyer의 지원을 받았습니다.
OpenAI의 샘 올트먼(Sam Altman)처럼, 리앙은 인공지능 일반(AGI)을 구축하려는 목표를 가지고 있습니다. AGI는 인간이 수행하는 여러 작업을 능가할 수 있는 AI입니다.
대형 언어 모델(LLM)을 훈련하려면 고도로 훈련된 연구자와 상당한 컴퓨팅 자원이 필요합니다.
구글 중국의 전 대표이자 기업가인 카이푸 리(Kai-Fu Lee)는 최근 중국 매체인 LatePost와의 인터뷰에서
“기초 모델을 구축하는 것은 자원 집약적이기 때문에 ‘최전방 플레이어’만이 참여한다고 말했습니다.”
이 상황은 미국의 첨단 반도체 수출 통제에 의해 더욱 복잡해졌습니다.
그러나 High-Flyer의 AI 진출 결정은 이러한 제약과 밀접하게 연관되어 있습니다.
중국의 매체 36Kr은 이 회사가 10,000개 이상의 A100 칩을 보유하고 있다고 추정하는 반면,
AI 연구 컨설팅 업체 SemiAnalysis의 설립자인 딜런 파텔(Dylan Patel)은 최소 50,000개 이상 보유하고 있다고 추정합니다.
이러한 칩들을 AI 훈련에 활용할 가능성을 인식한 리앙은 DeepSeek을 설립했으며, 이 회사는 이를 저전력 칩과 결합하여 모델을 개발할 수 있었습니다.
업계의 새로운 얼굴 알리바바, 바이두, 바이트댄스와 같은 대형 기업들이 중국의 AI 시장을 지배하고 있어 중소기업들이 경쟁하기는 어려운 상황입니다.
DeepSeek와 같이 자금을 모을 계획이 없는 회사는 드물습니다.
전 DeepSeek 직원인 위한 왕은 MIT Technology Review와의 인터뷰에서 DeepSeek에서 근무할 당시 풍부한 컴퓨팅 자원에 접근할 수 있었으며,
실험을 자유롭게 진행할 수 있었다고 밝혔습니다. “이런 여유를 가진 신입사원은 다른 회사에서 찾기 힘들 것입니다”라고 그는 말했습니다.
2024년 7월에 리앙은 중국 매체 36Kr와의 인터뷰에서 중국 기업들이 겪고 있는 또 다른 어려움은 AI 공학 기법의 효율성이 상대적으로 낮다는 점이라고 언급했습니다.
“우리는 동일한 결과를 얻기 위해 두 배의 컴퓨팅 자원을 소비해야 할 때가 많습니다.
데이터 효율성의 격차와 결합되면 최대 4배의 컴퓨팅 자원이 필요할 수 있습니다. 우리의 목표는 이러한 격차를 지속적으로 좁히는 것입니다”라고 그는 말했습니다.
하지만 DeepSeek은 메모리 사용을 줄이고 계산 속도를 높이면서 정확도를 크게 희생하지 않는 방법을 찾았습니다.
위한 왕은 “팀은 하드웨어 도전 과제를 혁신의 기회로 바꾸는 것을 좋아합니다”라고 말했습니다.
리앙은 여전히 DeepSeek의 연구 과정에 깊이 관여하고 있으며, 팀과 함께 실험을 진행하고 있습니다.
“팀은 협업 문화와 철저한 연구에 대한 헌신을 공유하고 있습니다”라고 왕은 덧붙였습니다.
알리바바 클라우드는 100개 이상의 새로운 오픈소스 AI 모델을 공개하며, 다양한 언어와 코딩 및 수학 분야를 지원하고 있습니다.
마찬가지로, Minimax와 01.AI와 같은 스타트업들도 자사의 모델을 오픈소스로 공개했습니다.
중국 정보통신기술학회(China Academy of Information and Communications Technology)의 최근 백서에 따르면,
전 세계 AI 대형 언어 모델의 수는 1,328개에 달하며, 이 중 36%가 중국에서 나왔습니다. 이는 중국이 AI 분야에서 미국에 이어 두 번째로 큰 기여를 하고 있다는 것을 의미합니다.
“이 세대의 젊은 중국 연구자들은 오픈소스 문화와 강하게 연대감을 느끼며, 그로부터 많은 혜택을 보고 있습니다”라고
터프츠 대학교의 기술 정책 교수인 토마스 치통 카오(Thomas Qitong Cao)는 말했습니다.
“미국의 수출 통제는 사실상 중국 기업들을 코너로 몰아넣어, 제한된 컴퓨팅 자원을 더 효율적으로 사용해야 할 상황을 만들었습니다”라고
카네기 국제 평화 재단의 AI 연구원인 매트 시한(Matt Sheehan)은 말했습니다. “앞으로 컴퓨팅 자원 부족과 관련하여 많은 통합이 일어날 가능성이 큽니다.”
이미 그런 일이 시작된 것 같습니다.
2주 전, 알리바바 클라우드는 카이푸 리(Kai-Fu Lee)가 창립한 베이징의 스타트업 01.AI와 파트너십을 체결하여 연구팀을 합병하고 “산업 대형 모델 실험실”을 설립한다고 발표했습니다.
“AI 산업에서 어떤 형태의 노동 분업이 나타나는 것은 에너지 효율적이고 자연스러운 일입니다”라고 카오 교수는 말했습니다.
“AI의 급속한 진화는 중국 기업들이 생존하기 위해 민첩성을 요구합니다.”