량원펑(Liang Wenfeng)은 DeepSeek의 인공지능(AI) 산업에 대한 폭발적인 영향력으로
하룻밤 사이에 안경을 쓴 소년 같은 수학 천재에서 글로벌 기술계의 인물로 떠올랐다.
이 밀레니얼 세대의 수학 괴짜는 지난주 중국 총리와의 회의에서 스웨터 베스트와 정장 재킷을 입고 넥타이를 매지 않은 모습으로 등장했다고 전해진다.
그는 중국의 AI 스타트업 DeepSeek의 창업자로, 단 몇 달 만에 미국 경쟁사들의 비용의 일부로 고급 AI 모델을 개발했다는 주장으로 글로벌 산업을 뒤흔들었다.
1985년 중국 잔장(Zhanjiang)에서 태어나고 자란 량원펑은 우등생으로,
미적분학을 공부하고 여가 시간에 AI 알고리즘을 작성했다고 《월스트리트 저널(WSJ)》은 보도했다.
명문 저장대학(Zhejiang University)을 졸업한 지 몇 년 후, 그는 두 명의 컴퓨터 과학자 친구와 함께
양적 헤지펀드인 하이플라이어(High-Flyer)를 설립했다.
이 펀드는 AI 알고리즘을 사용해 주식을 선택했으며, 현재 약 80억 달러를 관리하며 중국 최대의 양적 펀드 중 하나로 자리 잡았다.
그러나 2021년 벤치마크 지수에 미치지 못한 성과로 투자자들에게 공개 사과를 한 적도 있다.
그는 약 8,000마일 떨어진 롱아일랜드의 르네상스 테크놀로지스(Renaissance Technologies)의 창업자이자 양적 투자의 천재인 짐 사이먼스(Jim Simons)에게 깊은 영감을 받았다.
그는 심지어 짐 사이먼스 전기의 중국어 번역판 서문을 쓰기도 했다.
“일에서 어려움을 겪을 때마다, 나는 사이먼스의 말을 떠올립니다. ‘가격을 모델링할 방법이 분명히 있을 거야.’”라고 량원펑은 사이먼스 전기 서문에서 썼다.
금융 데이터 제공업체 시무파이왕(Simu Paipaiwang)에 따르면, 지난 5년간 하이플라이어가 관리한 최소 5개의 펀드는 시장 벤치마크 대비 평균 20% 이상의 초과 수익을 냈다.
《파이낸셜 타임스(FT)》에 따르면, 2021년 바이든 행정부가 AI 칩 수출을 제한하기 직전,
량원펑은 수천 개의 엔비디아(Nvidia) 그래픽 프로세서를 구매하기 시작했으며, 목표는 1만 개를 비축하는 것이었다.
그의 동료들은 이 부수적인 프로젝트를 크게 중요하게 여기지 않았다.
“처음 그를 만났을 때, 그는 매우 괴짜 같은 스타일과 엉망인 머리 스타일로 1만 개의 칩 클러스터를 구축해 자신만의 모델을 훈련시키겠다고 말했습니다.
우리는 그를 진지하게 받아들이지 않았죠.” 량원펑의 한 비즈니스 파트너는 《파이낸셜 타임스》와의 인터뷰에서 이렇게 말했다.
“그는 ‘이걸 만들고 싶고, 이건 게임 체인저가 될 거야’라고 말하는 것 외에는 자신의 비전을 명확히 표현하지 못했습니다.”
2022년 말, OpenAI가 ChatGPT를 출시했을 때, 중국 기업 중 1만 개 이상의 엔비디아 칩을 보유한 회사는 극소수였으며, 하이플라이어는 그 중 하나였다.
“이는 피아노를 사는 것과 같습니다.” 량원펑은 2023년 중국 기술 매체 36Kr와의 인터뷰에서 칩 구매에 대해 이렇게 말했다.
“첫째, 당신이 그것을 살 수 있기 때문입니다. 둘째, 그것으로 음악을 연주하고 싶어하는 사람들이 있기 때문입니다.”
2023년, 량원펑은 DeepSeek을 설립했으며, 이 회사는 월요일 고급 AI 모델을 훈련시키는 데 약 600만 달러를 썼다고 발표했다.
이는 OpenAI와 Google이 경쟁 모델을 훈련시키는 데 쓴 비용의 일부에 불과하다.
“량원펑은 칩이 어떻게 작동하는지 정말 잘 이해하는 탁월한 인프라 팀을 구축했습니다.”
한 경쟁사 대형 언어 모델(LLM) 회사의 창업자는 《파이낸셜 타임스》와의 인터뷰에서 이렇게 말했다. “그는 헤지펀드에서 최고의 인재들을 데려와 DeepSeek으로 옮겼습니다.”
ChatGPT와 달리, DeepSeek의 AI 모델은 오픈소스로, 누구나 접근할 수 있다.
이는 주요 기술 기업들의 독점을 깨기 위한 량원펑의 결정이었다.
“기술자들에게는 다른 사람들이 당신의 작업을 따라하는 것이 큰 성취감을 줍니다.”
그는 지난해 36Kr와의 인터뷰에서 이렇게 말했다. “오픈소스는 상업적 행위라기보다는 문화에 가깝습니다. 그리고 그것에 기여하는 것은 우리에게 존경을 가져다줍니다.”
《월스트리트 저널》에 따르면, 그의 직원들은 그를 직접 일하는 사장이라고 부르며,
특별 프로젝트를 진행할 때 동료들과 함께 사무실에서 밤을 새우기도 하고, 외모나 옷차림에는 거의 신경을 쓰지 않는다고 전했다.
그는 최근까지도 저조한 프로필을 유지해왔으며, DeepSeek이 하룻밤 사이에 유명해지는 것을 보고 놀랐다고 소식통들은 전했다.
미국의 수출 통제는 중국 기술 기업들이 서양 방식으로 AI 경쟁을 벌이는 능력을 심각하게 제한했습니다.
즉, 더 많은 칩을 구매하고 더 오랜 시간 동안 훈련함으로써 무한히 확장하는 방식입니다.
결과적으로 대부분의 중국 기업들은 자체 모델을 구축하기보다는 하류 애플리케이션에 집중해 왔습니다.
그러나 DeepSeek은 최신 모델을 통해 AI 모델의 기본 구조를 개선하고 제한된 자원을 더 효율적으로 사용함으로써 승리할 수 있는 또 다른 방법이 있음을 증명했습니다.
"많은 중국 AI 기업들이 고급 하드웨어 접근에 크게 의존하는 것과 달리, DeepSeek은 소프트웨어 주도의 자원 최적화를 극대화하는 데 집중했습니다."
시드니 공과대학의 마리나 장(Marina Zhang) 부교수는 이렇게 설명합니다.
"DeepSeek은 오픈소스 방법을 채택해 집단 전문 지식을 모으고 협력적 혁신을 촉진했습니다.
이 접근 방식은 자원 제약을 완화할 뿐만 아니라 첨단 기술 개발을 가속화하며, DeepSeek을 더 폐쇄적인 경쟁자들과 차별화합니다."
그리고 왜 갑자기 업계를 선도하는 모델을 공개하고 무료로 제공하는 걸까요?
WIRED는 중국 AI 산업 전문가들과 이야기를 나누고 DeepSeek 창업자 량원펑(Liang Wenfeng)과의 자세한 인터뷰를 통해 회사의 급성장 배경을 조사했습니다.
DeepSeek은 WIRED의 여러 문의에 응답하지 않았습니다.
중국 AI 산업 내에서도 DeepSeek은 독특한 존재입니다.
이 회사는 중국 최고의 양적 헤지펀드 중 하나인 하이플라이어(High-Flyer)의 딥러닝 연구 부서인 Fire-Flyer로 시작했습니다.
2015년 설립된 이 헤지펀드는 중국에서 빠르게 명성을 얻으며 1000억 위안(약 150억 달러) 이상을 조달한 첫 양적 헤지펀드가 되었습니다.
(2021년 이후로 이 숫자는 약 80억 달러로 감소했지만, 여전히 중국에서 가장 중요한 양적 헤지펀드 중 하나입니다.)
하이플라이어는 수년간 GPU를 비축하고 Fire-Flyer 슈퍼컴퓨터를 구축해 금융 데이터를 분석해 왔습니다.
그러다 2023년, 컴퓨터 과학 석사 학위를 가진 량원펑은 펀드의 자원을 새로운 회사인 DeepSeek에 투자하기로 결정했습니다.
이 회사는 자체 첨단 모델을 구축하고, 궁극적으로는 인공 일반 지능(AGI)을 개발하는 것을 목표로 했습니다.
마치 제인 스트리트(Jane Street)가 AI 스타트업이 되어 과학 연구에 현금을 태우기로 결정한 것과 같았습니다.
대담한 비전이었지만, 어쨌든 성공했습니다.
"DeepSeek은 빠른 상업화보다 장기적인 기술 발전을 우선시하는 중국 기술 기업의 새로운 세대를 대표합니다."라고 장 부교수는 말합니다.
량원펑은 중국 기술 매체 36Kr와의 인터뷰에서 이 결정이 이윤을 추구하기보다는 과학적 호기심에서 비롯되었다고 말했습니다.
"DeepSeek을 창업한 상업적 이유를 찾으라고 하더라도 찾을 수 없을 겁니다."라고 그는 설명했습니다.
"왜냐하면 상업적으로는 가치가 없기 때문입니다. 기초 과학 연구는 투자 대비 수익률이 매우 낮습니다.
OpenAI의 초기 투자자들이 자금을 제공했을 때, 그들은 얼마나 많은 수익을 얻을지 생각하지 않았을 겁니다. 오히려 그들은 정말로 이 일을 하고 싶었던 거죠."
오늘날 DeepSeek은 바이두, 알리바바, 바이트댄스와 같은 기술 거대 기업들의 자금 지원에 의존하지 않는 중국의 유일한 선도 AI 기업 중 하나입니다.
량원펑에 따르면, DeepSeek의 연구 팀을 구성할 때 그는 소비자 중심의 제품을 구축할 경험 많은 엔지니어를 찾지 않았습니다.
대신, 그는 베이징대학과 칭화대학을 포함한 중국 최고 대학의 박사 과정 학생들에 집중했습니다.
이들은 자신을 증명하고 싶어 했습니다. 중국 기술 매체 QBitAI에 따르면, 많은 학생들이 최고 학술지에 논문을 발표하고
국제 학술 회의에서 상을 받은 경험이 있지만, 업계 경험은 부족했습니다.
"우리의 핵심 기술 직위는 대부분 올해나 지난 1~2년 안에 졸업한 사람들로 채워져 있습니다."라고 량원펑은 2023년 36Kr와의 인터뷰에서 말했습니다.
이 채용 전략은 사람들이 충분한 컴퓨팅 자원을 사용해 독창적인 연구 프로젝트를 추구할 수 있는 협력적인 회사 문화를 만드는 데 도움이 되었습니다.
이는 자원을 놓고 팀 간 경쟁이 벌어지는 중국의 기존 인터넷 기업들과는 확연히 다른 운영 방식입니다.
(최근 예: 바이트댄스는 한 전직 인턴이 자신의 팀을 위해 더 많은 컴퓨팅 자원을 확보하려고 동료들의 작업을 방해했다고 비난했습니다.)
량원펑은 학생들이 고투자-저수익 연구에 더 적합할 수 있다고 말했습니다.
"대부분의 사람들은 젊을 때 공리적인 고려 없이 자신을 완전히 어떤 사명에 바칠 수 있습니다."라고 그는 설명했습니다.
그는 잠재적 채용자들에게 DeepSeek이 "세계에서 가장 어려운 문제를 해결하기 위해" 만들어졌다고 말했습니다.
전문가들은 이 젊은 연구자들이 거의 전적으로 중국에서 교육을 받았다는 사실이 그들의 동기를 더욱 강화한다고 말합니다.
"이 젊은 세대는 특히 미국의 제한과 핵심 하드웨어 및 소프트웨어 기술의 병목 현상을 극복하려는 애국심을 가지고 있습니다."라고 장 부교수는 설명합니다.
"이러한 장벽을 극복하려는 그들의 결의는 개인적인 야망뿐만 아니라 중국을 글로벌 혁신 리더로 발전시키려는 더 넓은 헌신을 반영합니다."
2022년 10월, 미국 정부는 중국 AI 기업들이 엔비디아의 H100과 같은 최첨단 칩에 접근하는 것을 심각하게 제한하는 수출 통제를 시작했습니다.
이 조치는 DeepSeek에게 문제를 안겼습니다. 이 회사는 1만 개의 A100 칩을 비축하고 시작했지만, OpenAI나 메타와 같은 기업들과 경쟁하려면 더 많은 칩이 필요했습니다.
"우리가 직면한 문제는 자금이 아니라 고급 칩에 대한 수출 통제입니다."라고 량원펑은 2024년 두 번째 36Kr 인터뷰에서 말했습니다.
DeepSeek은 모델을 훈련시키는 더 효율적인 방법을 찾아야 했습니다. "
그들은 칩 간의 커스텀 통신 방식을 사용하고, 메모리를 절약하기 위해 필드 크기를 줄이며,
혼합 모델 접근 방식을 혁신적으로 사용하는 등 다양한 엔지니어링 기법으로 모델 아키텍처를 최적화했습니다."라고
메르카토르 중국 연구소의 소프트웨어 엔지니어 출신 정책 분석가 웬디 창(Wendy Chang)은 말합니다.
"이러한 접근 방식 중 많은 것이 새로운 아이디어는 아니지만, 이를 성공적으로 결합해 최첨단 모델을 만든 것은 놀라운 업적입니다."
DeepSeek은 또한 Multi-head Latent Attention (MLA)과 Mixture-of-Experts라는 두 가지 기술 설계에서 상당한 진전을 이루었습니다.
이는 더 적은 컴퓨팅 자원으로 모델을 훈련시킬 수 있게 해 DeepSeek 모델을 더 비용 효율적으로 만듭니다.
사실, 연구 기관 Epoch AI에 따르면, DeepSeek의 최신 모델은 메타의 Llama 3.1 모델과 비교해 훈련에 필요한 컴퓨팅 파워의 10분의 1만 필요로 합니다.
DeepSeek이 이러한 혁신을 공개적으로 공유하려는 의지는 글로벌 AI 연구 커뮤니티 내에서 상당한 호의를 얻었습니다.
많은 중국 AI 기업들에게 오픈소스 모델을 개발하는 것은 서양 기업들을 따라잡을 수 있는 유일한 방법입니다.
왜냐하면 이는 더 많은 사용자와 기여자를 끌어들이고, 이는 다시 모델의 성장을 돕기 때문입니다.
"그들은 이제 더 적은, 그러나 여전히 많은 자금으로 최첨단 모델을 구축할 수 있음을 보여주었고,
현재의 모델 구축 방식에는 여전히 최적화할 여지가 많이 남아 있음을 보여주었습니다."라고 창은 말합니다. "앞으로 이 방향으로 더 많은 시도가 있을 것입니다."
이 소식은 컴퓨팅 자원 병목 현상을 만들려는 현재의 미국 수출 통제에 문제가 될 수 있습니다.
"중국이 보유한 AI 컴퓨팅 파워와 그들이 이를 통해 달성할 수 있는 것에 대한 기존 추정치가 뒤집힐 수 있습니다."라고 창은 말합니다.