0
0
0
새로운 추론 모델을 통해 ChatGPT o1의 성능과 맞먹는 수준에 도달한 DeepSeek은 제약을 혁신으로 전환하는 데 성공했습니다.
https://huggingface.co/deepseek-ai/DeepSeek-V3
이 모델은 중국 AI 스타트업 DeepSeek에서 개발했으며, R1은 OpenAI의 ChatGPT o1을 여러 주요 벤치마크에서 능가하거나
동등한 성능을 제공하면서도 비용은 훨씬 적게 든다고 주장합니다.
“이것은 특히 자원이 제한된 연구자와 개발자, 특히 글로벌 남반구에 속한 사람들에게 획기적이고 평등한 돌파구가 될 수 있습니다.”라고
에모리 대학교 정보 시스템 조교수인 Hancheng Cao는 말합니다.
DeepSeek의 성공은 중국 AI 기업들이 첨단 칩에 대한 미국의 수출 규제라는 제약 속에서도 이룩한 결과라는 점에서 더욱 주목할 만합니다.
하지만 초기 증거에 따르면 이러한 조치는 의도한 대로 작동하지 않는 것으로 보입니다.
오히려 이러한 제재는 DeepSeek과 같은 스타트업들이 효율성, 자원 공유, 협업을 우선시하도록 촉진하는 역할을 하고 있습니다.
DeepSeek은 Nvidia가 중국 시장을 위해 성능을 절반으로 제한한 GPU를 사용해야 했기 때문에 훈련 과정을 새로 설계해야 했습니다.
DeepSeek의 전 직원이자 현재 노스웨스턴 대학교 컴퓨터 과학 박사 과정 학생인 Zihan Wang에 따르면,
이 모델은 수학 및 코딩과 같은 복잡한 추론 작업에서 탁월한 성능을 발휘하며, ChatGPT o1과 유사한 "체인 오브 사고(chain of thought)" 접근 방식을 활용해 문제를 단계적으로 해결합니다.
Microsoft의 AI 프론티어 연구소 수석 연구원인 Dimitris Papailiopoulos는 R1의 가장 놀라운 점은 엔지니어링의 단순성이라고 말합니다.
“DeepSeek은 논리적 단계를 세세히 설명하기보다는 정확한 답변을 목표로 삼아 컴퓨팅 시간을 크게 줄이면서도 높은 효과를 유지했습니다.”라고 그는 덧붙였습니다.
DeepSeek은 또한 노트북에서 실행할 수 있을 만큼 작은 R1의 소형 버전 6개를 출시했으며, 이 중 하나는 특정 벤치마크에서 OpenAI의 o1-mini를 능가한다고 주장합니다.
“DeepSeek은 사실상 o1-mini를 복제했고 이를 오픈소스화했습니다.”라고 Perplexity의 CEO인 Aravind Srinivas가 트윗했습니다.
Hangzhou에 본사를 둔 DeepSeek은 2023년 7월 정보 및 전자 공학 배경을 가진 Zhejiang University 졸업생 Liang Wenfeng에 의해 설립되었습니다.
이 회사는 2015년에 Liang이 설립한 헤지펀드 High-Flyer에서 인큐베이팅되었습니다.
OpenAI의 Sam Altman처럼, Liang 역시 인간을 능가할 수 있는 범용 인공지능(AGI)을 구축하는 것을 목표로 하고 있습니다.
대규모 언어 모델(LLM)을 훈련하려면 고도로 훈련된 연구팀과 막대한 컴퓨팅 파워가 필요합니다.
중국 언론 매체 LatePost와의 최근 인터뷰에서 구글 차이나의 전임 대표이자 기업가인 Kai-Fu Lee는 ChatGPT와 같은 기초 모델을 구축하는 것은
“최전선에 있는 플레이어”들만이 감당할 수 있을 만큼 자원이 많이 소모된다고 언급했습니다.
미국의 첨단 반도체 수출 규제는 상황을 더욱 복잡하게 만듭니다.
하지만 High-Flyer는 이러한 제약을 예상해 Nvidia A100 칩을 대량으로 비축했으며, 이는 현재 중국으로의 수출이 금지된 상태입니다.
중국 언론 매체 36Kr에 따르면, 회사는 1만 개 이상의 칩을 보유하고 있는 것으로 추정되며, AI 연구 컨설팅 회사 SemiAnalysis의 창립자인 Dylan Patel은 5만 개 이상일 수도 있다고 추정합니다.
DeepSeek은 메모리 사용량을 줄이고 계산 속도를 높이는 방법을 찾아 정확도를 크게 희생하지 않고도 효율성을 개선했습니다.
“팀은 하드웨어 문제를 혁신 기회로 바꾸는 것을 좋아합니다.”라고 Wang은 말합니다.
Liang은 여전히 연구 과정에 깊이 관여하며 팀과 함께 실험을 진행하고 있습니다. Wang은 “팀 전체가 협력적 문화와 연구에 대한 헌신을 공유하고 있습니다.”라고 덧붙였습니다.
중국 기업들은 효율성을 우선시하는 것뿐만 아니라 오픈소스 원칙을 점점 더 받아들이고 있습니다.
예를 들어, Alibaba Cloud는 29개 언어를 지원하는 100개 이상의 새로운 오픈소스 AI 모델을 출시했으며, 코딩 및 수학을 포함한 다양한 애플리케이션을 대상으로 하고 있습니다.
Carnegie Endowment for International Peace의 AI 연구원 Matt Sheehan은
“미국의 수출 통제가 중국 기업들을 궁지로 몰아넣어 제한된 자원으로 더 효율적으로 작업할 수밖에 없게 만들었습니다.”라고 말합니다.
중국 정보통신기술 아카데미가 발표한 백서에 따르면, 전 세계 AI 대규모 언어 모델의 수는 1,328개에 이르며, 이 중 36%가 중국에서 개발되었습니다.
이는 미국에 이어 두 번째로 높은 기여도를 나타냅니다.
투프츠 대학 기술 정책 조교수 Thomas Qitong Cao는 “이번 세대의 젊은 중국 연구자들은 오픈소스 문화에 강한 공감대를 느낍니다.
그들 또한 이로부터 큰 혜택을 받고 있기 때문입니다.”라고 말합니다.