2023년 이후 생성형 AI는 텍스트, 이미지, 영상까지 순식간에 영역을 넓혔습니다.
그리고 2024년부터 가장 주목받는 새 무대는 ‘음악’입니다.
누구나 짧은 문장 한 줄이면 2~3분짜리 완곡(보컬 포함)을 만들어내는 시대.
이 흐름의 대표 플레이어가 바로 Suno와 Udio입니다.
https://www.tiktok.com/@ai_music_fan/video/7513235019284942110
AI 음악 생성은 사실 텍스트나 이미지보다 더 어려운 기술입니다.
왜냐면 음악은 시간축이 존재하고, 악기와 보컬이 겹쳐지는 멀티트랙 구조이기 때문입니다.
텍스트는 문장을 잘라 붙이면 완성됩니다. 이미지도 한 컷으로 끝납니다.
AI 텍스트나 이미지 시장은 OpenAI, Google, Anthropic 같은 대형 플레이어가 주도합니다.
하지만 음악은 다릅니다.
- 저작권 문제:
데이터셋을 공개하기 어렵고, 음원 권리사가 즉시 소송을 걸기 때문입니다.
- 기술 스택:
음악은 텍스트처럼 ‘문장 구조’만으로 완성되지 않습니다.
악기 분리(스템), 보컬 톤 합성, 박자 정렬 등 멀티트랙/타임라인 기술이 필요합니다.
그래서 빅테크가 직접 뛰어들기보단, 작은 AI 오디오 스타트업들이 먼저 틈새를 잡았죠.
구분 | Suno | Udio |
---|---|---|
시작 | Bark(커뮤니티 실험) → Suno | 2024년 3월 베타부터 시작 |
초기 | Lo-Fi, 랩 스타일 낭독 | 첫 버전부터 완곡 포함 |
완곡 공식화 | 2024년 4월 v3부터 본격 도입 | 첫 버전부터 보컬+가사 포함 |
주요 특징 | TikTok 밈, 팬송 공유 강점 | 팝/록 완곡, 멀티트랙 다운로드 |
확산 경로 | Discord, TikTok, Shorts | YouTube, SoundCloud, X |
Suno는,
2023년 Bark라는 실험 커뮤니티에서 Lo-Fi 음원과 TTS 랩 톤으로 시작했습니다.
2023년 하반기에 Discord 유저들이 #SunoMade 태그로 밈송을 만들어 퍼뜨렸죠.
그러다 2024년 4월, Suno v3에서 가사 + 보컬 + 악기까지 한 번에 만들어주는 완곡 기능을 전면화했습니다.
이때부터 TikTok 밈, 숏폼이 폭발적으로 늘었습니다.
반면 Udio는,
2024년 3월 베타 공개부터 ‘보컬 포함 완곡’을 핵심 기능으로 내걸었습니다.
사용자는 장르, 템포, 가사 톤까지 고르고, 멀티트랙 파일을 받아 인디 앨범에도 활용할 수 있습니다.
이 플랫폼들은 기본적으로 크레딧 기반 구독 모델을 씁니다.
무료 사용자는 짧은 곡, 낮은 음질, 개인 이용만 가능.
프리미엄은 HQ 다운로드, 멀티트랙 제공, 상업 라이선스 옵션 제공.
실제로 Suno는 TikTok과 연동해 밈 제작자들이 배경음으로 붙여 수백만 조회를 터뜨리고,
Udio는 인디 뮤지션들이 데모 앨범 제작에 쓰고 있습니다.
문제는 여기서부터입니다.
AI 음악툴은 크게 두 가지 저작권 리스크를 안고 갑니다.
쟁점 | 설명 |
---|---|
데이터셋 문제 | 원본 음원을 무단으로 학습했는지 여부. 공개 안 하면 리스크. |
출력물 유사성 | 생성된 곡이 기존 음원과 실질적으로 유사하면 2차 침해 가능성. |
Suno/Udio 모두 데이터셋 출처는 공개하지 않습니다.
때문에 일부 유저는 “특정 유명곡 가사를 입력하면 비슷한 멜로디가 나온다”는 테스트 결과를 공유하기도 합니다.
1. 공개 라이선스 음원
퍼블릭 도메인(저작권 만료) 클래식: 바흐, 모차르트, 베토벤.
크리에이티브 커먼즈(CC-BY, CC0): 일부 인디 뮤지션의 무료 배포 음원.
리믹스/샘플 데이터로 허가된 무료 스템(악기별 분리 파일).
👉 예: Free Music Archive, Jamendo
2. 내부 레이블 계약 음원
일부 스타트업은 작은 음원사, 인디 레이블과 직접 계약.
‘우리 음원을 데이터셋으로 학습해도 좋다’는 조건으로 로열티 지불.
이를 통해 특정 장르, 톤, 보컬 샘플을 안전하게 학습.
👉 예: 일부 AI 리믹스 스타트업이 인디 EDM 레이블과 파트너십.
3. 무단 수집 (논란)
일부 스타트업은 유튜브, 사운드클라우드, 스트리밍 음원을 크롤링해서 자체 학습.
원본 음원의 저작권자 동의 없이 사용하면 불법 소지가 큼.
Stable Diffusion, Midjourney 같은 이미지 AI 논쟁과 구조가 비슷.
👉 Suno/Udio도 “데이터셋 출처는 공개 못한다”고 하는 이유가 바로 이 부분.
텍스트 데이터셋은 웹 크롤링으로 수십억 문장을 모으기 쉽습니다.
그런데 음악은 훨씬 복잡합니다:
구분 | 특징 |
---|---|
파일 구조 | 스테레오+멀티트랙(악기별, 보컬별)로 나눠야 함 |
메타데이터 | 장르, 템포, 키(key), 코드 진행 등 레이블링 필요 |
권리 구조 | 멜로디 저작권 + 가사 저작권 + 연주/보컬 녹음권 분리 |
그래서 자체 라벨링팀(Annotation Team) 을 고용해서 악보, 코드, 템포, 가사 맞춤 태깅을 따로 합니다.
이때문에 데이터셋 준비가 이미지·텍스트보다 인건비가 훨씬 많이 듭니다.
공식적으로는 ‘우리는 라이선스 문제 없는 데이터를 쓴다’고 하지만,
어떤 음원을 학습했는지, 얼마나 자체 제작했는지는 공개 안 함.
저작권자들이 “내 목소리가 비슷하게 나오는데?”라는 불만을 제기하는 이유.
일부 파워 유저는 “특정 유명곡 가사를 치면 비슷한 멜로디가 나온다”고 테스트 중.
최근에는 AI 음악 연구용으로 아래처럼 공식 오픈 데이터셋도 일부 나와 있습니다.
MAESTRO: 피아노 연주 MIDI + 오디오.
MedleyDB: 멀티트랙 음원 샘플.
Free Music Archive: CC0 음원.
GTZAN: 장르별 오디오 샘플.
Slakh2100: 자동 생성 멀티트랙 세트.
1. 데이터셋 위법 여부
미국/영국/유럽 대부분은 저작권 있는 음원을 무단으로 학습한 걸 불법으로 보려는 움직임이 점점 강해지고 있음.
Spotify, Universal Music 같은 음원사들이 AI 음악툴 상대로 소송을 검토 중.
예: 미국에서는 Sarah Silverman vs OpenAI 소송처럼, AI가 저작권 텍스트를 무단 학습했을 때 원저작권자가 손해배상 청구.
2. 생성물의 실질 유사성
법원은 AI가 만들어낸 음악이 원곡과 ‘실질적으로 유사(Substantial Similarity)’ 한지를 봄.
기본 요소는 멜로디 라인, 코드 진행, 리듬 패턴, 가사 표현.
예를 들어 유명 랩퍼 음색을 복제해 특정 가사와 멜로디까지 유사하다면 Deepfake 보컬 표절로 간주될 가능성 높음.
1. 데이터셋 공개/클린 여부
→ 학습 데이터가 공개된 퍼블릭 도메인인지?
→ 원저작권자의 라이선스를 받았는지?
2. 출력물의 독창성/유사성
→ 원저작권자의 멜로디와 가사가 그대로 재현되면 불법.
→ 완전히 새로운 멜로디/가사라면 ‘AI 저작권 보호 여부’가 이슈(사람 손이 어디까지 개입했냐).
3. 상업적 사용 여부
→ 밈송처럼 비상업 SNS 공유는 그나마 낮은 리스크.
→ 상업 음원 배포/스트리밍 수익이면 분쟁 리스크가 급격히 높아짐.
Suno/Udio는 공식적으로 “데이터셋은 공개 못한다”고 함.
대신 사용자에게 ‘생성물은 본인 책임하에 사용하라’는 조건부 라이선스를 부여.
Spotify/Apple Music 등 메이저 스트리밍은 AI 음악 필터링 규정을 신설 → AI 음원인지 공개 표기 요구.
일부는 AI 곡 업로드 자체를 막음 (예: Universal Music이 TikTok에서 AI Drake 밈송 제거 요구).
시기 | Suno | Udio |
---|---|---|
2023 Q2 | Bark 실험 | - |
2023 Q3~Q4 | TTS 보컬 밈 | - |
2024.03 | - | Udio 베타 시작 (보컬 포함) |
2024.04 | Suno v3 → 완곡 본격화 | - |
2025 | TikTok API 연동 | 인디 뮤지션 파트너십 |
You want build sudo and udio idea as well?
Check bunzee first