Stable Diffusion SDXL
├─ 장점: 생태계 풍부, LoRA·ControlNet 등 확장 무한대
├─ 단점: 세팅 복잡, 품질 편차 큼
└─ 추천: 자유로운 커스텀, 오래된 생태계 활용
Flux 1.1 (Black Forest Labs)
├─ 장점: SDXL 대비 품질 대폭 향상, 포토리얼 강점
├─ 단점: LoRA 등 확장 생태계 상대적으로 작음
└─ 추천: 고품질 단일 이미지, 최신 성능 우선
3. 음악·음성 생성 도구 비교
음악 생성
항목
Suno v5 (v4.5 무료 / v5 유료)
Udio v4
Stable Audio
가사 동시 생성
O
O
X
장르 다양성
매우 높음
높음
중간
음질
44.1kHz, 매우 좋음
좋음 (Magic Edit 지원)
좋음
곡 길이
최대 4분
최대 3분
제한
무료 플랜
O (제한)
O (제한)
O
API
O
X
O
비고
V5 Studio(DAW) 탑재, 2026년 Warner·UMG 계약 체결
UMG(2025-10), WMG(2025-11) 계약 체결 후 다운로드 재개
—
도구
강점
추천 상황
Suno
가사+멜로디 동시, 쉬운 UI
빠른 BGM, 주제가 제작
Udio
고품질 음원, 세밀한 스타일 제어
상업용 음악, 정교한 편곡
Stable Audio
오픈소스, 로컬 실행
자동화 파이프라인, BGM 대량 생성
음성(TTS/클로닝) 생성
항목
ElevenLabs
OpenAI TTS
Google TTS
Resemble AI
보이스 클로닝
O
X
X
O
다국어
29개+
50개+
100개+
제한
감정 표현
매우 자연스러움
자연스러움
보통
좋음
실시간 스트리밍
O
O
O
O
무료 플랜
O (제한)
API 유료
API 유료
X
4. 통합 워크플로우 조합
실전에서는 단일 도구보다 도구를 조합하는 파이프라인이 효과적이다.
단편 광고 영상 제작
스크립트 (Claude)
│
▼
이미지 레퍼런스 (Midjourney / Flux)
│
▼
영상 생성 (Google Flow / Runway)
│
▼
배경 음악 (Suno / Udio)
│
▼
내레이션 (ElevenLabs)
│
▼
편집 (DaVinci Resolve / Premiere)
SNS 숏폼 콘텐츠
아이디어 → Pika / Kling → 자막 생성 (Claude) → 음악 (Suno) → 업로드
일러스트 기반 애니메이션
Midjourney (캐릭터 디자인)
│
▼
Flux ControlNet (포즈 변형)
│
▼
Google Flow Frames to Video (애니메이션)
│
▼
ElevenLabs (성우)
5. 도구 선택 가이드
Q1. 영상을 만들고 싶다
├─ 스토리텔링·서사 중심 → Sora 2 (최대 25초, 스토리보드)
├─ 영화적 품질·4K 출력 → Google Flow (Veo 3.1)
├─ 빠른 실험·프로토타입 → Runway Gen-4.5
├─ 인물·얼굴 중심 → Kling AI
└─ 무료로 시작 → Luma Dream Machine
Q2. 이미지를 만들고 싶다
├─ 예술적·감성적 스타일 → Midjourney
├─ 텍스트 포함 이미지 → Ideogram
├─ 상업용 저작권 안전 → Adobe Firefly
├─ 로컬 실행·완전 자유 → Flux / Stable Diffusion
└─ ChatGPT 연동 빠른 생성 → DALL-E 3
Q3. 음악·소리를 만들고 싶다
├─ 가사 있는 노래 → Suno
├─ 고품질 반주·배경음악 → Udio
├─ AI 성우·내레이션 → ElevenLabs
└─ 내 목소리 복제 → Resemble AI
Q4. 모두 연결해서 영상 완성
→ Claude(스크립트) + Midjourney(이미지) + Google Flow(영상) + Suno(음악) + ElevenLabs(성우)