SAM이란?
SAM(Segment Anything Model)은 Meta AI가 개발한 오픈소스 세그멘테이션 파운데이션 모델이다. 이미지 내의 어떤 객체든 자동으로 분리(세그멘테이션)할 수 있으며, 2023년 첫 공개 이후 빠르게 발전하여 2025년 11월에는 SAM 3와 SAM 3D가 출시되었다.
| 항목 | 내용 |
|---|---|
| 정의 | Meta의 Segment Anything Model |
| 최신 버전 | SAM 3 + SAM 3D |
| 출시 | 2025.11 |
| 라이선스 | Apache 2.0 |
| GitHub | facebookresearch/sam3 |
문서 탐색
SAM 시리즈 진화
| 버전 | 연도 | 핵심 혁신 |
|---|---|---|
| SAM 1 | 2023 | 최초 Foundation 세그멘테이션 모델, 포인트/박스/마스크 프롬프트 |
| SAM 2 | 2024 | 비디오 지원, Memory Bank로 시간축 추적, 실시간 처리 |
| SAM 3 | 2025.11 | 텍스트/이미지 예시(exemplar) 프롬프트 추가, Open-Vocabulary, DETR 기반 탐지, 이미지+비디오 통합 |
| SAM 3D | 2025.11 | 단일 2D 사진→3D 메쉬 복원 (Objects + Body 두 모델) |
SAM 3 상세
SAM 3의 가장 큰 혁신은 Promptable Concept Segmentation(PCS) 기능이다. 텍스트로 “철도 레일”, “침목” 같은 개념을 지정하면 이미지 내 모든 인스턴스를 자동으로 세그멘테이션한다. 기존처럼 포인트나 박스로 하나씩 지정할 필요가 없다.
프롬프트 유형
| 프롬프트 유형 | 설명 | 예시 |
|---|---|---|
| 텍스트 | 찾고 싶은 객체 이름을 문자열로 전달 | "rail", "sleeper" |
| 이미지 예시 (Exemplar) | 참고할 객체가 담긴 이미지 또는 크롭 영역 전달 | 레일 사진 일부를 잘라서 전달 |
| 포인트 | 객체 위의 좌표 클릭 (SAM 1/2 호환) | [x, y] 좌표 |
| 박스 | 바운딩 박스로 범위 지정 | [x1, y1, x2, y2] |
| 마스크 | 기존 마스크를 참고로 전달 | 이진 마스크 배열 |
성능 지표
- LVIS zero-shot Mask AP: 47.0 (기존 38.5 대비 +22%)
- 추론 속도: 30ms/이미지 (H200 GPU 기준)
- 동시 처리: 100+ 객체 동시 세그멘테이션 가능
SA-Co 벤치마크 데이터셋
SAM 3 학습 및 평가에 사용된 새 벤치마크:
- 이미지: 120K장
- 비디오: 1.7K편
- 고유 개념: 200K+
SAM 3D 상세
SAM 3D는 단일 2D 사진으로 3D 메쉬를 복원하는 모델이다. 두 가지 전문 모델로 구성된다.
SAM 3D Objects
- 일반 사물의 3D 메쉬 복원 (형상 + 텍스처 + 재질 포함)
- 학습 데이터: 약 100만 이미지, 314만 메쉬
SAM 3D Body
- 사람 신체의 3D 복원에 특화
- 학습 데이터: 약 800만 이미지
출력 및 활용
| 항목 | 내용 |
|---|---|
| 출력 형식 | GLB, PLY (STL 변환 가능) |
| 실제 활용 사례 | Facebook Marketplace “View in Room” 기능 |
SAM vs YOLO 비교
| 항목 | SAM 3 | YOLO11 |
|---|---|---|
| 주요 기능 | 세그멘테이션 (픽셀 단위 분리) | 탐지 (바운딩 박스) |
| Open-vocabulary | 텍스트/예시로 새 클래스 즉시 사용 | 사전 학습된 클래스만 |
| 속도 | ~30ms/이미지 | ~2ms/이미지 |
| 모델 크기 | ~3.4GB | ~5.9MB (nano) |
| Zero-shot | 가능 (학습 없이 사용) | 불가 (커스텀 학습 필요) |
| 엣지 배포 | 어려움 (GPU 서버 필요) | 용이 (Jetson 등) |
| 추천 용도 | 자동 라벨링, 정밀 세그멘테이션, 프로토타이핑 | 실시간 탐지, 프로덕션 배포 |
핵심 요약: SAM 3와 YOLO는 경쟁 관계가 아니라 상호 보완 관계다. SAM 3로 라벨을 자동 생성하고, 그 라벨로 YOLO를 학습시키는 파이프라인이 현재 가장 효율적인 접근법이다.
라이선스
| 모델 | 라이선스 | 상업적 사용 |
|---|---|---|
| SAM 3 | Apache 2.0 | 자유 (소스 공개 의무 없음) |
| SAM 3D Objects/Body | 모델 체크포인트 + 추론 코드 공개 | 조건 확인 필요 |
| YOLO (Ultralytics) | AGPL-3.0 | 상업적 사용 시 소스 공개 의무 |
SAM 3는 Apache 2.0 라이선스로 YOLO(AGPL-3.0)와 달리 상업 프로젝트에 자유롭게 사용할 수 있다. 철도 점검 시스템처럼 소스 코드를 공개하지 않아야 하는 상업 프로젝트에서 특히 유리하다.
철도 프로젝트에서의 활용
드론으로 촬영한 철도 사진에 SAM 3를 적용하면 별도의 학습 없이 즉시 세그멘테이션이 가능하다.
활용 시나리오 1: 자동 라벨 생성
SAM 3의 텍스트 프롬프트("rail", "sleeper", "catenary pole")로 드론 사진을 자동 세그멘테이션하면 YOLO 학습용 라벨을 자동으로 생성할 수 있다. 수백 장의 사진을 수동으로 라벨링하는 시간을 대폭 절감한다.
활용 시나리오 2: YOLO + SAM 하이브리드 파이프라인
- YOLO로 빠른 탐지 → 바운딩 박스 획득
- 바운딩 박스를 SAM 프롬프트로 전달 → 픽셀 단위 정밀 마스크 획득
- 탐지 속도(YOLO)와 마스크 정밀도(SAM)를 동시에 확보
활용 시나리오 3: 3D 시설물 분석
SAM 3D로 드론 사진에서 철도 시설물의 3D 메쉬를 생성하면 시설물 상태를 입체적으로 분석할 수 있다.