OpenAI GPT / ChatGPT / Codex 업데이트 정리
체크 날짜: 2026년 05월 14일 09:00
⚠️ 이 파일에는 2026-05-13_09-00.md 이후 새롭게 확인된 내역만 포함됩니다.
🎙️ OpenAI, 실시간 음성 모델 3종 API 출시 — GPT-Realtime-2·Translate·Whisper (2026-05-13)
업데이트 날짜: 2026년 05월 13일
제목: OpenAI API에 GPT-5급 추론 탑재 실시간 음성 모델 3종 동시 공개 — 70개 이상 언어 즉시 번역 지원
주요 업데이트 내역
- GPT-Realtime-2: OpenAI 최초로 GPT-5 클래스 추론을 탑재한 실시간 음성 대화 모델
- 컨텍스트 윈도우 32K → 128K 확장 (기존 Realtime 1.5 대비 4배)
- 끼어들기(interruption) 및 대화 맥락 변화 대응 능력 강화
- 장시간 라이브 통화·복잡한 음성 상담 시나리오에서 일관된 추론 유지
- GPT-Realtime-Translate: 실시간 음성 번역 모델
- 70개 이상 입력 언어 지원
- 13개 출력 언어로 발화 속도에 맞춰 실시간 번역
- GPT-Realtime-Whisper: 스트리밍 실시간 STT(음성-텍스트 변환)
- 화자 발화와 동시에 텍스트 생성
- 라이브 자막·회의록 자동 생성 수요 대응
- 벤치마크 성능: Big Bench Audio +15.2% / Audio MultiChallenge(지시 이행) +13.8% (vs. GPT-Realtime-1.5)
- 제공 방식: 모두 OpenAI API를 통해 개발자에게 직접 공개
상세 내용
OpenAI는 이번 실시간 음성 모델 3종을 통해 ‘음성 AI 플랫폼’으로의 포지셔닝을 명확히 했다. GPT-Realtime-2의 핵심 혁신은 컨텍스트 윈도우를 128K로 확장한 것이다. 기존 32K 한계로 인해 10분 이상의 통화나 복잡한 멀티턴 음성 상호작용에서 맥락을 잃는 문제가 빈번했는데, 이를 4배 확장함으로써 고객지원·의료 상담·법률 인터뷰 등 장시간·고복잡도 음성 응용 분야에서의 실용성이 크게 높아진다.
GPT-Realtime-Translate는 별도 통역 인력 없이도 70개 이상 언어를 실시간으로 처리한다는 점에서 국제 콘퍼런스, 다국적 기업 콜센터, 여행 서비스 등 B2B 수요를 직접 공략한다. GPT-Realtime-Whisper는 빠른 실시간 STT로 법원 기록, 의료 차팅, 미디어 자막 등 즉시성이 요구되는 영역을 겨냥한다.
음성 AI 경쟁은 OpenAI·Google·Meta·Anthropic 모두가 뛰어든 격전지다. OpenAI가 API 우선 전략으로 개발자 생태계 확산에 집중하는 반면, Google은 Gemini Intelligence를 통해 Android OS 레이어에서 음성 AI를 통합하는 방향을 택하고 있어 대조적이다.
활용방법 예시
- 이커머스·보험사 콜센터가 GPT-Realtime-2를 고객 상담 AI에 연동, 복잡한 클레임·반품 처리 맥락을 끊기지 않고 유지하며 1통화에 해결 가능한 케이스 비율 향상
- 글로벌 웨비나 플랫폼이 GPT-Realtime-Translate를 내장, 70개 이상 국가 참가자에게 발표자 음성을 모국어로 실시간 제공 — 별도 동시통역 인력 절감
- 의료 기관이 GPT-Realtime-Whisper로 외래 진료 내용을 실시간 텍스트화, EMR 시스템에 자동 기록해 의사의 차팅 시간 대폭 단축
참고 출처: OpenAI Launches GPT-Realtime-2 to Power Smarter Voice Apps — iClarified | OpenAI Release Notes May 2026 — Releasebot | Model Release Notes — OpenAI Help Center