· Introducing the Realtime API

 

1. Realtime API

오늘(2024년 10월 1일), OpenAI로부터 「Realtime API」가 발표되었습니다. 이를 통해 개발자는 앱에서 저지연 멀티모달 대화 환경을 구축 할 수 있습니다. ChatGPT의 'Advanced Voice Mode'와 마찬가지로 6가지 프리셋 오디오를 사용하여 자연스러운 speech-to-speech를 지원합니다.

 

또한 " Chat Completions API " 의 오디오 입출력이 발표되었습니다. 이것은 "Realtime API"의 낮은 지연 이점을 필요로 하지 않는 유스 케이스를 지원합니다. 개발자는 모든 텍스트 오디오를 "GPT-4o"에 전달하고 텍스트 오디오를 모두 선택하고 응답 할 수 있습니다.

2. Realtime API의 작동 방식

지금까지 음성 어시스턴트를 실현하기 위해서는, 음성 인식 모델로 음성을 써내, 그 텍스트를 텍스트 모델에 건네주어 추론을 실시해, 그 출력을 텍스트 독해 기능으로 재생할 필요가 있었습니다. 이 접근법에서는 감정, 강조, 악센트가 손실되어 지연이 현저해질 수 있습니다 .

 

Chat Completions API 를 사용하면 개발자는 한 번의 API 호출로 전체 프로세스를 처리할 수 있지만 사람의 대화보다 느립니다. Realtime API는 오디오 입출력을 직접 스트리밍하여 이를 개선하여 보다 자연스러운 대화 경험을 제공합니다. 또한 ChatGPT의 'Advanced Voice Mode'와 마찬가지로 중단을 자동으로 처리 할 수 있습니다.

 

내부적으로는, 「Realtime API」에서는 「GPT-4o」라고 메세지를 교환하기 위한 영속적인 「WebSocket」를 작성합니다. 이 API는 Function Calling 도 지원합니다. 이렇게 하면 음성 도우미가 작업을 트리거하거나 새 컨텍스트를 검색하여 사용자의 요청에 응답할 수 있습니다.

3. Realtime API 사용 요금

" Realtime API "는 " gpt-4o-realtime-preview ", " Chat Completions API "는 " gpt-4o-audio-preview "로 향후 몇 주 내에 출시됩니다.

Realtime API는 텍스트 토큰과 오디오 토큰을 모두 사용합니다. 텍스트 입력 가격은 100만 토큰당 5달러, 출력 가격은 100만 토큰당 20달러입니다. 오디오 입력 가격은 100만 토큰당 100달러이고 출력 가격은 100만 토큰당 200달러입니다. 이는 오디오 입력 분당 약 0.06달러, 오디오 출력 분당 약 0.24달러에 해당합니다 . 'Chat Completions API'의 오디오도 같은 가격이 됩니다.

4. 안전과 프라이버시

Realtime API는 자동 모니터링 및 신고된 모델의 입/출력에 대한 인간 검토 등 여러 안전 보호 계층을 사용하여 API 무단 사용의 위험을 줄입니다. ChatGPT의 고급 음성 모드를 실행하는 GPT-4o와 동일한 버전으로 구축되었으며 GPT-4o 시스템 카드 에 자세히 설명 된 " Preparedness Framework "에 따른 평가를 포함한 자동 평가 및 인간 평가 둘 다를 사용하여 신중하게 평가했습니다. 고급 음성 모드를 위해 구축된 것과 동일한 오디오 안전 인프라도 활용되고 있으며, 이 테스트는 이것이 위험의 가능성을 줄이는 데 도움이 된다는 것을 보여줍니다.

OpenAI 서비스의 출력을 스팸, 오해를 초래하거나 타인에게 해를 끼칠 목적으로 재사용 또는 배포하는 것은 이용 정책을 위반합니다. 당사는 잠재적인 무단 사용을 적극적으로 모니터링합니다. 컨텍스트에서 명백한 경우를 제외하고 개발자가 AI와 상호 작용하고 있음을 사용자에게 명확하게 전달해야합니다.

출시 전에 외부 레드 팀 네트워크에서 'Realtime API'를 테스트한 결과, 'Realtime API'는 기존 완화 방법으로 다루지 않은 고위험 갭이 발생하지 않음을 확인했습니다. 모든 API 서비스와 마찬가지로 "Realtime API"는 OpenAI의 엔터프라이즈 개인 정보 보호 약속의 대상이됩니다. OpenAI는 명시적인 권한 없이 이 서비스에서 사용되는 입력 또는 출력으로 모델을 학습하지 않습니다.

5. Realtime API 시작

향후 며칠 이내에 개발자는 Playground 또는 문서, 참조 클라이언트에서 Realtime API  시작할 수 있습니다 .

또한 LiveKit 및 Agora 와 협력하여 에코 제거기, 재연결 및 방음과 같은 오디오 구성 요소의 클라이언트 라이브러리를 만들고 Twilio 와 협력하여 Realtime API를 Twilio Voice API 와 통합하여 개발자가 음성 통화를 통해 AI 가상 에이전트를 원활하게 구축, 배포, 고객과 연결할 수 있도록 했습니다.

6. 향후 전개

향후 도입을 예정하고 있는 기능은 다음과 같습니다.

 

・더 많은 모달리티
「Realtime API」는, 처음에 음성을 서포트해, 시간 경과와 함께 Vision 나 Video 등의 모달리티를 추가 서포트할 예정입니다.

·속도 제한 인상 현재 API 속도 제한은  Tier 5 개발자의 경우 약 100 동시 세션으로 제한되어 있으며  Tier 1 ~ 4의 경우 제한이 낮습니다. 앞으로 이러한 한계를 서서히 끌어올 것입니다.

・공식 SDK 지원
「Realtime API」의 서포트를 「OpenAI Python」 및 「Node.js SDK」에 통합합니다.

· 프롬프트 캐시
Prompt Caching "에 대한 지원을 추가합니다. 이전 대화 턴을 할인 가격으로 재처리할 수 있습니다.

・모델 지원
「Realtime API」는 「GPT-4o mini」도 향후 서포트합니다.

 

https://note.com/npaka/n/n7317484e15e1



 

-----

OpenAI 실시간 API의 핵심 기능과 장점은 무엇이며, 어떤 방식으로 활용될 수 있을까?

 

OpenAI 실시간 API의 핵심 기능, 장점 및 활용 방식

OpenAI 실시간 API는 애플리케이션에 저지연 멀티모달 대화 경험을 구축할 수 있도록 고안된 API입니다.[1,2] 기존 음성 비서 구축 방식은 음성 인식, 텍스트 기반 모델 추론, 텍스트 음성 변환과 같은 여러 단계를 거치면서 감정 전달이 부족하고 지연 시간이 길어지는 단점이 있었습니다.[2] 하지만 실시간 API는 오디오 입출력을 직접 스트리밍하여 보다 자연스러운 대화 경험을 제공하며 ChatGPT의 고급 음성 모드와 마찬가지로 대화 중단을 자동으로 처리합니다.[3]
 

주요 기능:

  • WebSocket을 통한 실시간 스트리밍: 실시간 API는 WebSocket을 통해 서버와 지속적인 연결을 유지하여 오디오 및 텍스트 데이터를 실시간으로 주고받습니다.[1,3] 이는 짧은 지연 시간과 자연스러운 대화 흐름을 가능하게 합니다.
  • 음성 합성 및 인식: 실시간 API는 텍스트를 자연스러운 음성으로 변환하는 TTS(Text-to-Speech)와 음성을 텍스트로 변환하는 STT(Speech-to-Text) 기능을 모두 지원합니다.[1,2] 풍부한 뉘앙스를 가진 고품질의 음성 합성을 제공하며, 자연스러운 억양과 감정 표현이 가능합니다.
  • 멀티모달 출력: 텍스트와 음성을 동시에 출력할 수 있습니다.1 텍스트는 콘텐츠 조정에 활용되고, 오디오는 안정적인 재생을 보장합니다.
  • 상태 유지: 실시간 API는 WebSocket 연결 중에 세션 정보, 대화 기록, 입력 오디오 버퍼, 응답, 함수 호출 등의 상태 정보를 유지합니다.[4] 이를 통해 대화의 맥락을 유지하고 일관성 있는 응답을 제공할 수 있습니다.
  • 함수 호출: 실시간 API는 함수 호출 기능을 지원하여 외부 시스템과의 연동을 가능하게 합니다.[1,5,6,7] 날씨 정보를 가져오거나 일정을 예약하는 등의 작업을 수행할 수 있습니다.
  • 다양한 이벤트 처리: 실시간 API는 다양한 이벤트를 통해 서버와 클라이언트 간의 통신을 지원합니다.[7,8] 세션 생성, 업데이트, 오디오 입력, 응답 생성, 오류 처리 등의 이벤트를 처리할 수 있습니다.

장점:

  • 자연스러운 대화: 실시간 스트리밍을 통해 기존 방식보다 훨씬 자연스러운 대화 흐름을 제공합니다.
  • 낮은 지연 시간: 실시간 오디오 처리를 통해 딜레이를 최소화하여 실시간에 가까운 대화 경험을 제공합니다.
  • 멀티모달 경험: 텍스트와 음성을 동시에 사용하여 더욱 풍부하고 몰입감 있는 사용자 경험을 제공할 수 있습니다.
  • 유연한 통합: WebSocket과 다양한 이벤트를 지원하여 다양한 애플리케이션에 유연한 통합.
  • 향상된 정확성: 오디오 입력을 직접 처리하여 기존 방식의 음성-텍스트 변환 오류를 줄일 수 있습니다.
 

활용 방식:

  • 실시간 음성 비서: 실시간 API를 활용하여 ChatGPT의 고급 음성 모드와 유사한 수준의 자연스러운 대화가 가능한 음성 비서를 개발할 수 있습니다.[2,3] AI 기반 챗봇: 텍스트 기반 챗봇에 실시간 음성 인터페이스를 추가하여 사용자 편의성을 높일 수 있습니다.
  • 게임 및 VR/AR 콘텐츠: 실시간 음성 상호 작용을 통해 게임 캐릭터와 소통하거나 VR/AR 환경에서 몰입감 있는 경험을 제공할 수 있습니다.
  • 온라인 교육 플랫폼: 실시간 음성 질의응답, 피드백 제공 등을 통해 학습 효과를 높일 수 있습니다.

 

기타 고려 사항:

  • 오디오 형식: 현재 실시간 API는 24kHz, 1채널, 리틀 엔디안 방식의 Raw 16비트 PCM 오디오와 8kHz G.711 (u-law 및 a-law) 형식을 지원합니다.[9]
  • 안전 및 보안: OpenAI는 API 오용 방지를 위해 자동 모니터링, 플래그 모델, 사람의 검토 등 여러 보안 레이어를 사용합니다.[10]
  • 요금: 실시간 API는 텍스트 토큰과 오디오 토큰을 모두 사용하며, 오디오 입력은 1분당 약 0.06달러, 오디오 출력은 1분당 약 0.24달러입니다.[3]

OpenAI 실시간 API는 아직 개발 초기 단계이지만, 자연스러운 음성 인터페이스를 갖춘 다양한 애플리케이션 개발을 가능하게 하는 강력한 도구입니다. 앞으로 더 많은 기능과 향상된 성능이 제공될 예정입니다.

 
 

 

+ Recent posts