천호만호가 시작되자 OpenAI는 마침내"신규"에 올랐다.
북경시간으로 5월 14일 새벽 1시, OpenAI 생방송은 그 제품의 갱신을 발표했다.30분 동안 온라인 발표회에서 OpenAI의 최고 기술 책임자인 미라 무라티 (Mira Murati) 는 GPT-4의 일련의 업그레이드를 발표했다.발표회의 주요 하이라이트는 다음과 같습니다.
는 새로운 모델 GPT-4o를 출시했는데, 그 중"o"는"omni"(포괄적이고 전능함) 를 나타낸다.이와 동시에 GPT-4o는 모든 사용자에게 무료로 개방된다.
새 모델은 강력한 다중 모드 상호 작용을 제공합니다.발표회 시연에서 GPT-4o는 텍스트, 그림, 동영상, 음성 방면의 능력을 갖추고 있어 인간과 원활하게 음성을 교류하고 화면 정보를 읽을 수 있다.
ChatGPT 데스크톱 응용 프로그램이 출시되었으며 현재 macOS에 적용 할 수 있으며 Windows 버전은 올해 말에 출시 될 예정입니다.
AI 어시스턴트 초기 형태
발표회에 앞서 기자는 OpenAI의 공식 홈페이지에서 GPT-4의 묘사를'최첨단 모델'에서'첨단 모델'로 변경해 GPT-4o의 출시를 미리 준비했다는 점에 주목했다.
OpenAI의 현재 가장 진보된 모델로서 GPT-4o의 특별한 점은 어떤 텍스트, 오디오, 이미지의 조합을 입력으로 받아들이고 상술한 몇 가지 모드의 내용을 생성할 수 있다는 것이다.이는 GPT-4o가 AI 어시스턴트의 기본 초기 형태를 갖추고 범용 인공지능으로 가는 길에서 한 걸음 더 나아갔다는 것을 의미한다.
발표회 현장에서 무라티는 OpenAI의 최전방 연구 책임자인 Mark Chen과 후기 훈련 팀 책임자인 Barret Zoph와 실시간 음성 대화 기능을 시연했다.프레젠테이션 효과로 볼 때 GPT-4o와 인간의 상호 작용은 더 적시적이고 자연스러워졌습니다.소개에 따르면 GPT-4o는 232밀리초내에 음성입력에 대답할수 있어 인류대화의 반응시간에 접근할수 있다.이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)의 지연 시간을 가진 ChatGPT와 교류했다.GPT-4o는 대화에 실시간으로 응답할 수 있을 뿐만 아니라 어색하고 긴 시간 지연이 없을 뿐만 아니라 다양한 정서 스타일의 음성을 생성할 수 있다.
예를 들어'요즘 어떠세요?'라는 질문에 GPT-4o는'잘 지내고 있다'고 말하는 것 외에도'어떠세요?'라고 반문한다.'로봇과 사랑의 잠자기 전 이야기를 해달라'고 할 때 GPT-4o는 말을 시작한 후 끊기며 더 정서적이고 극적인 방식으로 이야기를 들려달라고 한다. 이후 GPT-4o는 이야기를 할 때 음성 억양이 더 변화무쌍하고 감정이 넘쳐 노래를 부를 수 있다.
그 후 부모들은 아이를 재워 so easy가 되었다.
뿐만 아니라 GPT-4o는 시각 + 음성 인터렉션 기능을 갖추고 있어 도해 방정식을 볼 수 있다.조프는 휴대전화 영상통화를 켜고 GPT-4o에 "한 장의 종이에 다음 선형 방정식을 쓰겠다. 답을 알려주지 말고 그것을 푸는 과정만 제시하라"고 말했다. 이어 조프는 3x+1=4의 방정식을 적어 문제를 푸는 방법을 물었다.GPT-4o는 차근차근 제시함으로써 Zoph가 도움 요청과 질문을 할 때 다음 단계를 계속 제안함으로써 x=1의 정확한 결과를 얻었다.
이때부터 부모가 아이의 숙제를 지도하는 것도 더욱 수월해졌다.
또한 GPT-4o는 화면 정보를 실시간으로 읽고 코드 질문에 답하고 차트를 분석하는 데 도움을 줄 수 있습니다.언어 간 실시간 번역이 가능해 말하는 사람이 이탈리아어와 영어로 대화할 때 지연 없이 대응하는 언어로 번역하고 말하는 사람의 말투를 모방할 수 있다.인간의 정서를 식별하고 분석할 수 있다. 말하는 사람이 셀카를 보여주며 자신의 정서를 판단해 달라고 요구하자 GPT-4o는"매우 즐거워 보인다. 아직 약간의 흥분이 있을 수 있다. 기분이 좋을 것 같다"고 분석했다."
오픈AI의 최고경영자 샘 오트먼은 발표회장에 나타나지 않았지만, 개인 소셜네트워크서비스 (SNS) 에서 오픈AI의 업데이트를 실시간으로 방송하고 있다.발표회 후 그는"her"라는 단어만 쓴 동태를 발표했다.앞서 외신에 따르면 오트만은 자신이 가장 좋아하는 인공지능 영화로'그녀'(Her) 를 꼽은 바 있다. 최종 목표는 영화 속 가상 AI 어시스턴트와 비슷한 가상 AI 어시스턴트를 개발해 애플 시리 등 기존 음성 어시스턴트를 더욱 실용적이고 지능적으로 만드는 데 노력하는 것이다.
'절단'구글, 애플에 호의적
일주일 전부터 OpenAI의 신제품 발표에 대한 소식이 들끓었다.OpenAI가 GPT-5를 발표할 것이라는 소식과 OpenAI가 곧 ChatGPT 기반 AI 검색엔진을 발표해 구글을 강타할 것이라는 소식도 있다.5월 11일, 오트만은 자신의 개인 소셜네트워크서비스 (SNS) 에서 이상의 소문을 부인하며"GPT-5도 아니고 검색엔진도 아니지만, 우리는 사람들이 좋아할 것이라고 생각하는 새로운 것을 개발하기 위해 노력해 왔다!나에게는 마술처럼 느껴진다!"
특히 구글은 5월 14일 I/O 개발자 콘퍼런스를 열어 안드로이드, 구글 검색 등에 대한 업데이트를 발표할 예정이다.OpenAI가 I/O 개발자 총회 전날 발표회를 열기로 한 것은 구글에 자신의 기세를 빼앗기는 것을 원하지 않는 것이 틀림없다.이런 일은 이번이 처음이 아니다. 올해 2월 16일 오픈AI는 사전에 예열하지 않고 소라 문생 동영상 모델을 공개해 전 세계의 관심을 끌었다.당시 구글은 Gemini Pro 모델을 업그레이드했지만 Sora의 열기에 빛이 바랬다.
이제 OpenAI가 다시 선전포고를 하면서 정면으로 맞설 구글에도 압력이 쏠리고 있다.화푸증권연보에 따르면 해외 주류 AI 대형 모델 중 총 방문자 수는 ChatGPT가 여전히 1위를 차지했고, 나머지 대형 모델 중 Claude, Perplexity, Character.ai는 4월 방문자 수가 어느 정도 상승했지만 구글의 Gemini 방문자 수는 4월에 하락해 전월 대비 1.4% 하락했다.큰 모델을 경쟁하는 길에 구글은 OpenAI가 더욱 강세를 보이고 있는 경쟁에 직면해 있음을 알 수 있다.
이에 비해 이번 신제품 발표회에 숨어 있는 막후 승자는 애플이다.기자는 이번 발표회가 아이폰과 맥북 프로로 시연되는 동안 맥 데스크톱 버전의 ChatGPT도 발표돼 OpenAI가 애플과 협력해 애플 기기에 큰 모델을 접속할 수 있는 능력을 암시하는 것으로 보인다.
사실 이 협력은 OpenAI의 이전 일부 동작 및 미디어 소식에서 이미 실마리를 알 수 있다.5월 10일 블룸버그통신에 따르면 애플은 올해 아이폰에 OpenAI의 대형 모델 기술을 도입할 계획이라는 협의를 OpenAI와 상의하고 있다.이 거래를 통해 애플은 iOS 18의 인공지능 기능의 일환으로 ChatGPT가 지원하는'챗봇'을 제공할 수 있게 된다.그러나 애플은 구글과도 제미니 챗봇 라이선스를 위한 협상을 벌였지만 아직 합의에 이르지 못했다고 신문은 지적했다.
최근 오트만은 팟캐스트 프로그램'올인 팟캐스트'에 출연해 많은 인공지능의 이슈와 방향에 대해 이야기했다.그는 OpenAI가 음성 기능의 질을 계속 향상시킬 것이라며"음성 인터렉션이 미래의 인터렉션 방식으로 가는 중요한 단서가 될 수 있다고 믿는다"고 말했다.오트먼은 또 사회자가 조니 아이브 ('아이폰의 아버지'전 애플 수석 디자이너) 와 협력했느냐는 질문에"네, 아이디어를 좀 나누고 있다"고 말했다.
지난 2월 팀 쿡 애플 CEO는 iOS 18에 대형 언어 모델이 지원하는 새로운 시리 기능을 도입할 생성형 AI 소프트웨어 기능을 개발하고 있다고 대외적으로 밝힌 바 있지만, 오픈AI와의 협력 여부는 언급하지 않았다.애플은 6월 WWDC 글로벌 개발자 콘퍼런스를 열어 iOS, iPadOS, macOS, watchOS, tvOS, visionOS의 최전방 혁신을 선보일 것으로 알려졌다.
OpenAI와 협력할 수 있다면 애플은 제품 개발 주기를 단축할 수 있을 뿐만 아니라 자사 제품의 지능화 수준도 빠르게 향상시킬 수 있을 것으로 분석된다.생성식 AI 시대에 이미 너무 많이 뒤처진 애플이 하드웨어에서 세계 선두의 큰 모델에 접속해 아름다운'뒤집기 전쟁'을 벌일 수 있을지도 6월에 밝혀질 것으로 보인다. |