한 수가 신선한가요, 아니면 전부인가요?구글 개발자 콘퍼런스, OpenAI에 반격하는 22수 연달아

阿丽66 · 发表于 2024-5-15 20:20:16

OpenAI가 갑자기 발표한 정확한"저격"에 직면하여 북경시간으로 5월 15일 새벽, 구글은 일년에 한번씩 열리는 I/O 개발자대회에서 련속 22가지 새로운 기능/제품을 소개하면서"다점개화"전술을 사용하여 OpenAI에서 빼앗긴 사용자의 주의력을 빼앗으려 했다.
5월 14일에 비해 OpenAI는 26분간의 온라인 생방송으로 GPT-4o가 가져온 놀라운 인터렉션 능력을 선보였다. 구글 개발자 대회의 현장 강연은 1시간 52분 동안 계속됐다. 각 제품 라인 책임자가 번갈아 등장해 스마트 어시스턴트, 동영상 생성, 이미지 생성, 음악 창작, AI 검색 등 여러 방면의 구글의 능력을 과시했다. 관련 새로운 기능, 새로운 업그레이드는 22개에 이른다.
신경보 조개재경 기자가 전체 발표회를 훑어보니 구글은 이번에 휴대전화 카메라나 AR 안경을 통해 주인이 문제를 풀 수 있도록 돕는 스마트 어시스턴트 Project Astra와 같은 눈에 띄는 새로운 기능과 새로운 이념을 내놓았다.Sora를 표시하는 비디오 대형 모델 Veo;ask Photos (사진) 기능과 Gemini를 안드로이드 베이스 아키텍처에 직접 이식하는 등 새로운 AI 검색 방식이다.
그러나 오래된 검색 엔진이자 지난 AI 선두주자인 구글도 자신이 검색을 하는'초심'을 잊지 않았다. 구글 검색 업무 책임자인 리즈 리드 (Liz Reid) 는 현장에서 검색과 AI가 결합된 일련의 새로운 기능을 시연한 뒤"물어보면 된다 (just ask)","구글은 검색, 조사, 계획, 브레인스토밍을 도울 수 있다.한 가지만 물어보면 된다.
AI 스마트 어시스턴트 Astra는 카메라를 통해 문제를 풀고 물건을 찾을 수 있지만 비디오 시연을 위해
발표회 현장에서 DeepMind 공동 창업자 겸 CEO 인 Demis Hassabis는 비디오를 선보였습니다.영상에서 휴대전화를 들거나 VR 안경을 쓴 테스터는 주변 경치를'구경'하면서 구글 AI 어시스턴트에게'소리가 나는 것을 보면 알려달라'고 질문했고, 대형 모델 제미니를 탑재한 스마트 어시스턴트 프로젝트 아스트라는'스피커다'와 같이 거침없이 대답했다. 테스터는 스피커의 검은색 스피커에 직접 빨간색 화살표를 그렸다.'이것은 또 무엇인가?'
이 전시에서 구글 AI 어시스턴트의 효과는 실제 전문가에 비견된다. 심지어 사용자가 창밖을 바라보자 스마트 어시스턴트는 즉시 사용자의 상세한 주소를 말했다."여기는 분명히 런던의 킹 네거리 구역이다."동시에 화이트보드에 쓰여진 시스템 흐름도에 대해"서버와 데이터베이스 사이에 캐시를 추가하면 속도를 높일 수 있다"는 의견을 제시할 수 있는 그림과 이미지를 이해할 수 있다.
데미스에 따르면 프로젝트 아스트라는 수십 년 동안 자신이 기대했던 AI 어시스턴트의 초기 형태이며, 범용 AI의 미래"라며"AI 개인 어시스턴트는 비디오 프레임을 연속적으로 코딩하고, 비디오와 음성 입력을 이벤트 타임라인에 조합하고, 효과적인 추억을 위해 이 정보를 캐시함으로써 정보를 더 빨리 처리할 수 있다"고 말했다."
구글의 최고경영자 순다르 피차이 (Sundar Pichai) 는 구글이 올해부터 아스트라의 기능을 자사의 게미니 앱과 그 제품에 추가할 계획이라고 밝혔다.그러나 그는 최종 목표는"Astra가 회사의 소프트웨어에서 원활한 연결을 실현하는 것"이지만 이 제품은 신중하게 출시될 것이며"상업화의 길은 품질에 의해 움직일 것"이라고 강조했다.
그러나 Astra는 GPT-4o가 전날 보여준 사용자의 정서를 읽을 수 있는 기능을 구현하지 못한 것으로 보인다. OpenAI의 생방송은 현장 시연이고 Astra의 기능은 동영상에만 구현된다. 물론 데미스는 시연 동영상이 위조나 변조를 거치지 않았다고 맹세했다.
피차이는 프로젝트 아스트라의 멀티미디어 채팅 기능이 올해 말 게미니 챗봇에 등장할 것이라고 밝혔다.
Gemini 1.5 Pro 대형 모델 긴 텍스트 출시 100 만 tokens에서 200 만 tokens로 두 배 증가
구글 스마트 어시스턴트 뒤에는 구글 대형 모델 Gemini도 업그레이드됐다.이번 개발자 대회에서 피차이는 Gemini 1.5 Pro에 대한 중대한 업데이트를 발표했다.우선 구글은 Gemini 1.5 Pro의 컨텍스트 길이를 기존 100만 tokens (문구 단위) 에서 200만 tokens로 끌어올렸는데, 이 업그레이드는 데이터 처리 능력을 크게 향상시켜 모델이 더욱 복잡하고 방대한 데이터를 처리할 때 더욱 여유를 가질 수 있도록 할 것이다.
업그레이드된 Gemini 1.5 Pro는 여러 공공 벤치마킹에서 크게 향상되었으며 특히 이미지 및 비디오 이해에서 고급 성능을 보여줍니다.이 모델은 텍스트 내용을 이해할 수 있을 뿐만 아니라 이미지와 동영상의 정보도 정확하게 해독할 수 있다.
제미니 1.5 프로는 구글 AI 스튜디오(구글 AI 스튜디오)에 올라온 영상 이미지와 오디오를 추리할 수 있는 것으로 파악됐다.또한 Google은 Gemini Advanced 및 Workspace 앱과 같은 1.5 Pro를 Google 제품에 통합했습니다.요금은 Gemini 1.5 Pro가 100만 tokens당 3.5달러다.
구글은 또한 속도와 효율에 최적화된 Gemini 1.5 Flash를 출시했는데, 이는 가장 빠른 API (인터페이스) 속도를 제공하는 Gemini 시리즈 모델로, 대규모, 대량, 고주파 작업에 최적화되어 서비스가 더욱 비용 효율적이며 100만 tokens의 긴 텍스트 창을 가지고 있다.
구글은 Gemini 1.5 Pro가 전 세계 개발자를 대상으로 개방될 것이라고 발표했다.이것은 전문 개발자든 아마추어든 이 강력한 모델을 더욱 깊이 이해하고 사용할 수 있다는 것을 의미한다.
문생 일체?동영상, 사진, 음악 분야 전방위 근육 과시
구글은 OpenAI가 전날 출시한 스마트 어시스턴트의 새로운 기능 외에도 소라를 표기한 문생 동영상 대형 모델 Veo, Suno를 표기한 AI 음악 창작 도구 Music AI Sandbox, 구글의 최고 품질 문생 사진 모델 Imagen 3를 포함한 일련의 AI 생성 대형 모델을 선보였다.
그 중 많은 사람들이 가장 기대하는 것은 구글의 문생 동영상 대형 모델이다. 데미스가 Veo의 아이콘을 보여주자 장내에서 가장 열렬한 박수가 터져 나왔다.
데미스는 다음과 같이 소개했다. Veo는 영상생성령역의 기술의 집대성자로서 다년간 구글이 개발한 조회네트워크를 생성하는 각종 기술을 포함했다.Veo는 텍스트, 이미지 또는 비디오 힌트 하나로 70초 이상의 다양한 비주얼 스타일의 고품질 1080p 비디오를 생성하고 편집할 수 있으며 비디오 길이를 임의로 연장할 수 있습니다.
구글이 발표회 현장에 전시한 Veo 생성 동영상은 자동차가 사이보펑크 스타일의 어두운 밤에서 현대 사실풍 낮으로 주행하는 장면으로, 이 동영상은 어두운 밤 부분에서 비교적 모호하고 낮 부분에서는 충분히 선명하며 품질이 높다.그러나 조개재경 기자는 이 동영상의 대부분 시간이 자동차 꼬리에 시각을 따르고 있어 동영상의 표현 품질이 상대적으로 소라보다 더 정교하지 못하고 다양한 각도의 렌즈가 더 많다는 점에 주목했다.
홍보 영상에 따르면 영화감독도 베오를 활용했다. "베오는 영감을 현실로 만드는 데 도움을 준다." 영화감독은 "인공지능은 구상 중의 오류를 빠르게 발견하고 바로잡아 효율을 높일 수 있다"고 말했다. 구글은 자연어와 시각적 의미에 대한 깊은 이해로 베오 모델이 영상 내용 이해, 고화질 이미지 렌더링, 아날로그 물리 원리 등을 모두 돌파했다고 밝혔다.Veo가 생성한 비디오는 사용자의 제작 의도를 정확하고 세밀하게 표현할 수 있습니다.
5월 15일부터 구글은 일부 창작자에게 VideoFX에서 미리 보기 Veo를 제공하며 창작자는 구글의 대기 명단에 가입할 수 있다.구글은 또 Veo의 일부 기능을 유튜브의 짧은 동영상 등에 도입했다.
특히 앞서 전해진 OpenAI가 유튜브 동영상 콘텐츠에 의존해 소라 모델을 훈련한다는 소식 (구글은 유튜브의 모회사) 에 대해 피차이는 구글이 이 소식의 진실성을 확정하면 구글이"이 문제를 해결해야 한다"고 말했다.
"하나만 하면 돼요, 그냥 물어보는 거예요".
피차이는 연설에서 Gemini가 가져온 가장 흥미로운 변화 중 하나가 Google 검색이라고 언급했다."우리의 가장 큰 투자와 혁신 분야 중 하나는 우리의 창립 제품인 검색이다."피차이는 25년 전에 구글이 검색을 만들었고, 이제 Gemini 시대에는 검색도 새로운 수준으로 향상되었다고 회고했다.
피차이는 현장에서 새로운 기능인'사진 묻기'를 선보였다.사용자가 주차장에서 비용을 지불하고도 차량번호를 잊어버렸을 때 이전에 휴대폰사진에서 키워드를 검색하고 대량의 지나가는 사진을 찾아 차량번호를 찾을수도 있다.그러나 이제 구글 앨범은 위치, 수년간 사진에 나타난 횟수 및 기타 데이터에 따라 어느 차가 예상되는 차량인지 확인하고 텍스트 답장에서 실제 차량 번호로 돌아가 이미지를 검증할 수 있을 정도로 똑똑하다.
또 다른 새로운 기능은 AI 개요 (AI Overview) 이다. 이 기능은 기존 검색엔진의 결과에 비해 사용자에게 관점, 견해, 링크를 포함한 완전한 답안을 보여줄 수 있다. 사용자가 검색창에 문제를 입력하면 AI가 정리한 답안을 얻을 수 있고 긴 문제를 처리할 수 있다.
만약 사용자가 적합한 요가나 필라테스 스튜디오를 찾으려면 시간, 가격, 거리 등을 동시에 고려해야 한다.AI 검색은 사용자가 통합 정보를 추출하여 AI 검색 개요에 구현할 수 있도록 도와주며, 최종적으로 보스턴 최고의 요가 스튜디오의 할인 상세 정보, 집에서 지나가는 보행 시간을 표시할 수 있어 사용자에게 몇 시간의 시간을 절약할 수 있다.이 기능은 이동·모임 등 기획이나 외식 계획 수립 등에도 적용된다.
피차이는 구글의 AI 검색 개요에는 실시간 정보, 순위, 품질 체계, Gemini 모델 능력 등 세 가지 독특한 장점이 있다고 말했다.AI 개요 기능은 미국 및 각국 사용자들에게 속속 개방될 예정이다.
또 구글은 곧 동영상 검색 기능도 내놓을 예정이다.검색 제품 부사장 인 로즈 야오 (Rose Yao) 는 고장 난 축음기를 휴대 전화 카메라로 찍은 후 구글에 질문을 하는 방식을 현장에서 시연했으며 이 축음기가 어디에 고장 났는지, 어떻게 수리하는지 등의 답변을 받았다.
특히 구글은 안드로이드 개발사인 지미니를 안드로이드 밑바닥에 쓰는'시스템급 AI'를 하겠다고 밝혔다.Gemini가 시스템 수준에서 실행되면 사용자는 어떤 AI 앱도 설치하지 않고 직접 휴대전화 운영체제에서 관련 기능을 즐길 수 있다.
례를 들면 사용자가 동영상을 볼 때 휴대폰은 힌트를 팝업하여 이 동영상에 관한 문제를 료해하고 싶은지 물어볼수 있으며 사용자가 동영상의 세부사항을 문의할 때 Gemini는 직접 동영상에서 답안을 찾을수 있다.
구글은 특히 이런 체험은 안드로이드폰에서만 가능하다고 강조하면서 오픈AI가 아이폰과 컴퓨터를 사용해 시연하는 것과'맞불'을 놓는 모양새다.구글과 OpenAI의'신선 싸움'은 운영체제에 착지하여 계속 대항할 것이다.
그러나 피차이는 회의 후 인터뷰에서"구글도 애플과 협력 관계를 유지하는 것을 배제하지 않고 있다"며"우리는 애플 생태계에 뛰어난 경험을 제공하기 위해 노력해 왔다. 나는 우리가 우리 제품에 접근할 수 있도록 보장하는 많은 방법이 있다고 믿는다.오늘 우리는 AI 개요가 iOS에서 인기 있는 기능이 된 것을 보았기 때문에 계속 노력할 것"이라고 말했다.

		自动登录	找回密码
密码			立即注册

한 수가 신선한가요, 아니면 전부인가요?구글 개발자 콘퍼런스, OpenAI에 반격하는 22수 연달아

相关帖子