국내 개발자 구글 Gemini 보기:'조작'논란에 휩싸였지만 OpenAI를 뛰어넘는 길을 찾았다

强绝商爸摇 · 发表于 2023-12-13 11:05:13

구글이 자사의 가장 강력한 모델인 Gemini를 출시한 지 거의 일주일이 지났는데, 많은 국내 AI 회사들이 이 큰 모델이 도대체 얼마나 큰 위력을 가지고 있는지 탐구하려고 시도하고 있다.
이전에 업계에서 출시한 많은 큰 모델과 달리 구글 Gemini는 이번에 문자고리를 우회하여 직접 시각과 소리로 세계를 리해했다. 비록 그가 현장에서 데모를 시연하여 능력을 조작하고 지나치게 과장한 혐의가 있었지만 말이다.
Gemini의 프레젠테이션 동영상은 많은 사용자들이 Gemini가 실시간으로 비디오 정보를 읽고 이해를 통해 사용자의 질문에 대답할 수 있다고 착각하게 하지만, 실제로 구글 직원들은 제시어를 통해 Gemini에게 이러한 답변을 생성하게 한다.사진 출처: 구글
Gemini의 출현이 OpenAI 및 기타 AI 회사에 어떤 영향을 미칠지 알아보기 위해 계면뉴스는 최근 여러 머리생성식AI 회사의 업무책임자 및 개발자를 방문했는데 그들은 Gemini의 가장 큰 특색이 바로"원생"의 다모태대모형이라고 인정했다.
"이론적으로 원생 다모태는'연결'다모태 대모델보다 효과가 더 좋다. 후자는 훈련 단계에서 병목 현상을 겪기 쉽기 때문이다."순환지능의 AI 책임자 천위쥔은 계면신문 기자에게 아직 깊이 사용한 적이 없기 때문에 Gemini의 실제 장점은 더 알아야 한다고 말했다.
여러 대형 모델 초창기 개발자들은 Gemini 시리즈의 가장 큰 크기의 Ultra가 아직 정식으로 출시되지 않았더라도 Gemini는 이미 텍스트 방면에서 GPT-4와 같은 수준의 능력을 과시했다고 밝혔다.
Google이 공식적으로 설명한 벤치마크 테스트 세트에서 Gemini Ultra는 대부분의 텍스트 테스트에서 GPT-4보다 우수하며 거의 모든 다중 모드 작업 테스트에서 GPT-4v보다 우수합니다.GPT-4의 테스트 조건을 기준으로 하면 Gemini Ultra는 MMLU에서 GPT-4보다 약하지만 여전히 다른 주류 대형 모델보다 우수합니다.사진 출처: Gemini Technical Report 중신건투연보
Gemini의 데모 비디오에서 이 큰 모델은 마치 실시간으로 인간의 행동을 관찰하고 피드백을 줄 수 있는 것 같다. 예를 들어 오리 한 마리가 스케치에서 채색에 이르는 과정을 완벽하게 묘사할 수 있다.컵 바꾸기 게임에서 종이 뭉치를 추적하여 수학, 물리의 문제 풀이를 보조할 수 있다;제스처를 판별할 수 있고, 교실 손놀림 인터렉션을 할 수 있으며, 행성 스케치도 다시 배열할 수 있다.　　
개발자들은 조작 성분 기하학에 관계없이 Gemini가 이미 비교적 강한 이해, 추리, 창작과 실시간 상호작용 능력을 보여주어 OpenAI 다중모드 모델 GPT-4v에 대한 전면적인 추월을 실현했다고 보편적으로 생각한다.구글의 대응도 기본적으로 업계에서 받아들여지고 있다."모든 사용자 제시와 출력은 진실이다. 단지 간결함을 위해 단축되었을 뿐이다."
3개월 전 OpenAI가 조용히 발표한 GPT-4v는 이해와 이미지 생성과 같은 다중 모드 작업을 할 수 있지만 효과가 그다지 좋지 않으며 다른 모델과 함께 수행하는 것이 핵심 추리력이다.추상적 추리력 자체는 큰 모델의 가장 중요한 능력이다.
도원: 중신건투
윤백호는 인터페이스 뉴스에 GPT-4v와 Gemini는 완전히 다른 두 가지 훈련 논리에 기반한 것이라며"GPT-4v는 근시안으로 물건을 잘 보지 못하기 때문에 성능도 좋지 않은 전형적인 외장형 방안이다.Gemini는 여러 모태를 혼합해 훈련한다"고 말했다.
그러나 한 다중모드 대형 모델 회사의 알고리즘 책임자가 보기에 Gemini는 아직 GPT-4를 전면적으로 추월하지 못했을 것이다."평가할 때 GPT-4와 Gemini는 텍스트 생성에서 완전히 공평한 대비를 이루지 못했다."
또 다른 많은 네티즌들은 Gemini Pro가 그림으로 물건을 검색하고 정확한 검색을 하는 능력이 GPT-4를 쉽게 이겼다고 실측했다.이 상황에 대해 추일과학기술 류운봉은 다음과 같이 인정했다. 구글의 검색업무는 천연적으로 문자와 기타 모태가 정렬된 수치를 갖고있어 확실히 원생의 다모태대모형을 훈련하는데 더욱 유리하다.
Gemini는 학생들이 손으로 쓴 답안을 정확하게 식별하고 물리적 문제의 추리 과정을 검증할 수 있습니다. 사진 출처: Gemini Technical Report
구글의 인공지능 분야에서의 어떤 큰 움직임도 시장의 신흥 탐색 방향을 잠금 해제할 수 있지만, Gemini가 발표되기 전에 AI 모델의 전면적인 다중 모태화 추세는 이미 나날이 밝아지고 있다.
OpenAI는 3월 GPT-4 발표 초기부터 이번 반복에 다중모드 통합을 추가하겠다고 밝혔다.9월부터 Runway, Midjourney, Adobe, Stability AI 등 스타 회사들이 여러 가지 다중 모드 제품을 속속 출시하고 있다.
국내면에서 바이두의 문심대모형 4.0은 다모태문생도분야에서 뚜렷한 진전을 가져왔으며 국내에서 공개융자가 가장 높은 대모형초창기 지보AI는 그 생성식AI조수 지보청언이 시각분야에서 아주 우세하다.
여러 개발자들은 모두 계면뉴스에 다중모태대모형은 업종내에서 공인하는 명확한 발전방향으로서 구글의 큰 동작으로 인해"갑자기 깨달음"하지 않지만 Gemini의 도래는 국내회사들이 연구개발을 가속화하도록 자극할것이라고 알려주었다.앞에서 서술한 다중 모드 대형 모델 회사의 알고리즘 책임자도 Gemini의 한계를 지적했다."이미지 생성에서의 능력 및 비디오 생성, 이미지 생성에서의 참고 의미는 제한적이다."
현재로서는 Gemini가 GPT-4를 전면적으로 추월했다는 결론을 내리기 어렵지만 구글이 OpenAI의 최강 라이벌이 된 것은 사실이다.또한 Gemini로 어떤 다중모드 대모델이든 반드시 대언어 모델의 훈련 과정에 의존해야만 진정한 다중모드 AI를 실현할 수 있다는 이치를 증명했다.

		自动登录	找回密码
密码			立即注册