|
애플(AAPL.US) WWDC 개발자 콘퍼런스에서 애플 인텔리전스라는 AI 제품이 출시됐으나 이날 주가는 1.91% 하락 마감했다.흥미롭게도 6월 11일 윈드 데이터의 소라 지수 (8841756.WI) 는 1.55% 올랐다.
왜 이런 차이가 있을까?
애플은 현재 한창 뜨거워지고 있는 동영상 대형 모델을 피해 내놓은 AI 관련 업데이트를 문자 분야에 더 많이 치중하고 있다. 국내 콘셉트주의 상승폭은 최근 문생 동영상 대형 모델의 열기와 밀접한 관련이 있다.스타 AI 동영상 생성 회사인 Pika와 같은 외국의 새로운 융자를 완료하면 총 8000만 달러의 B라운드 융자가 완료되면 회사의 평가액은 4억 7000만 달러를 넘을 것이다.콰이서우 (1024.HK)"콜링"동영상 생성 대형 모델이 정식으로 출시되었으며, 소라와 비슷한 기술 노선을 채택했다.
여러 업계 인사들의 견해에 의하면 애플은 영상분야가 아닌 AI문자의 통합에 초점을 맞추고있는데 이는 원가와 실용성 등 방면의 고려에서 더욱 많다.
사과는 소라'전세'를 피했다
애플이 내놓은 내장형 대언어 모델은 아이폰, 아이패드, 맥을 이해하고 언어와 이미지로 만들 수 있다.시리는 챗GPT에 접속해 의미 검색 기능을 갖춰 사진, 캘린더, 파일, 메일 등을 지능적으로 검색할 수 있고, 대부분의 챗GPT를 등록 없이 사용할 수 있는 기능도 갖췄다.
천풍국제증권 애널리스트 곽명은 간평을 발표하여 애플이 새로 발표한 Apple Intelligence 키트는 생태통합과 인터페이스설계의 우세를 보여주었으며 사용자들에게 아주 실용적이지만 투자자에게는 금상첨화일뿐 후자는 독창적이고 사용하지 않으면 안되는 기능을 보기를 기대한다고 밝혔다.
한욱 면벽스마트 수석연구원은 기자에게"운영체제에 접속하는 관점에서 애플은 주로 AI가 사람의 의도를 이해하고 시스템 차원의 인터페이스를 호출해야 한다"며"이런 수요는 소라의 출발점과 완전히 일치하지 않지만 다중모드 입력 텍스트 출력의 큰 모델과 비교적 일치한다"고 말했다.Sora와 같은 그림이나 동영상을 생성하는 모델은 현재 소프트웨어, 특히 시각 처리 소프트웨어와 결합하는 것이 비교적 적합하다.
왜 애플은 소라의'전세'에 가입하지 않았을까?
한 AIGC 동영상 응용 업체 직원은 기자에게 제품 사고와 경영 각도에서 볼 때 애플은 상대적으로 비교적 성숙하고 가시도보다 더 큰 분야에 투입될 뿐이라고 말했다.핸드폰 하드웨어 인터렉션 차원에서 문자의 사용 장면이 더 많고, 연구 개발 투입에서 실제 추리 원가 방면에 이르기까지 이 분야는 애플의 현재 기술 축적에도 상대적으로 더 성가비가 있다.
또 다른 업계 기술자는 오늘날의 LLM 서비스 (대형 언어 모델 서비스) 는 문자 분야에서 기본적으로 원금 보장을 실현하고 있으며, 문생도 분야는 반드시 그렇지는 않으며, 문생영상 분야는 반드시 손실을 볼 것이라고 말했다.이번 애플 WWDC 총회에서 비디오 AIGC를 통합할 능력이 당분간 없는 중요한 이유다.
애플의 움직임에 비해 국내 대형 모델 트랙은 현재 동영상 분야에 큰 기대를 걸고 있다.올해 4월, 청화대학 인공지능연구원 부원장, 생수과학기술 련합창시자 겸 수석과학자 주군교수는 청화대학과 생수과학기술을 대표하여 중국 첫 영상대모형 Vidu를 발표했는데 얼마전에 빠른 손이 오픈한 영상대모형"콜링"도 일정한 정도의 물의를 일으켰다.
기자는 소라 대표 동영상 문안을 제시어로 삼아 빠른 손'콜링'을 입력해 동영상을 대조했다.'도쿄 스트리트 걸 워킹'을 예로 들면, 당시 소라 동영상은 여자가 걷는 과정에서 다리가 변형되고 다리가 교차하여 위치를 바꿀 때 착란되며 오른쪽 다리가 두 번 연속 전방에서 걷는 등의 오류가 있었다.빠른 손"콜링"도 비슷한 문제가 있다.
톈펑증권은 콰이서우 3D VAE + DiT 아키텍처의 계산력, 모델 및 데이터 품질 향상은 이미 상용화를 실현할 수 있는 결과를 보여주었으며, 동시에 시간, 비율의 사용자 정의로 인해 생성 소재의 가용성이 대폭 강화되었으며, 비록 일부 복잡한 의미 이해에서 Sora에 뒤지지만 약간 간단한 장면에서는 이미 큰 차이가 없다고 주장했다.
다중 모드가 중국 대형 모델 코스 기회가 되다
우수한 비디오 생성 모델은 모델 설계, 데이터 보장, 컴퓨팅 효율성 및 모델 능력의 확장이라는 네 가지 핵심 요소를 고려해야 합니다.
소라가 존재하는 미성숙한 점에 대해 OpenAI는 소라가 복잡한 장면의 물리원리를 정확하게 모의하기 어려울수도 있고 인과관계를 리해하지 못할수도 있으며 제시된 공간세부사항을 혼동할수도 있으며 시간이 흐름에 따라 발생한 사건을 정확하게 묘사하기 어려울수도 있다. 례를 들면 특정한 카메라의 궤적을 따르는 등이다.
그러나 이것은 보편적으로 존재하는 문제에 더 가깝다.애시과학기술 창시자 왕장호는 이에 앞서 다음과 같이 표시했다. 현재의 영상대모형은 모두 직접 영상수치에서 물리지식을 학습하지만 진실한 동영상에는 흔히 많은 정보가 포함되여있어 각기 매개 물리법칙을 정확하게 잘 학습하기 어렵다.모형에 시각화면을 입력하는 동시에 단독으로 일손, 동물꼬리 등 3D모델링정보를 제약으로 넣어 대형모형학습을 보조할수 있고 효과도 최적화할수 있다.
가령대모형은 원생문생영상기술로선을 채용하여 영상생성 + 시계렬모듈의 조합을 대체하였다.현재 암시적 공간 코딩/디코딩에서 주요 비디오 생성 모델은 일반적으로 Stable Diffusion의 2D VAE를 사용하여 공간 압축을 수행하지만 이는 비디오에 대한 명백한 정보 이중화가 있습니다.이에 따라 콰이서우 대형 모델 팀은 3D VAE 네트워크를 자체 개발해 훈련 성능과 효과 사이의 균형을 찾으려 했다.또한 시계열 정보 모델링에서 콰이서우 대형 모델 팀은 시공간 모델링 모듈로 전체 주의력 메커니즘 (3D Attention) 을 설계했다.
생수과학기술 CEO 당가위는 다음과 같이 언급했다. 다모태대모형의 연구는 여전히 걸음마 단계에 처해있으며 기술성숙도는 아직 높지 않다.이 점은 뜨거운 언어 모델과 달리 외국은 이미 한 시대를 앞서고 있다.그러므로 언어모형에서"권"하는것보다 당가유는 다모태가 더욱 국내팀이 대형모형트랙을 선점할수 있는 중요한 기회라고 인정했다.이 점은 계명창투동업자 주지봉과 같은 점이 있다. 그도 현재의 큰 모형이 이미 원래의 순언어모태에서 점차 다모태의 탐색으로 나아갔다고 인정했다.
베이징 지원 인공지능 연구원 부원장 겸 총엔지니어 린융화는 제일재경 기자에게 중국이 다중모드 분야에서 커브길에서 추월하는 것은 일정한 가능성이 있지만, 다중모드 모델의 성공 요소는 여전히 계산력, 알고리즘과 데이터라고 말했다.현재 알고리즘 차원에서 중미 팀 간의 차이는 그렇게 크지 않으며, 업계도 여전히 계산력 문제를 해결할 방법이 있지만, 대량의 고품질 데이터를 확보하는 것은 여전히 매우 어렵다. |
|