"99% 의 사용 장면을 해결할 수 있다!"마이크로소프트, 엔비디아는 잇달아 작은 모델의 큰 모델이 향기롭지 않다는 것에 베팅하고 있다?
tring
发表于 2024-8-22 19:42:33
5431
0
0
인공지능이 발전하는 길에서 과학기술거두들은 일찍 경쟁적으로 규모가 방대한 언어모형을 개발하였지만 지금은 새로운 추세가 나타났다. 소형언어모형 (SLM) 이 점차 두각을 나타내고있으며 과거의"클수록 좋다"는 관념에 도전하고있다.
8월 21일 (현지 시간) 마이크로소프트와 엔비디아는 잇달아 최신 소형 언어 모델인 Phi-3.5-mini-instruct와 Mistral-NeMo-Minitron 8B를 발표했다.이 두 모델의 주요 판매 포인트는 컴퓨팅 리소스 사용과 기능 표현 사이에서 좋은 균형을 이루었다는 것입니다.어떤 면에서 그것들의 성능은 심지어 대형 모델에 필적할 수 있다.
인공지능 스타트업 허깅페이스의 CEO 클렘 델랑구는 최대 99%의 사용 장면을 SLM으로 해결할 수 있다고 지적하며 2024년이 SLM의 해가 될 것으로 전망했다.불완전한 통계에 따르면 메타, 마이크로소프트, 구글을 포함한 과학기술거두들은 올해 이미 9종의 소형모형을 발표했다.
대형 모델 훈련 비용 상승, 성능 향상은 제한적
SLM의 부상은 우연이 아니라 성능 향상과 자원 소비에 대한 대형 모델 (LLM) 의 도전과 밀접한 관련이 있습니다.
AI 스타트업 벨룸(Vellum)과 허깅페이스(Hugging Face)가 지난 4월 발표한 성능 비교에 따르면 LLM 간의 성능 격차는 빠르게 줄어들고 있다. 특히 여러 선택 문제, 추리, 수학 문제 등 특정 임무에서 최상위 모델 간의 차이는 극히 적다.예를 들어, 여러 선택 문항에서 Claude 3 Opus, GPT-4 및 Gemini Ultra는 83% 이상의 점수를 받았으며 추론 작업에서는 Claude 3 Opus, GPT-4 및 Gemini 1.5 Pro가 92% 이상의 정확도를 보였습니다.
Uber AI 전 책임자 Gary Marcus는 LLM의 최신 연구 논문은 모두 같은 방향을 가리키고 있으며 십여 개의 LLM은 GPT-4와 한 분야에 있다며"그 중 일부는 GPT-4보다 성능이 약간 낫지만 질적인 비약은 없다.모든 사람들이 GPT-4가 GPT-3.5보다 한 걸음 앞섰다고 말할 것 같지만 이후 1 년 이상 질적 인 비약은 없었다"고 말했다.
제한된 성능 향상에 비해 LLM의 훈련 비용은 계속 상승하고 있습니다.이 모델들을 훈련하는 데는 엄청난 데이터와 수억 개, 심지어 조 개의 매개 변수가 필요하기 때문에 매우 높은 자원 소모를 초래했다.LLM을 훈련하고 실행하는 데 필요한 컴퓨팅 능력과 에너지 소비는 혀를 내두르게 하며, 이로 인해 소규모 조직이나 개인이 핵심 LLM 개발에 참여하기 어렵게 된다.
국제에너지기구는 데이터센터, 암호화폐, 인공지능 관련 전력이 2026년까지 소비되면 대체로 일본 전국의 전기사용량과 맞먹을 것으로 추정했다.
OpenAI CEO Sam Altman은 MIT의 한 행사에서 GPT-4를 훈련하는 비용이 최소 1억 달러라고 밝힌 바 있으며, Anthropic의 CEO Dario Amodei는 향후 훈련 모델의 비용이 1000억 달러에 이를 수 있다고 예측했다.
또한 LLM을 사용하는 데 필요한 도구와 기술의 복잡성은 개발자의 학습 곡선을 증가시킵니다.훈련에서 배치에 이르기까지 전 과정이 오래 걸리고 개발 속도가 느려졌다.케임브리지 대학의 한 연구에 따르면 회사는 기계 학습 모델을 배포하는 데 90 일 이상 걸릴 수 있습니다.
LLM의 또 다른 중대한 문제는 모델이 생성하는 출력이 합리적으로 보이지만 실제로는 정확하지 않다는'환각'을 일으키기 쉽다는 것이다.이는 LLM의 훈련 방식이 데이터의 패턴에 따라 정보를 실제로 이해하는 것이 아니라 다음 가능한 단어를 예측하기 때문입니다.따라서 LLM은 거짓 진술을 생성하거나 사실을 조작하거나 관련되지 않은 개념을 터무니없는 방식으로 조합할 수 있다고 자신할 수 있습니다.이러한"환각"을 감지하고 줄이는 방법은 신뢰할 수 있고 신뢰할 수있는 언어 모델을 개발하는 지속적인 과제입니다.
확장 매개 변수는 성능을 향상시키는 유일한 경로가 아닙니다.
LLM의 거대한 에너지 수요에 대한 우려와 기업에 더 다양한 AI 옵션을 제공할 수 있는 시장 기회는 기술 회사들로 하여금 점차 SLM으로 관심을 돌리게 했다.
매일경제신문 기자는 Arcee, Sakana AI, Hugging Face 등 AI 스타트업이나 거대 기술 기업들이 SLM과 더 경제적인 방식으로 투자자와 고객을 끌어들이고 있다는 점에 주목했다.
앞서 구글, 메타, 오픈AI, 앤트로픽은 플래그십 LLM보다 더 컴팩트하고 유연한 소형 언어 모델을 발표했다.이는 개발 및 배포 비용을 절감할 뿐만 아니라 비즈니스 고객에게 더 저렴한 솔루션을 제공합니다.투자자들이 AI 기업의 높은 비용과 불확실한 수익을 점점 더 우려하고 있다는 점을 감안할 때 더 많은 기술 회사들이이 길을 선택할 수 있습니다.마이크로소프트와 엔비디아조차도 현재 자사의 소형 모델 (SLM) 을 차례로 출시하고 있다.
SLM은 LLM의 씬 버전으로, 더 적은 매개변수와 더 간단한 설계로 몇 분 또는 몇 시간만 필요한 데이터와 훈련 시간이 줄어듭니다.이를 통해 SLM은 더욱 효율적이고 소형 장치에 쉽게 배포할 수 있습니다.예를 들어, 슈퍼컴퓨팅 리소스를 사용하지 않고 휴대폰에 내장하여 비용을 절감하고 응답 속도를 크게 향상시킬 수 있습니다.
마이크로소프트는 소형 모델 기술 보고서에서 Phi-3.5-mini-instruct는 휴대폰 로컬 배포를 위해 설계된 고성능 언어 모델이라고 밝혔다.
SLM의 또 다른 주요 장점은 특정 애플리케이션에 대한 전문화입니다.SLM은 특정 작업이나 영역에 집중되므로 실제 응용 프로그램에서 더욱 효율적입니다.예를 들어, 정서 분석, 명명 실체 식별 또는 특정 분야의 문답에서 SLM은 종종 일반 모델보다 우수하다.이러한 맞춤화를 통해 기업은 특정 요구 사항을 효율적으로 충족하는 모델을 만들 수 있습니다.
SLM은 일반적으로 더 좁고 목적성 있는 데이터 세트에서 훈련하기 때문에 특정 영역에서도"환각"이 잘 나타나지 않습니다. 이는 모델이 작업과 가장 관련된 패턴과 정보를 학습하는 데 도움이 됩니다.SLM의 집중은 연관성이 없거나 예기치 않거나 일관성이 없는 출력을 생성할 가능성을 낮춥니다.
비록 규모가 작지만 SLM은 어떤 면에서는 큰 모델에 뒤지지 않는 성능을 가지고 있다.마이크로소프트가 최근 출시한 Phi-3.5-mini-instruct는 38억 개의 매개변수만 보유하고 있지만 Llama3.18B와 Mistral 7B와 같은 매개변수보다 성능이 훨씬 뛰어나다.미국 노스이스턴대학 언어모형연구전문가 Aaron Mueller는 다음과 같이 지적했다. 매개 변수의 수량을 확장하는것은 모형의 성능을 제고하는 유일한 경로가 아니며 더욱 높은 품질의 데터를 사용하여 훈련해도 류사한 효과를 산생할수 있다.
OpenAI CEO Sam Altman은 4 월 행사에서 현재 거대한 모델 시대의 말기에 있다고 믿는다며"우리는 다른 방식으로 그들의 표현을 향상시킬 것"이라고 말했다.
그러나 SLM의 전문화가 큰 장점이지만 한계가 있다는 점에 유의해야 한다.이러한 모델은 특정 훈련 영역 외에서 잘 작동하지 않을 수 있으며, LLM에 비해 광범위한 주제에 대한 관련 내용을 생성할 수 없는 광범위한 지식 라이브러리가 부족할 수 있습니다.이 제한은 조직이 여러 SLM을 배치하여 서로 다른 수요 영역을 커버할 수 있도록 해야 하며, 이는 AI 인프라를 복잡하게 할 수 있다.
AI 분야의 급속한 발전에 따라 소형 모델의 표준은 계속 변화할 수 있다.도쿄의 소형 모델 스타트업 사카나의 공동 창업자 겸 최고경영자 데이비드 하는 몇 년 전 방대해 보였던 AI 모델이 지금으로서는"적중해 보인다"고 말했다."크기는 항상 반대입니다."라고 David Ha가 말했습니다.
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- AI 열풍에 엔비디아를 놓쳤다?헤지펀드 큰손들이 소리쳤다: 이"싼 물건"을 사들여라!
- "미국 주식 시세 전"3대 선물은 유명 중국 견적주가 약간 상승하는 것을 가리킨다;문원지행은 미국 IPO 재개 최고 평가액이 약 50억 달러입니다.패션 명품 그룹 Capri는 44% 이상 하락했습니다.마이크로소프트 CEO 나델라 임금 63% 오른 7910만 달러
- 엔비디아 차세대 AI 칩 GB200 주문 폭발 H100 칩 냉방
- ParTec, 뮌헨에서 엔비디아 특허침해 소송 제기
- 미국 주식 거래액 상위 20: 마이크로소프트 실적 후 6% 이상 하락, 2년 만에 최대 하루 하락폭 기록
- 마이크로소프트는 인공지능 분야에서 CoreWeave 데이터 센터를 사용할 것으로 알려졌다
- 사모 선두 경림 미국 주식 보유 폭로: 엔비디아, 마이크로소프트 추가 창고 애플, 텐센트 음악 등
- '트럼프 2.0'은 엔비디아에 어떻게 영향을 미칠까?월가의 공감대: 더 많은 것은 호재이다!
- 극크립톤 7X 모델 인도량 2만 초과
- 황인훈 중대발표!엔비디아, 소프트뱅크와 합작 소프트뱅크, AI 배치 가속화
-
"영비릉: 2024회계연도 영업수입 동기대비 8% 감소"영비릉은 2024회계연도 재무제보를 발표했다.2024 회계연도 매출은 149억5500만 유로로 전년 동기 대비 8% 감소했습니다.이익은 31억 500만 유로입니다.이익률은 ...
- 勇敢的树袋熊1
- 3 일전
- Up
- Down
- Reply
- Favorite
-
계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
- 勇敢的树袋熊1
- 그저께 15:27
- Up
- Down
- Reply
- Favorite
-
본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
- 家养宠物繁殖
- 어제 15:21
- Up
- Down
- Reply
- Favorite
-
11월 12일 소식에 따르면 소식통에 따르면 아마존은 무료스트리밍서비스 Freevee를 페쇄하고 일부 종업원과 프로를 구독서비스 Prime Video로 이전할 계획이다. 올해 초 아마존이 내놓은 몇 편의 대형 드라마의 효 ...
- 度素告
- 그저께 13:58
- Up
- Down
- Reply
- Favorite