머스크는 OpenAI에 압력을 가하는 오픈 소스 자사의 최고 대형 모델에 대한 행동으로 반격했다
同志们好1
发表于 2024-3-18 13:13:47
1418
0
0
머스크는 자신이 AI 모델에 대한 오픈 소스를 항상 고수한다는 것을 보여주기 위해 알트만과는 전혀 다른 선택을 한 것으로 보인다.3월 17일, 머스크는 Grok-1을 오픈소스로 발표했는데, 이로 인해 Grok-1은 현재 가장 많은 매개변수를 가진 오픈 소스 대언어 모델이 되었고, 3140억 매개변수를 가지고 있어 OpenAI GPT-3.5의 1750억을 훨씬 초과했다.
흥미롭게도 Grok-1이 오픈 소스를 발표한 표지 그림은 Midjourney 생성으로'AI helps AI'라고 할 수 있다.
OpenAI가 오픈하지 않는다고 토로해 온 머스크는 당연히 소셜네트워크서비스 (SNS) 에서"우리는 OpenAI의 개방된 부분을 더 많이 알고 싶다"고 말했다.
Grok-1은 Apache 2.0 프로토콜에 따라 모델 가중치 및 스키마를 개방합니다.이것은 개인이든 상업용이든 사용자가 자유롭게 소프트웨어를 사용, 수정 및 배포할 수 있도록 허용한다는 것을 의미한다.이러한 개방성은 더 광범위한 연구 및 응용 개발을 장려합니다.프로젝트 발표 이후 지금까지 GitHub에서 6.5k 스타 마크를 획득했으며 열기는 계속 증가하고 있습니다.
프로젝트 설명에서 Grok-1은 규모가 큰 (314B 매개변수) 모델이기 때문에 샘플 코드를 사용하여 모델을 테스트하려면 GPU 메모리가 충분한 기계가 필요하다고 명시했습니다.네티즌들은 628GB의 GPU 메모리를 가진 기계가 필요할 수 있다고 말했다.
또한 이 저장소에서 MoE 레이어의 구현 효율은 높지 않습니다. 모델의 정확성을 검증하기 위해 사용자 정의 커널이 필요하지 않도록 하기 위해서입니다.
현재 오픈 소스의 인기 있는 대형 모델에는 Meta의 Llama2, 프랑스의 Mistral 등이 있습니다.일반적으로 오픈 소스 모델을 발표하는 것은 커뮤니티에서 대규모 테스트와 피드백을 전개하는 데 도움이 되며, 모델 자체의 반복 속도도 빨라질 수 있다는 것을 의미한다.
Grok-1은 머스크 산하 AI 스타트업 xAI가 지난 4개월 동안 개발한 하이브리드 전문가(Mixture-of-Experts·MOE) 대형 모델이다.이 모델의 개발 과정을 검토합니다.
xAI 설립을 발표한 후, 관련 연구자들은 먼저 330억 매개변수의 프로토타입 언어 모델 (Grok-0) 을 훈련시켰는데, 이 모델은 표준 언어 모델 테스트 기준에서 LLAMA2 (70B) 의 능력에 가깝지만 더 적은 훈련 자원을 사용했다;
그 후 연구자들은 모델의 추론 및 코딩 능력을 크게 향상시켜 2023 년 11 월에 Grok-1을 개발했습니다. 이 모델은 HumanEval 코딩 작업에서 63.2%, MMLU에서 73% 로 ChatGPT-3.5 및 Inflection-1을 포함한 컴퓨팅 클래스의 다른 모든 모델을 능가하는 강력한 SOTA 언어 모델입니다.
다른 대형 모델과 비교할 때 Grok-1의 장점은 어디에 있습니까?
xAI는 특히 Grok-1은 2023년 10월부터 사용자 정의 훈련 스택을 사용하여 JAX와 Rust에서 훈련하고 특정 임무 (예: 대화) 에 대한 미세 조정을 하지 않은 자신들이 처음부터 훈련하는 큰 모델이라고 강조했다.
Grok-1의 독특하고 기본적인 장점은 X 플랫폼을 통해 실시간으로 세계를 이해할 수 있으며, 이는 대부분의 다른 AI 시스템에서 거부당한 매운 질문에 대답할 수 있다는 것이다.Grok-1 릴리스에 사용된 훈련 데이터는 2023년 3분기까지의 인터넷 데이터와 xAI의 AI 트레이너가 제공한 데이터입니다.
3140억 매개변수의 Mixture-of-Experts 모델은 각 token에 대해 활성 가중치 비율이 25% 이며, 이 방대한 매개변수 양은 강력한 언어 이해와 생성 능력을 제공합니다.
xAI는 앞서 Grok-1이 Grok의 배후에 있는 엔진으로서 자연언어처리임무에 사용되며 문답, 정보검색, 창의작문과 코딩보조를 포함한다고 소개했다.앞으로 긴 컨텍스트의 이해와 검색, 다중모드 능력은 모두 이 모델이 탐색할 방향 중의 하나이다.
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 월마트는 샘의"전치 창고"모델을 복제하여 작은 가게를 열 수도 있다
- DeepMind 오픈 소스 생체 분자 예측 모델 노상 성과는 AI 제약 물결을 일으킬 것인가?
- 바이두 리언굉: 지난 24개월간 AI 업종의 가장 큰 변화는 큰 모형이 기본적으로 환각을 제거한것이다
- "AI 신세대"대모형제조업체 일제히"권"지능체, 리언굉은"생각으로 돈을 벌수 있는 시대"를 맞이하게 된다고 말했다.
- 극크립톤, 전계차종과 함께 광주모터쇼 첫 광대한 지운전 2.0 종단간 Plus 구조 선보여
- 문심일언 사용자 수 4억 돌파, 바이두 오단: 큰 모형이 산업 스마트 엔진을 재창조하고 있다
- 올해 10월 테슬라 모델 Y가 일선, 신일선 도시 모델 판매 1위를 차지했다
- 알리바바 CEO 오영명: AI 발전은 부동한 규모, 부동한 령역의 개원대모형이 필요하다
- 바이두 Q3 핵심 순이익 17% 증가 예상 초과 문심대 모델 하루 조정량 15억
-
상해증권보 중국증권넷소식 (기자 손소정): 11월 20일, 문원지행 WeRide는 산하의 자동운전환경위생차 S6 (이하"문원환경위생차 S6"라 략칭함.) 와 무인도로청소기 S1이 이미 각각 싱가포르 빈해만해안대로 (Marina ...
- 蜜桃成熟时
- 그저께 20:18
- Up
- Down
- Reply
- Favorite
-
중증넷소식 (기자 고개방): 11월 19일, 금융과학기술그룹 신도과학기술 (NYSE: FINV) 은 2024년 3분기 회계감사를 거치지 않은 재무보고를 발표했다.회사의 3분기 매출은 32억 7600만 위안 (인민폐, 이하 같음) 으 ...
- Cherry95
- 3 일전
- Up
- Down
- Reply
- Favorite
-
11월 19일, 애플 중국공식사이트는 보기 드물게 App상점과 국내 App개발자의 수익상황을 발표했는데 한 국내 대학교수의 연구보고를 인용하여 풍랑에 떠오른"애플세"논란에 측면적으로 대답했다. 얼마 전 # 애플 위 ...
- 世雨8
- 그저께 19:05
- Up
- Down
- Reply
- Favorite
-
AI 서버 제조사 초미세 컴퓨터,'숨통'기회 얻다! 미국 주식의 야간 거래에서 초마이크로컴퓨터의 주가는 한때 50% 가까이 급등했다.증권사 중국 기자가 원고를 발송할 때까지 이 회사의 주가 상승폭은 여전히 40% ...
- 蜜桃成熟时
- 3 일전
- Up
- Down
- Reply
- Favorite