マスクはオープンソースの自宅トップクラスの大モデルの圧力をOpenAIに対して行動で反撃
布衣小贩2017
发表于 2024-3-18 13:13:46
1328
0
0
AIモデルのオープンソースにこだわり続けていることをアピールするためらしく、マスクはアルトマンとは全く異なる選択をした。3月17日、マースクはオープンソースGrok-1を発表し、これによりGrok-1は現在のパラメータ量が最大のオープンソース大言語モデルとなり、3140億パラメータを持ち、OpenAI GPT-3.5の1750億をはるかに上回った。
興味深いことに、Grok-1がオープンソースを発表した表紙図はMidjourney生成で、「AI helps AI」と言える。
OpenAIをopenしないとツッコミを入れてきたマースク氏は、「OpenAIの開放的な部分をもっと知りたい」と、ソーシャルプラットフォームに影を含まなければならないのは当然だ。
Grok-1はApache 2.0プロトコルに従ってモデル重みとアーキテクチャを開放する。これは、個人的にもビジネス的にも、ユーザーが自由にソフトウェアを使用、修正、配布できるようにすることを意味します。この開放性はより広範な研究と応用開発を奨励した。プロジェクトが発表されてから現在まで、GitHubで6.5 k星印を獲得し、熱は増加し続けている。
プロジェクトの説明では、Grok-1は規模の大きい(314 Bパラメータ)モデルであるため、サンプルコードテストモデルを使用するには十分なGPUメモリを持つマシンが必要であることを明確に強調した。ネットユーザーは、628 GBのGPUメモリを持つマシンが必要かもしれないと話している。
また、リポジトリ内のMoEレイヤの実装効率は高くありません。この実装を選択したのは、モデルの正確性を検証するためにカスタムカーネルが必要にならないようにするためです。
現在オープンソースされている人気の大モデルには、MetaのLlama 2、フランスのMistralなどが含まれています。一般的に、オープンソースモデルをリリースすることは、コミュニティが大規模なテストとフィードバックを展開するのに役立ち、モデル自体の反復速度も速くなることを意味します。
Grok-1はハイブリッド専門家(Mixture-of-Experts、MOE)の大モデルで、マースク傘下のAIベンチャー企業xAIが過去4カ月間に開発した。モデルの開発過程をレビューする:
xAIの設立を発表した後、関係研究者はまず330億パラメータのプロトタイプ言語モデル(Grok-0)を訓練した。このモデルは標準言語モデルの試験基準でLLaMA 2(70 B)の能力に近いが、より少ない訓練資源を使用した。
その後、研究者はモデルの推論と符号化能力を大幅に改善し、最終的にGrok-1を開発し、2023年11月に発表した。これはより強力なSOTA言語モデルであり、HumanEval符号化タスクで63.2%の成績を達成し、MMLUで73%に達し、その計算クラスの他のすべてのモデルを超え、ChatGPT-3.5とInflection-1を含む。
他の大きなモデルと比べて、Grok-1の優位性はどこにあるのでしょうか。
xAIは特に、Grok-1は彼ら自身が一から訓練する大きなモデルであることを強調している。つまり、2023年10月からカスタム訓練スタックを用いてJAXとRustで訓練を開始し、特定のタスク(会話など)に対して微調整を行っていない、
Grok-1のユニークで基本的な利点は、Xプラットフォームを通じてリアルタイムに世界を知ることができ、他のAIシステムの多くに拒否されている辛い質問に答えることができることです。Grok-1リリースで使用されたトレーニングデータは、2023年第3四半期までのインターネットデータとxAIのAIトレーナーが提供したデータから、
3140億パラメータのMixture-of-Expertsモデルは、tokenごとにアクティブな重みの割合が25%であり、この膨大なパラメータ量は強力な言語理解と生成能力を提供します。
xAIはこれまで、Grok-1をGrokの背後にあるエンジンとして、問答、情報検索、クリエイティブライティング、コーディング支援を含む自然言語処理タスクに使用することを紹介してきた。将来的には、長いコンテキストの理解と検索、マルチモーダル能力は、モデルが探索する方向の1つである。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 百度沈震:10万カード計算力クラスターアップグレード計算プラットフォーム能力文心大モデルの日調整量が7億回を超える
- Metaが重量ポンドの新製品を発表:299ドルのクエス3 Sヘッドディスプレイ、ARメガネプロトタイプ、マルチモーダルAIモデル
- 香港株アップル産業チェーンが急騰!iPhone 16 Proモデルの需要は依然として堅調ですが、将来の販売台数はどうでしょうか。
- マースク・Cybercabのリリースが間近!国内の多くの大手企業がRobotaxi中国モデルを模索している
- ウォルマートやサムの「前置倉」モデルをコピーして小さな店を開く
- DeepMindのオープンソース生体分子予測モデルノーベル賞の成果はAI製薬の波を巻き起こすのか?
- 百度李彦宏:過去24カ月、AI業界の最大の変化は大モデルが幻覚をほぼ解消したことだ
- 「AI新世代」の大モデルメーカーがスマートボディを“巻き”、李彦宏氏は「アイデアで稼げる時代が来る」と語る
- 李彦宏氏によると、大模型幻覚は実測文心をほぼ解消したという。
-
11월 14일, 세계예선 아시아지역 제3단계 C조 제5라운드, 중국남자축구는 바레인남자축구와 원정경기를 가졌다.축구 국가대표팀은 바레인을 1-0으로 꺾고 예선 2연승을 거두었다. 특히 이번 경기 국내 유일한 중계 ...
- 我是来围观的逊
- 어제 15:05
- Up
- Down
- Reply
- Favorite
-
계면신문기자 장우발 4분기의 영업수입이 하락한후 텐센트음악은 다시 성장으로 돌아왔다. 11월 12일, 텐센트음악은 최신 재보를 발표했다.2024년 9월 30일까지 이 회사의 3분기 총수입은 70억 2천만 위안으로 전년 ...
- 勇敢的树袋熊1
- 3 일전
- Up
- Down
- Reply
- Favorite
-
본사소식 (기자 원전새): 11월 14일, 다다그룹 (나스닥코드: DADA) 은 2024년 3분기 실적보고를 발표했다. 수치가 보여준데 따르면 고품질발전전략에 지속적으로 전념하고 사용자체험을 끊임없이 최적화하며 공급을 ...
- 家养宠物繁殖
- 그저께 15:21
- Up
- Down
- Reply
- Favorite
-
11월 12일 소식에 따르면 소식통에 따르면 아마존은 무료스트리밍서비스 Freevee를 페쇄하고 일부 종업원과 프로를 구독서비스 Prime Video로 이전할 계획이다. 올해 초 아마존이 내놓은 몇 편의 대형 드라마의 효 ...
- 度素告
- 3 일전
- Up
- Down
- Reply
- Favorite