10월 31일, 알리 클라우드는 천억급 매개변수 대모델 통의천문 2.0을 정식으로 발표했다.10개 권위있는 평가에서 통의천문2.0은 종합성능이 GPT-3.5를 초과해 GPT-4 추격을 가속화하고 있다.이날 통의천문 앱은 각종 모바일 앱 시장에서 정식 출시돼 누구나 앱을 통해 최신 모델 능력을 직접 체험할 수 있다.
통의 천문 72B 곧 오픈 소스
지난 6개월간 통의천문2.0은 성능면에서 거대한 비약을 이룩했다. 4월에 발표한 1.0판본에 비해 통의천문2.0은 복잡한 지령리해, 문학창작, 통용수학, 지식기억, 환각방어 등 능력에서 모두 뚜렷이 제고되였다.현재 통의천문의 종합성능은 GPT-3.5를 넘어 GPT-4 추격을 가속화하고 있다.
통의천문2.0 종합성능이 GPT-3.5를 넘어 GPT-4 추격을 가속화하고 있다
MMLU, C-Eval, GSM8K, HumanEval, MATH 등 10개 주류 Benchmark 평가집에서 통의천문2.0의 득점은 전체적으로 Meta의 Llama-2-70B를 앞질렀다. OpenAI의 Chat-3.5에 비해 9승 1패, GPT-4에 비해 4승 6패로 GPT-4와의 격차를 더욱 좁혔다.
중국어와 영어의 이해 능력은 대언어 모델의 기본기이다.영어 임무의 경우, 통의천문2.0은 MMLU 기준에서 GPT-4에 버금가는 82.5의 점수를 받았는데, 매개변수의 양을 대폭 증가시킴으로써 통의천문2.0은 복잡한 언어 구조와 개념을 더 잘 이해하고 처리할 수 있다;중국어 임무 방면에서 통의천문2.0은 뚜렷한 우세로 C-Eval 기준에서 최고 점수를 받았는데, 이는 모델이 훈련 중에 더 많은 중국어 어료를 학습하여 중국어 이해와 표현 능력을 한층 더 강화했기 때문이다.
수학추리, 코드리해 등 분야에서 통의천문2.0의 진보가 뚜렷하다.추리 벤치마킹 GSM8K에서 통의천문이 2위를 차지해 강력한 계산과 논리적 추리력을 과시했다.HumanEval 테스트에서 통의천문점수는 GPT-4와 GPT-3.5를 바짝 뒤따랐다. 이 테스트는 주로 큰 모형이 코드단편을 리해하고 집행하는 능력을 측정했다. 이 능력은 큰 모형이 프로그래밍보조, 자동코드복구 등 장면에 응용되는 기초이다.
통의 천문 2.0 발표
통의천문은 더욱 성숙해지고 더욱 잘 사용되였다.통의천문2.0은 지령준수, 도구사용, 정밀화창작 등 면에서 기술최적화를 하여 하류응용장면에 더욱 잘 집적될수 있다.통의대모형공식사이트는 다모태와 플러그인기능을 오픈하여 사진입력, 문서해석 등 세분화임무를 지원하였다.
이와 동시에 통의대모델훈련에 기초한 8대 업종모델집단이 개통되였다. 그들은 각각 통의령코드-지능코딩조수, 통의지문-AI 열독조수, 통의청오-사업학습AI 조수, 통의성진-개성화역할창작플랫폼, 통의점금-지능투연구조수, 통의효밀-지능고객센터, 통의인심-개인전속건강조수, 통의법예-AI 법률고문이다.8대 업계 모델은 현재 가장 인기 있는 여러 수직 장면을 대상으로 분야 데이터를 사용하여 전문 훈련을 한다.사용자는 홈페이지에서 모델 기능을 직접 체험할 수 있으며, 개발자는 홈페이지 임베디드, API/SDK 호출 등을 통해 모델 능력을 자신의 대형 모델 응용과 서비스에 통합할 수 있다.
통의대모델 가족 전면 업그레이드, 8대 업계 모델 그룹 출시
10월까지 알리윈은 이미 60여개 업종의 머리파트너와 심층적인 협력을 진행하여 통의천문이 사무, 문려, 전력, 정무, 의료보험, 교통, 제조, 금융, 소프트웨어개발 등 분야에서의 착지를 추동했다.
저우징런은 알리 클라우드가 최근 오픈 소스 퉁이 천문 72B 버전을 오픈할 계획이며, 이전에 알리 클라우드는 이미 선후로 7B와 14B 버전 모델을 오픈하여 모델 누적 다운로드 수가 100만 명을 넘었다고 밝혔다.알리 클라우드는 천행백업의 개발자들이 통의 천문 오픈 소스 모델을 기반으로 모델과 응용 혁신을 진행할 수 있도록 지속적으로 지원할 것이다.