知乎上线“AI搜索”功能 中文语料资源短缺有待破解
稀土掘金
发表于 2024-3-21 18:17:35
219
0
0
据知乎创始人、董事长兼CEO周源介绍,知乎的AI搜索集搜索、实时问答和追问功能于一体,而且与其他大模型提供的内容不同,知乎AI搜索的内容均来自社区专业创作者的可信赖内容。
上图为记者测试知乎AI搜索
记者测试发现,在知乎AI搜索中提问“如何使用大模型”,除了其他语言大模型都有的文字回答外,知乎AI搜索还在结果上面列入了内容来源,比如记者测试的问题答案,就有6位答主参与了贡献,并且可以通过点击直接跳转至这些回答页面。
知乎COO、高级副总裁、社区业务负责人张宁在接受21世纪经济报道记者采访时表示,知乎的AI产品一定是建立在社区生态上面的。“我们一直在思考的是,AI搜索搜出的结果,如何再反哺给创作者,让创作者感觉到内容是被更多人看到的”。
所以在内容呈现上,知乎有别于其他模型,会在回答内容中标注内容来源,这样既提升了内容的可溯源性,加大了对创作者的曝光,同时也大大增强了用户对内容的信任度
记者了解到,知乎的AI搜索功能是以AI创业公司面壁智能的大模型产品为基础。面壁智能成立于2022年8月,创始成员全部来自清华大学NLP实验室。2023年3月,知乎作为领投方参与了面壁智能的天使轮融资,同年4月,知乎联合面壁智能发布了“知海图AI”中文大模型。
周源此前曾向21世纪经济报道记者表示,在AI时代,生产力的三要素分别是应用场景、专有数据和基础模型。其中,知乎在应用场景和专有数据方面,占据独特优势。而在基础模型方面,投资面壁智能并与其进行模型共建,是知乎构建基础模型层能力时,选择的一条捷径。
而这次“AI搜索”功能上线,算是知乎在大模型技术应用上的一个阶段性成果。张宁告诉21世纪经济报道,知乎针对AIGC的布局,在ToC产品上会聚焦于“AI搜索”。
“因为AI搜索跟知乎用户的心智是高度对齐的,用户希望在知乎解决问题,希望获得专业可信赖的优质解答,而正是AI搜索所提供的能力”。张宁说。
所以接下来,知乎也会在AI搜索方面投入更多精力,包括在特定的专业领域上进行更多的数据标注,以提高生成内容的可信度。
目前,市面上做AI搜索的公司已经不少,对知乎而言,其拥有的一大优势就是高质量的中文语料。公开数据显示,截至2022年底,知乎累计拥有6310万名内容创作者,他们贡献了约5.06亿条问答内容,覆盖超过1000个垂直领域。
在大模型训练过程中,训练预料质量将直接影响大模型输出内容质量。各个厂商为了提升模型质量,往往会投入大量资源对数据进行标注。但张宁向记者表示,知乎在数据标注上的投入,远低于其他厂商。
张宁进一步表示,知乎AI搜索的第一个版本在春节前一周就已经上线,后面经过一个多月的灰度测试,“我们收到的整体反馈是,回答质量要高于预期”。
在张宁看来,这个结果也印证了知乎中文语料的优质。“说实话,这么短的时间内我们不太可能做特别大规模的数据标注,但取得这样的结果,说明我们的数据底子好。过去大家一直说知乎的内容质量高,这次也通过AI训练的方式进行了验证”。
不过,按照大模型的发展速度,知乎储备的中文语料数据未来或也将捉襟见肘。今年年初,周源在接受记者采访时也曾提到中文语料短缺的问题。他说,中文优质数据的稀缺,导致国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集,或是爬取网络数据。
在他看来,解决中文语料资源短缺的问题,实际上应该是先构建“水库”,然后再去合理使用的过程。但是现在,行业对构建“水库”的工作重视不够,反而都比较看重怎么去“打水”,所以未来几年,中文语料资源短缺都将是一个特别严重的问题。
CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.
You may like
- 明年支持中文!苹果的首台AI手机iPhone 16来了
- 苹果中文AI明年见 换机周期能否开启?
- iPhone 16系列亮相!苹果AI明年支持中文 起售价5999元!一文看清苹果今年最重大发布会
- 铜价长期将飙升?必和必拓:AI浪潮将加剧铜短缺
- 何小鹏驾驶“全球首款AI汽车”亮相云栖大会 深化与阿里云AI算力合作
- 黄仁勋“凡尔赛”感叹:芯片短缺让客户近失控 焦虑情绪满天飞
- 陈睿:B站已上线自研大语言模型 日均支持数十万非中文稿件翻译
- 高通CEO:AI热潮不会导致全球芯片短缺重演
- G20经济体进口贸易限制措施激增,WTO:会造成贸易短缺、价格波动和不确定性
- 人民币重回全球第四大最活跃货币 占比升至3.89%