行业资讯

AI“百模大战”开打,谁能称王?
发布者:鸿腾智能科技(江苏)有限公司 发布时间:2023-04-28 10:18:05 点击次数:411 关闭
“根据目前的反馈,在包括ChatGPT在内的任务性能测试中,没有一款大模型能够完全达标。”基本上,这是业界对大型AI模型出现的共识。
随着ChatGPT的推出,基于大语言模型技术的同类产品不断快速涌现。4月以来,从最大的互联网公司到上市公司,以及多家初创企业、高校和科研院所,相继发布了自己的大型模型,总数已超过30个。

短短几个月,出现了很多模特。他们每个人的实力如何?国产大机型是否过剩?行业博弈结束,是一片繁荣还是赢者通吃?在这场关于技术变革、大模型带来的新机遇的讨论中,哪些是最关键、最有可能产生长期影响的?
▍大型AI模型如雨后春笋般冒出来,任务完成测试还未“满分”
据民生证券统计,目前国内已经出现了30多家大型模式,行业呈现出“百家争鸣”的景象。
图片
据科创板日报记者采访的AI行业人士反馈,目前业界尚未对具体模式出台直接评估,但已经为外界提供了一些维度来评估。与......有关。
Aspire联合创始人兼首席科学家、上海交通大学教授余凯在接受《科创版日报》记者采访时表示,必须承认的一个事实是,只有ChatGPT通过了通用测试。目前的大机型(用户已经过亿),与国内的大机型相比,还是有差距的。
余凯告诉记者,要衡量一个大模型的强弱,首先是基于任务的性能测试,即通过定义一组任务来比较所有大模型在每个任务上的表现。这个性能测试是针对人类的能力量身定做的,包括理解、推理、判断等。根据目前的反馈,在任务性能测试中,包括ChatGPT在内,没有一个大模型能够满足所有的标准。
其次,从安全角度来看,这更多体现在大模型与人的价值之间的耦合程度。
三是模型性能的角度,根据工程特点进行评估。“这是一个特别重要的特性,”于凯强调,比如大型模型可以接收的文本量、响应和响应速度,以及运行效率。
余凯表示,重点关注技术指标。当然,也有资源禀赋层面的考核。
大模型领域资深行业代表王军(化名)告诉记者,大模型开发对团队的要求非常高,不能缺少资金、技术、工程、产品、商业化等,最终考验的是:核心是会员们是否真正想好了整体的方向和节奏,能否得到足够的资源和支持,能否吸引到各方面的骨干人才加入,吸引到一批优秀人才后各行各业的人,能不能跑好。
“基础算法研究和平台工程方面的技术人才是其中最缺乏的,整个华人圈内这方面的人才不多。”王军强调。
人才竞争在大幅面模型市场的早期阶段就体现得淋漓尽致。
“征兵”的百度派CTO王海峰掌舵。在创业者团队中,兰州科技的周明、联元科技的周博文等人,他们对AI行业的影响难以言喻。此前,高调正式表态人工智能创业的王慧文,先是在个人社交平台上发文豪迈入局,并斥巨资(持股75%)招聘研发领域的顶尖人才。
“判断一项工作做得好不好的标准,不能仅凭企业自己的宣传。当然,一些行业公认的基准也可以作为参考,但最重要的是用户同意,尤其是用户同意。”与顶级或付费用户。最好。”王军说。
▍《走近AGI核心行业应用》泛化是关键
由于各种商业原因,外界很难全面了解各个公司大机型的实际数据、回报率、投入的资源,甚至用户数据,因此也难以做出完全科学的评估其判断力。
不过,记者注意到,所有受访者都提到了明确的“用户反馈”评价角度,比如响应速度、准确性、有用性、上下文响应一致性的逻辑等。因此,每有一款新的大型车型问世,用户第一时间关注的答案就是,会不会“翻车”。
对于国内几款具有代表性的大型机型,科创报记者早有体会,结合众多用户的反馈,目前的大型机型普遍具有以下特点:
ChatGPT-4是一个大规模的多模态语言模型,支持以文本形式输入和输出图像和文本。在“模拟人”的文本输出和用户规模方面,具有全面领先的实力。
相比之下,国内大型机型种类繁多,各有千秋,目前更注重产业应用研究,解决产业技术壁垒问题。
在中文语义方面,包括文心一言和千一通文在内的国产模型在理解能力上存在差异,并没有明显的差距。直径在理解中文句子方面,由于国内大型模型的训练数据主要来自中文语料,相比ChatGPT主要来自英文语料,国内大型模型会更胜一筹。
但也有一个例子。复旦大学邱锡鹏教授团队发布了国内首个类ChatGPT模型MOSS。他的英语反应水平高于中文。究其原因,是英语作为科学研究的主要语言,在学术界和工业界的广泛应用,积累了大量高质量的聚合数据。,并且与中文数据相比,英文数据的开源程度更高。
此外,MOSS的设计考虑了人类伦理和道德原则,不会产生有偏见或潜在有害的反应,从而在一定程度上避免了潜在的法律风险和商业道德问题。ChatGPT目前没有明确解决这个问题。
大模型评级不断来来去去。不过,于凯坦言,现在还不是评判每款车型能力好坏的时候。
在他看来,现在已经发布的大模型的变化是,基本实现了思路的出现,接近了AGI(通用人工智能)的核心,现在业界更关心的是大模型是否模型它们具有足够的“普遍性”,即它们被广泛使用,但从工业角度来看,大型模型的家庭用户水平尚未达到普遍存在。
“在达到大范围普适性之前,以普适性标准进行评价仍需谨慎。”余凯强调。
▍大模特不是多余的,先手未必是“王”
很多车型在短时间内同时涌入市场,也有意见,我们现在需要那么多大车型吗?也就是说,现在大机型是不是过剩了?
业内人士普遍认为,虽然现在大机型如此之多,但还远远没有达到过剩的程度。
王军认为,大尺寸车型需要厂商的技术、资金和实力,目前只能说只能用现在的产品。
于凯表示,未来AI在工业领域的应用范式将从一个通用模型转变为一个通用模型的集群,大模型将进行差异化,例如按领域、功能、链接到特定行业和特定场景。现在来看,非常专业和大范围的精密模型还没有出现,以后还会出现。
大观数据创始人兼CEO陈运文也对科创板日报记者表示,大规模赛道模型目前在国内处于探索和追赶阶段,技术本身还不成熟。未来仍有很大的增长空间。“像现在的饮料品牌,如果从长远来看,目前大型号的数量很少。”
那么未来,行业的最终结果是百花齐放,还是胜者为王?
于凯和陈允文表示,未来会百花齐放。原因是它现在还处于起步阶段。未来每个行业长出的大模型产品形态会有所不同,针对不同行业,也会有针对垂直行业的应用模型。
王军表示,大模型的门槛高,是只有少数玩家能做的事情。未来会不会是百花齐放的姿态,而是像搜索引擎一样,会不会是只有两三个操作系统的局面,多一些变数。
多位资深业内人士告诉科创板日报记者,OpenAI只是暂时领先AI模式的“先手棋”。微软在绑定OpenAI后确实取得了一定的竞争优势,但这要看谷歌、亚马逊、Meta等也在迎头赶上。评估哪家公司能够引入大型AI模型以达到与今天的苹果相同的全球市场地位,仍然是极其困难的。先手不是末王的情况太多了。以中国互联网的发展为例,最早起步的是新浪、搜狐和网易,而后来真正拔得大蛋糕头顶的是腾讯、阿里和字节。
▍更加关注和深入思考AI场景
无论是ChatGPT的惊人表现,还是对“100模型之战”的思考,今天讨论大规模模型的本质无外乎是这场技术革命给人类带来的机遇与挑战。
不过,据网易CEO周峰介绍,有道博士。很可能会产生长期影响。
周峰认为,相比以往的许多自然语言处理技术,大语言模型至少具备三个新的基础能力:出现能力、作为基础模型支持多种应用的能力、作为基础模型支持对话的能力。统一输入。
周峰表示,新兴能力之所以重要,不仅是因为大机型出现后是新的机会,还因为大机型涌现出来的能力,大部分都非常重要。例如,常识推理能力一直是人工智能领域的一大难题,大模型的出现让常识推理有了长足的进步。例如,一旦出现“推理”能力,就可以采用“思维链提示”策略来解决一个多阶段推理问题。“所以新兴能力的出现是大模型带来的根本性变化。”
在一个基座上关于模型,周峰表示,大型模型不仅可以缩短每个具体应用的开发周期,减少所需的人力投入,而且基于推理、常识和编写大型模型的能力,可以获得更好的应用效果。因此,一个大模型可以成为开发人工智能应用的统一基础模型,是一种全新的范式,服务于多种用途,值得大力推广。
这一轮大语言模型普及的机会是基于对话和聊天的ChatGPT。周峰表示,虽然之前的聊天机器人存在各种问题,但大规模语言模型的出现再次让聊天机器人的交互方式被重新构想。未来可能会创建许多类似的项目,让助手以对话的形式执行各种特定任务。
“这三种可能性在学术界已经被广泛讨论,甚至被认为是常识,但缺乏产业和产品团队的足够重视。”我们思考业务和产品规划的方式也会改变很多产品的经济模型,因此产品经理和业务负责人需要更加关注和深入思考这些新机会的应用场景。”
余凯还认为,在这次技术变革中,除了技术层面的参数大小,算法、算力、数据、人才基金等等人工智能系统相关的东西都在讨论。
这些包括理解语言、理解对话式AI和理解多模态AI。这些不仅是个别算法的问题,还与业务、训练策略或理解人工智能技术的历史有关。

商务咨询 商务咨询
关于我们 产品展示 广告设计 客户案例 技术支持 联系我们

电话:0511-86930535(工作日)

手机:177-6865-8888(微信同号)

手机:137-7550-8287(微信同号)

零售:137-7550-7308(微信同号)