资讯 更多 >>
第二十三届工博会精准推动补链强链...
交通协同,让唐山高质量发展之路更畅通
彻底引爆!华为官宣大消息!OPPO再...
菜鸟科技 雄安网络有限公司(关于菜...
外交部:中方将依法对长期插手涉藏...
速达股份IPO铩羽两年再闯关 最重要...
李稻葵:我国供给侧和需求侧有潜力...
预订酒店不成功如何退款
伟思医疗:2023年半年度净利润约705...
新华社记者说|美国记者新疆大巴扎...
动态更多 >>
浙江省乐平市市场监管局全力护航开学季
磷酸锰铁锂概念利好的上市公司有哪...
聊一聊最新款旗舰手机中的存储器
OPPO小折叠刚刚开售 华为Mate X5...
9月7日基金净值:华宝中证科技龙头E...
服务新市民,有我在行动,建行临汾...
昆明市推进机动车驾培行业专项整治...
外地车可以在上海审车吗?_外地的汽...
妙趣横生的5G新通话来了!――北京...
天空:富勒姆与埃弗顿就伊沃比转会...
会展 更多 >>
赛伦生物:业绩说明会定于9月18日举行
渤海大学为2023级新生上“第一堂安...
生物医药园区的招商策略 以良好的...
定边县长茂滩林场志愿者服务队(关于...
这剧情熟!米兰再遭FIFA病毒打击,...
“小学作业不回家!”东城根街小学...
环县:普法教育宣传进校园 为未成...
中科创星Pre-A轮领投高端装备核心部...
韩国去年出生人口数跌破25万,总和...
17家A股上市城商行业绩PK:5家净利...
专题报道 
当前位置: 需求 > >> 正文
 
斯坦福大学研究发现,AI聊天机器人ChatGPT的表现很不稳定
来源:IT之家     时间:2023-09-08 21:21:00


(资料图)

IT之家 9 月 7 日消息,斯坦福大学的一项新研究发现,热门生成式人工智能(AI)聊天机器人 ChatGPT 的能力在几个月内有所波动。

斯坦福大学的团队评估了 ChatGPT 在几个月内如何处理不同的任务。他们发现,ChatGPT 的能力随时间的推移而出现了不一致。目前,ChatGPT 有两个版本 —— 免费的 GPT-3.5 模型和更智能、更快速的付费 GPT-4 版本。 研究人员发现,GPT-4 在 3 月份能够有效地解决数学问题,识别质数的准确率为 97.6%。 三个月后,其准确率下降到了 2.4% 。而另一方面,GPT-3.5 却变得更好,从 7.4% 的准确率提高到了 86.8%。

研究人员还注意到,在编写代码和视觉推理方面也有类似的波动。斯坦福大学计算机科学教授 James Zou 称:“当我们调整一个大型语言模型来提高它在某些任务上的表现时,那可能会有很多意想不到的后果,可能会损害这个模型在其他任务上的表现…… 这个模型回答问题的方式有各种各样的相互依赖性,这可能导致我们观察到的一些恶化行为。”

研究人员认为,结果并不能真正反映 ChatGPT 性能的准确性状态, 而是显示了微调模型带来的意外后果 。本质上, 当修改模型的一部分来改善一个任务时,其他任务可能会受到影响 。为什么会这样很难确定,因为没有人知道 ChatGPT 是如何运作的,而且它的代码也不是开源的。

随着时间的推移,研究人员注意到,ChatGPT 的回答不仅变得不太准确,而且还停止了解释其推理过程。

由于 ChatGPT 的运作方式,要研究和衡量它的表现可能很困难,这项研究强调了观察和评估驱动 ChatGPT 等工具的大型语言模型(LLM)性能变化的必要性。该研究已经在 arXiv 上发布,并正在等待同行评审,IT之家附链接在此。

关键词:

热门推荐
猜你喜欢