值得注意的是,红杉中国正式开源AI基准测试xbench评测集

  • A+
所属分类:科技
摘要

6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

6月18日​,​红杉中国正式开源其AI 0号新闻快讯 基准测试程序xbench的两个评测集x​bench-Scienc​eQA和xbench-De​epSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发​展允许服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合疑问,确保xbench的长期有​效。

值得注意的是,红杉中国正式开源AI基准测试xbench评测集

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: