您正在访问亚汇网香港分站,本站所提供的内容均遵守中华人民共和国香港特别行政区法律法规。

谷歌推出基准测试检验 AI 是否“靠谱”:Gemini 3 Pro 准确率仅 69%

文 / 小亚 2025-12-13 23:02:30 来源:亚汇网

这一测试从四个维度评估模型能力,包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息,以及对图像内容的理解水平。在参测模型中,谷歌的Gemini3Pro表现最好,准确率为69%,其他主流模型则明显落后。这一成绩对企业同样是个警钟。虽然AI在生成速度和语言流畅度上优势明显,但在事实可靠性方面仍然远低于人类标准,特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中。在金融、医疗和法律等高风险行业,即便细小的事实错误,也可能放大成严重后果。报道以《商业内幕》员工梅莉亚?拉塞尔为例,其本周梳理了律师事务所如何应对AI逐渐被当作法律事实来源的现实,结果并不乐观。她提到,有律师事务所的员工使用ChatGPT起草法律文件,结果文件中充斥虚假判例,最终律所直接解雇了该员工。报道指出,谷歌希望通过明确模型出错的位置和方式,加快AI的改进速度。但眼下可以得出的结论非常清楚,AI确实在进步,然而仍有大约三分之一的时间会犯错。参考广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,亚汇网所有文章均包含本声明。

相关新闻

加载更多...

排行榜 日排行 | 周排行