🤖LiveBench: 全新无污染的LLM基准测试
00 min
2025-2-17
2025-2-17
type
status
date
slug
summary
tags
category
password
Date
Free
Free
Link
xhsContent
Price
xhsTitle
🌈 I feel
icon
notion image
🎨 特点:LiveBench是一个为LLMs(大型语言模型)设计的基准测试,旨在通过定期发布新问题,以及基于最新数据集、arXiv论文、新闻文章和IMDb电影梗概的问题来限制潜在污染。每个问题都有可验证的、客观的真实答案,允许准确、自动地评分困难问题,而无需LLM评判。LiveBench目前包含6个类别中的18项不同任务,并将随时间推出新的、更难的任务。 🔗 体验地址: https://livebench.ai/#/