type
status
date
slug
summary
tags
category
password
Date
Free
Free
Link
xhsContent
Price
xhsTitle
🌈 I feel
icon

🎨 特点:LiveBench是一个为LLMs(大型语言模型)设计的基准测试,旨在通过定期发布新问题,以及基于最新数据集、arXiv论文、新闻文章和IMDb电影梗概的问题来限制潜在污染。每个问题都有可验证的、客观的真实答案,允许准确、自动地评分困难问题,而无需LLM评判。LiveBench目前包含6个类别中的18项不同任务,并将随时间推出新的、更难的任务。
🔗 体验地址: https://livebench.ai/#/
- Author:AGILab
- URL:http://agilab.top/article/19db5a16-2acd-8181-b2d8-cd36e05c9194
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!