标签摘要下的文章

一文详看大模型长文本如何评估：四大主流评测数据集的任务设计、数据集构建方案

大语言模型（LLM）尽管在各种语言任务中表现抢眼，但通常仅限于处理上下文窗口大小范围内的文本。有越来越多的基准被提出来测试LLM的长文本理解能力。当前具有代表性的长文本评测主要包括Zero-SCROLLS、L-Eval、LongBen...

2023 年 11 月 21 日