Loading...
大语言模型(LLM)尽管在各种语言任务中表现抢眼,但通常仅限于处理上下文窗口大小范围内的文本。有越来越多的基准被提出来测试LLM的长文本理解能力。当前具有代表性的长文本评测主要包括Zero-SCROLLS、L-Eval、LongBen...