1件の記事
MMLU、GPQA、SWE-bench、Terminal-Bench、LongMemEval、SkillEvolBenchなど、LLM・AIエージェント論文でよく見る評価ベンチマークを目的別に整理する。