最新の記事

Skills for the future software profession: beyond agentic AI!
コーディングエージェント時代に、ソフトウェアエンジニアへ求められる技能がどう変わるのかを考える論文。

To Run or Not to Run: Analyzing the Cost-Effectiveness of Code Execution in LLM-Based Program Repair
コーディングエージェントにテスト実行をいつ許すべきかを、成功率とコストの両面から考える論文。

Are We Ready For An Agent-Native Memory System?
AIエージェントの記憶を、RAG部品ではなく保存・抽出・検索・保守を持つデータ管理システムとしてどう評価するか。

LLM・AIエージェント論文でよく見るベンチマークの読み方
MMLU、GPQA、SWE-bench、Terminal-Bench、LongMemEval、SkillEvolBenchなど、LLM・AIエージェント論文でよく見る評価ベンチマークを目的別に整理する。

Self-Compacting Language Model Agents
長いAIエージェント作業の文脈圧縮を、固定の長さではなく、作業単位が閉じたかで判断する論文。

Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation
AIエージェントの経験を、同じ場面だけでなく別タスクや別モデルにも移せる手続き記憶として測る論文。

Probe-and-Refine Tuning of Repository Guidance for Coding Agents
AGENTS.mdのようなリポジトリガイダンスを、書いて終わりではなく、失敗プローブで穴を見つけて改善する運用資産として扱う論文。

Ctx2Skill
長い文脈や複雑なルールから、あとで再利用できる自然言語スキルを作れるかを扱う論文。課題生成、回答、採点、更新を回してスキル化を試す。

Multi-Agent Transactive Memory
LLMエージェントが実行中に生んだ行動軌跡を、別のエージェントが検索して再利用できる共有記憶として扱う論文。

Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness
AI科学者の研究過程をモデル内部に閉じず、証拠、アイデア、実験、修復、主張監査を外部成果物として残す論文。

A Framework for Evaluating Agentic Skills at Scale
エージェントスキルやSKILL.mdのような手順書が、本当に行動と成果を変えているかを測る評価フレームワーク。代表タスク、隠し評価基準、スキルあり/なし比較で効き方を見る。

AgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases
企業ナレッジベースの上で、LLMが検索、閲覧、要約を使い分けるエージェント型RAGの論文。固定検索だけでは届かない質問に、どこまで自律探索を足すべきかを見る。
