最新の記事

論文まとめ2026-07-04
AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents
長期AIエージェントの記憶を、全部の履歴ではなく意思決定ごとの型付き契約として見ると何が変わるのか。
#論文まとめ#エージェント記憶読了 8分

論文まとめ2026-07-04
Learning Personalized Agents from Human Feedback
個人向けAIエージェントは、静的なプロフィールではなく、確認と修正で更新されるメモリループとして育てるべきなのでは、という論文。
#論文まとめ#AIエージェント読了 8分

論文まとめ2026-07-03
From Signals to Structure: How Memory Architecture Drives Language Emergence in LLM Agents
LLMエージェント同士が共有言語を作る時、信号の容量よりも履歴をどう記憶するかが効くという論文。
#論文まとめ#エージェント記憶読了 8分

論文まとめ2026-07-02
AutoMem: Automated Learning of Memory as a Cognitive Skill
AIエージェントの記憶を、固定の保存機構ではなく学習できる認知スキルとして見ると何が変わるのか。
#論文まとめ#エージェント記憶読了 8分

論文まとめ2026-07-01
SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions
コーディングエージェントを、一発でパッチを出せるかではなく、ユーザーと要件を発見しながら長い開発セッションを進められるかで評価する論文。
#論文まとめ#コーディングエージェント読了 8分

論文まとめ2026-06-29
Skills for the future software profession: beyond agentic AI!
コーディングエージェント時代に、ソフトウェアエンジニアへ求められる技能がどう変わるのかを考える論文。
#論文まとめ#コーディングエージェント読了 8分

論文まとめ2026-06-29
To Run or Not to Run: Analyzing the Cost-Effectiveness of Code Execution in LLM-Based Program Repair
コーディングエージェントにテスト実行をいつ許すべきかを、成功率とコストの両面から考える論文。
#論文まとめ#コーディングエージェント読了 8分

論文まとめ2026-06-26
Are We Ready For An Agent-Native Memory System?
AIエージェントの記憶を、RAG部品ではなく保存・抽出・検索・保守を持つデータ管理システムとしてどう評価するか。
#論文まとめ#エージェント記憶読了 8分

AI2026-06-26
LLM・AIエージェント論文でよく見るベンチマークの読み方
MMLU、GPQA、SWE-bench、Terminal-Bench、LongMemEval、SkillEvolBenchなど、LLM・AIエージェント論文でよく見る評価ベンチマークを目的別に整理する。
#AI#LLM読了 8分

論文まとめ2026-06-25
Self-Compacting Language Model Agents
長いAIエージェント作業の文脈圧縮を、固定の長さではなく、作業単位が閉じたかで判断する論文。
#論文まとめ#エージェントハーネス読了 8分

論文まとめ2026-06-23
Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation
AIエージェントの経験を、同じ場面だけでなく別タスクや別モデルにも移せる手続き記憶として測る論文。
#論文まとめ#エージェント記憶読了 8分

論文まとめ2026-06-21
Probe-and-Refine Tuning of Repository Guidance for Coding Agents
AGENTS.mdのようなリポジトリガイダンスを、書いて終わりではなく、失敗プローブで穴を見つけて改善する運用資産として扱う論文。
#論文まとめ#コーディングエージェント読了 8分
