Artificial Intelligence Paper Rankings

The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents

Manvendra Modgil

1376

50%

Jun 2, 2026

136

HLL: Can Agents Cross Humanity's Last Line of Verification?

Xinhao Song, Su Su +6

Harnessing Generalist Agents for Contextualized Time Series

Zihao Li, Kaifeng Jin +6

TSQAgent: Rating Time Series Data Quality via Dedicated Agentic Reasoning

Shunyu Wu, Dan Li +6

PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage

Keqi Han, Ryan Young +6

SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

Taewon Yun, Hyeonseong Park +4

PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation

Nicolas Bougie, Xiaotong Ye +2

Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline

Zhikai Chen, Jialiang Gu +6

Solipsistic Superintelligence is Unlikely to be Cooperative

Rakshit S Trivedi, Natasha Jaques +3

DMF: A Deterministic Memory Framework for Conversational AI Agents

Matteo Stabile, Enrico Zimuel

When to Re-Plan: Subgoal Persistence in Hierarchical Latent Reasoning

Ayushi Chadha

Tracking the Behavioral Trajectories of Adapting Agents

Jonah Leshin, Manish Shah +1

Humans' ALMANAC: A Human Collaboration Dataset of Action-Level Mental Model Annotations for Agent Collaboration

Jiaju Chen, Yuxuan Lu +6

Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models

Haoyu Zhou, Qing Qing +6

Repair Before Veto: Repair-Augmented Constraint Learning for Contextual Decisions

Yifan Wang

Tree-Based Formalization of Multi-Agent Complementarity in Human-AI Interactions

Andrea Ferrario

Food Noise & False Safety: A Systematic Evaluation of How LLMs Fail to Adapt to Eating Disorder Queries with Clinician Feedback

Giulia Pucci, Emily Hemendinger +4

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

Joel Sol, Homayoun Najjaran

DragOn: A Benchmark and Dataset for Drag-Based GUI Interactions

Nathan Bout, Maxime Langevin +1

ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents

Anjie Liu, Yan Song +4

Residual Modeling for High-Fidelity Learned Compression of Scientific Data

Liangji Zhu, Sanjay Ranka +1

BigFinanceBench: A Workflow-Grounded Benchmark for Financial-Research Agents

Alex Wang, Georg Meinhardt +5

Online Skill Learning for Web Agents via State-Grounded Dynamic Retrieval

Jiaxi Li, Ke Deng +6

DiG-Plan: Mitigating Early Commitment for Tool-Graph Planning via Diffusion Guidance

Yansi Li, Zhuosheng Zhang

Can LLMs Write Correct TLA+ Specifications? Evaluating Natural-Language-to-TLA+ Generation

Arslan Bisharat, Brian Ortiz +6

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

Saket Reddy, Ke Yang +1

Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection

Gautam Gare, John Galeotti +3

AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety

Yanjing Ren, Reza Ebrahimi +1

Hedge-Bench: Benchmarking Agents on Hard, Realistic Tasks Pertaining to Financial Reasoning

Eric Cho, Shawn Huang +2

AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

Yan Wang, Xuguang Ai +6

StepFinder: A Temporal Semantic Framework for Failure Attribution in Multi-Agent Systems

Taiyu Zhu, Yifan Wu +3

The Digital Apprentice: A Framework for Human-Directed Agentic AI Development

Travis Weber, Rohit Taneja

EpiEvolve: Self-Evolving Agents for Streaming Pandemic Forecasting under Regime Shifts

Yiming Lu, Sihang Zeng +4

Integrating Mechanistic and Data-Driven Models for Neurological Disorders through Differentiable Programming

Shah Pallav Dhanendrakumar, Saikat Pal +1

From Long News to Accurate Forecast: Importance-Aware Fusion and PRM-Guided Reflection for Time Series Forecasting

Mingyang Liu, Qingcan Kang +6

Think-Before-Speak: From Internal Evaluation to Public Expression in Multi-Agent Social Simulation

Kaiqi Yang, Tai-Quan Peng +2

Bridging the Last Mile of Time Series Forecasting with LLM Agents

Yuhua Liao, Zetian Wang +2

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

Jincheng Yu, Haoyang Li +6

An Infectious Disease Spread Simulation Based on Large Language Model Decision Making

Yonchanok Khaokaew, Ruochen Kong +6

Characterizing initial human-AI proof formalization workflows

Katherine M. Collins, Simon Frieder +6

Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking

Bonan Shen, Youting Wang +2

Distilling Answer-Set Programming Rules from LLMs for Neurosymbolic Visual Question Answering

Thomas Eiter, Nelson Higuera Ruiz +1

Agentic Molecular Recovery via Molecule-Aware Exploration

Suwan Yoon, Changhee Lee

Multi-ResNets for Subspace Preconditioning in Constrained Optimization

Merve Karakas, Christopher J. Williams +4

WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation

Shengtao Zheng, Kai Li +6

Answer Presence Drives RAG Rewriting Gains

Yuejie Li, Yueying Hua +6

Parthenon Law: A Self-Evolving Legal-Agent Framework

Hejia Geng, Leo Liu

A formal definition and meta-model for a machine theory of mind

Fabio Cuzzolin

Proof-Refactor: Refactoring Generated Formal Proofs into Modular Artifacts

Yiming Fu, Peixuan Liu +2

The DeepSpeak-Agentic Dataset

Sarah Barrington, Maty Bohacek +1

Uncertainty Aware Functional Behavior Prediction and Material Fatigue Assessment for Circular Factory

Nehal Afifi, Mehdi Khabou +6

Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification

Thanh Luong Tuan, Abhijit Sanyal

When AI Says It Feels

Shin-nosuke Ishikawa, Seiya Ikeda +1

Retry Policy Gradients in Continuous Action Spaces

Soichiro Nishimori, Paavo Parmas

BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction

Qi Wang, Peijie Wang +2

GTBench: A Curriculum-Grounded Benchmark for Evaluating LLMs as Mathematical Research Assistants in Graph Theory

Noujoud Nader, Ibrahem Aljabea +2

Beyond Vector Similarity: A Structural Analysis of Graph-Augmented Retrieval for Industrial Knowledge Graphs

Grama Chethan

SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

Wenxuan Wang, Haoyu Sun +5

Uncertainty-Aware Clarification in LLM Agents with Information Gain

Mengyi Deng, Zhiwei Li +5

MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

Wenhao Wang, Peizhi Niu +6

RASER: Recoverability-Aware Selective Escalation Router for Multi-Hop Question Answering

Yuyang Li, Zihe Yan +1

Evaluating Agentic Configuration Repair for Computer Networks

Rufat Asadli, Benjamin Hoffman +2

Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents

Zhijie Ding, Weinan Hong +6

RelGT-AC: A Relational Graph Transformer for Autocomplete Tasks in Relational Databases

Phillip Jiang

TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management

Shweta Mishra

GITCO: Gated Inference-Time Context Optimization in TSFMs

Manya Pandey, Dhruv Kumar +2

1305

21.1%

Jun 3, 2026

Win-rate scores from pairwise comparisons with 95% confidence intervals. Papers compared using full-text deep analysis.