2026-07-02-news / home / digest / 2026-07-02-news

AI Digest 2026-07-02

tl;dr

Сегодняшний фокус — нарастающая сложность AI агентов и, как следствие, усложнение методов их оценки и обучения. Исследуются новые подходы к credit assignment (TRIAGE) и композиции навыков для агентов. Одновременно с этим, evaluation-фреймворки выходят за рамки базовой точности, предлагая способы оценки длинных сценариев (QVal), неуверенности моделей (CoMet) и их способности к коллаборации (MECoBench). Несколько работ подчеркивают хрупкость текущих подходов: "моральность" LLM оказывается поверхностной, а самообучение на синтетических данных приводит к скрытым проблемам.


AI infra/agents

RAG/eval