LLM as judge — ранжирование и оценка / home / algorithms / llm-as-judge
algorithmrankingevaluation

LLM as judge

LLM используется не для генерации, а для оценки — ранжирования кандидатов, выбора лучшего, проверки качества output'а другого агента.

Когда применять

Паттерн

from pydantic import BaseModel, Field

class JudgeVerdict(BaseModel):
    score: float = Field(ge=0, le=10, description="0-10 quality score")
    reasoning: str = Field(description="Short justification, 1-2 sentences")
    flags: list[str] = Field(default_factory=list, description="Issues found")

# Через LiteLLM + structured output
verdict = llm.with_structured_output(JudgeVerdict).invoke(
    judge_prompt.format(item=item, criteria=criteria)
)

Несколько judges для robustness

verdicts = await asyncio.gather(*[
    judge.invoke(item) for judge in [judge_v1, judge_v2, judge_v3]
])
final_score = median([v.score for v in verdicts])

Подводные камни

Связано

Metadata
title
LLM as judge — ранжирование и оценка
tags
['algorithm', 'ranking', 'evaluation']
created
2026-06-30