Studie zjistila, že požadování krátkých odpovědí od chatbotů může zvýšit halucinace

Phare (Potential Harm Assessment & Risk Evaluation) je benchmark, který hodnotí chování LLM v několika kritických oblastech: faktická přesnost, odolnost vůči dezinformacím, schopnost vyvracet mýty a spolehlivost nástrojů.

Hodnocení probíhá prostřednictvím systematického procesu zahrnujícího sběr jazykově specifického obsahu, generování testovacích případů, lidské anotace a hodnocení modelů.

Klíčová zjištění

Oblíbenost modelu nezaručuje faktickou spolehlivost: Některé široce používané modely generují přesvědčivě znějící, ale fakticky nesprávné odpovědi.
Formulace otázky ovlivňuje schopnost modelu odhalit nepravdy: Způsob, jakým je otázka položena, může významně ovlivnit schopnost modelu poskytnout správnou odpověď nebo vyvrátit nepravdu.
Systémové instrukce mají zásadní dopad na míru halucinací: Nastavení a instrukce, které model obdrží, mohou dramaticky ovlivnit jeho tendenci k halucinacím.
Krátké odpovědi zvyšují riziko chyb: Když jsou modely instruovány, aby odpovídaly stručně, mají menší prostor pro identifikaci a opravu chybných předpokladů v otázkách.
Přednost stručnosti před přesností: Modely často upřednostňují krátkost odpovědi na úkor její správnosti, což může vést k šíření dezinformací.
Důsledky pro vývojáře: Instrukce jako „buď stručný“ mohou neúmyslně narušit schopnost modelu odhalovat a opravovat nepravdivé informace.

Závěr

Studie zdůrazňuje, že halucinace představují významné riziko při nasazení LLM v reálných aplikacích. Je nezbytné, aby vývojáři a organizace věnovali pozornost těmto rizikům a implementovali strategie ke snížení výskytu halucinací, jako je důkladné testování, úprava systémových instrukcí a zajištění kvality trénovacích dat.

Pro více informací a podrobnosti o benchmarku Phare navštivte originální článek na Hugging Face.