Studie zjistila, že požadování krátkých odpovědí od chatbotů může zvýšit halucinace
Phare (Potential Harm Assessment & Risk Evaluation) je benchmark, který hodnotí chování LLM v několika kritických oblastech: faktická přesnost, odolnost vůči dezinformacím, schopnost vyvracet mýty a spolehlivost nástrojů.
Hodnocení probíhá prostřednictvím systematického procesu zahrnujícího sběr jazykově specifického obsahu, generování testovacích případů, lidské anotace a hodnocení modelů.
Klíčová zjištění
- Oblíbenost modelu nezaručuje faktickou spolehlivost: Některé široce používané modely generují přesvědčivě znějící, ale fakticky nesprávné odpovědi.
- Formulace otázky ovlivňuje schopnost modelu odhalit nepravdy: Způsob, jakým je otázka položena, může významně ovlivnit schopnost modelu poskytnout správnou odpověď nebo vyvrátit nepravdu.
- Systémové instrukce mají zásadní dopad na míru halucinací: Nastavení a instrukce, které model obdrží, mohou dramaticky ovlivnit jeho tendenci k halucinacím.
- Krátké odpovědi zvyšují riziko chyb: Když jsou modely instruovány, aby odpovídaly stručně, mají menší prostor pro identifikaci a opravu chybných předpokladů v otázkách.
- Přednost stručnosti před přesností: Modely často upřednostňují krátkost odpovědi na úkor její správnosti, což může vést k šíření dezinformací.
- Důsledky pro vývojáře: Instrukce jako „buď stručný“ mohou neúmyslně narušit schopnost modelu odhalovat a opravovat nepravdivé informace.
Závěr
Studie zdůrazňuje, že halucinace představují významné riziko při nasazení LLM v reálných aplikacích. Je nezbytné, aby vývojáři a organizace věnovali pozornost těmto rizikům a implementovali strategie ke snížení výskytu halucinací, jako je důkladné testování, úprava systémových instrukcí a zajištění kvality trénovacích dat.
Pro více informací a podrobnosti o benchmarku Phare navštivte originální článek na Hugging Face.