Directional Stimulus Prompting
Li et al., (2023) (opens in a new tab) propose une nouvelle technique d'incitation pour mieux guider le LLM dans la génération du résumé souhaité.
Une politique accordable LM est entraînée pour générer le stimulus/indice. Voir plus d'utilisation de RL pour optimiser les LLM.
La figure ci-dessous montre comment un prompt de stimulation directionnelle se compare à un prompt standard. Le LM de politique peut être petit et optimisé pour générer les conseils qui guident un LLM gelé en boîte noire.

Image Source: Li et al., (2023) (opens in a new tab)
Exemple complet à venir !