Directional Stimulus Prompting

Li et al., (2023) (opens in a new tab) propose une nouvelle technique d'incitation pour mieux guider le LLM dans la génération du résumé souhaité.

Une politique accordable LM est entraînée pour générer le stimulus/indice. Voir plus d'utilisation de RL pour optimiser les LLM.

La figure ci-dessous montre comment un prompt de stimulation directionnelle se compare à un prompt standard. Le LM de politique peut être petit et optimisé pour générer les conseils qui guident un LLM gelé en boîte noire.

Image Source: Li et al., (2023) (opens in a new tab)

Exemple complet à venir !

Active-Prompt Program-Aided Language Models