Solicitação de estímulo direcional
Li et al., (2023) (opens in a new tab) propõe uma nova técnica de solicitação para orientar melhor o LLM na geração do resumo desejado.
Um LM de política sintonizável é treinado para gerar o estímulo/dica. Vendo mais uso de RL para otimizar LLMs.
A figura abaixo mostra como o Prompt de Estímulo Direcional se compara ao prompt padrão. A política LM pode ser pequena e otimizada para gerar as dicas que orientam um LLM congelado em caixa preta.
Fonte da imagem: Li et al., (2023) (opens in a new tab)
Exemplo completo em breve!