Prompt de Estímulo direccional
Li et al., (2023) (opens in a new tab) propone una nueva técnica de alineación para guiar mejor al LLM en la generación del resumen deseado.
Se entrena un LM de política ajustable para generar el estímulo/pista. Se está viendo un mayor uso de RL para optimizar LLM.
La figura a continuación muestra cómo el prompt de estímulo direccional se compara con el alineamiento estándar. El LM puede ser pequeño y optimizado para generar las pistas que guían a un LLM congelado de caja negra.

Fuente de la imagen: Li et al., (2023) (opens in a new tab)
¡Un ejemplo completo próximamente!