Suuntaa Antava Kehottaminen

Li ym., (2023) (opens in a new tab) ehdottaa uutta kehotetekniikkaa, joka ohjaa LLM:ää paremmin halutun yhteenvedon tuottamiseen.

Säädettävä menettelytapa kielimalli koulutetaan tuottamaan vihjeitä/kannusteita. Kielimallien optimointiin käytetään yhä enemmän vahvistusoppimista (Reinforcement Learning, RL).

Alla oleva kuva näyttää, miten suuntaa antava kehotetekniikka vertautuu tavanomaiseen kehotetekniikkaan. Menettelytapa-kielimalli voi olla pieni ja optimoitu tuottamaan vihjeitä, jotka ohjaavat "mustaan laatikkoon jäädytettyä" LLM:ää.

Kuvan lähde: Li ym., (2023) (opens in a new tab)

Täysi esimerkki tulossa pian!

Active-Prompt Program-Aided Language Models