Platons Dialog bewerten

Hintergrund

Der folgende Prompt testet die Fähigkeit eines LLM, die Ausgaben von zwei verschiedenen Modellen zu evaluieren, als ob es ein Lehrer wäre.

Zuerst werden zwei Modelle (z.B. ChatGPT & GPT-4) mit dem folgenden Prompt angeregt:


Platons Gorgias ist eine Kritik der Rhetorik und der sophistischen Redekunst, in der er darauf hinweist, dass dies nicht nur keine angemessene Kunstform ist, sondern der Gebrauch von Rhetorik und Redekunst oft schädlich und bösartig sein kann. Können Sie einen Dialog von Platon schreiben, in dem er stattdessen die Nutzung von autoregressiven Sprachmodellen kritisiert?

Danach werden diese Ausgaben unter Verwendung des nachstehenden Bewertungs-Prompts evaluiert.

Prompt


Kannst du die beiden untenstehenden Ausgaben vergleichen, als ob du ein Lehrer wärst?

Ausgabe von ChatGPT: {Ausgabe 1}

Ausgabe von GPT-4: {Ausgabe 2}

Code / API

from openai import OpenAI
client = OpenAI()
 
response = client.chat.completions.create(
    model="gpt-4",
    messages=[
        {
        "role": "user",
        "content": "Can you compare the two outputs below as if you were a teacher?\n\nOutput from ChatGPT:\n{output 1}\n\nOutput from GPT-4:\n{output 2}"
        }
    ],
    temperature=1,
    max_tokens=1500,
    top_p=1,
    frequency_penalty=0,
    presence_penalty=0
)

Referenz

Funken der Künstlichen Allgemeinen Intelligenz: Frühe Experimente mit GPT-4 (opens in a new tab) (13. April 2023)

Evaluation Informationsextraktion