Lisansüstü İş Sınıflandırması Vaka Çalışması

Clavié ve diğerleri., 2023 (opens in a new tab), bir üretim sistemine uygulanan orta ölçekli metin sınıflandırma kullanım durumu üzerinde istem mühendisliği uygulandığı bir vaka çalışması sunar. Bir işin gerçek bir "ilk seviye iş" olup olmadığını, yani yeni bir mezun için uygun olup olmadığını sınıflandırma görevini kullanarak, bir dizi istem mühendisliği tekniğini değerlendirdiler ve sonuçlarını GPT-3.5 (gpt-3.5-turbo) kullanarak raporladılar.

Çalışma, LLM'lerin test edilen diğer tüm modellerden, DeBERTa-V3 gibi son derece güçlü bir temel model de dahil olmak üzere, daha iyi performans gösterdiğini ortaya koymaktadır. gpt-3.5-turbo ayrıca eski GPT3 varyantlarına göre tüm ana metriklerde belirgin şekilde daha iyi performans gösterir, ancak bir şablonu takip etme yeteneği diğer varyantlardan daha kötü olduğu için ek çıktı çözümlemesi gerektirir.

İstem mühendisliği yaklaşımlarının önemli bulguları şunlardır:

Bu gibi görevlerde, herhangi bir uzman bilgisine gerek olmadığı durumlarda, Az örnekli CoT istemlerinin tüm deneylerde Sıfır örnekli istemlerden daha kötü performans gösterdiği görülmüştür.
İstenen akıl yürütmeyi harekete geçirme üzerinde istemin etkisi büyüktür. Modele belirli bir işi sınıflandırmasını basitçe sorulması, bir F1 skorunda 65.6 sonucunu verirken, istem mühendisliği sonrası model bir F1 skorunda 91.7 elde eder.
Modelin bir şablona uymaya zorlanması tüm durumlarda performansı düşürür (bu davranış, makaleye sonrasında yapılan erken dönem GPT-4 testlerinde ortadan kalkar).
Birçok küçük değişiklik performans üzerinde anormal büyük bir etkiye sahip olabilir.
- Tablolar, test edilen tüm değişiklikleri göstermektedir.
- Talimatları düzgün vermekte ve kilit noktaları tekrar etmek en büyük performans sürücüsü gibi görünmektedir.
- Modele bir (insan) ismi vermek ve buna göre hitap etmek bile F1 skorunu 0.6 puan artırır.

Test Edilen İsteme Yapılan Değişiklikler

Kısa ad	Açıklama
Baseline	Bir iş ilanı verin ve bir mezun için uygun olup olmadığını sorun.
CoT	Sorgulamadan önce birkaç doğru sınıflandırma örneği verin.
Zero-CoT	Modelden cevabını vermeden önce adım adım muhakeme etmesini isteyin.
rawinst	Kullanıcı mesajına ekleyerek rolü ve görevi hakkında talimatlar verin.
sysinst	Rolü ve görevi hakkındaki talimatları bir sistem mesajı olarak verin.
bothinst	Talimatlarda rolu sistem mesajı ve görevi kullanıcı mesajı olarak ayırın.
mock	Görev talimatlarını, onları doğrulayan bir tartışma taklidi yaparak verin.
reit	Talimatlardaki kilit unsurları tekrarlayarak pekiştirin.
strict	Modelden, belirtilen şablona kesinlikle uyarak cevap vermesini isteyin.
loose	Verilen bir şablonu izleyerek sadece nihai cevabın verilmesini isteyin.
right	Modelin doğru sonuca ulaşmasını isteyin.
info	Yaygın mantık hatalarını gidermek için ek bilgiler sağlayın.
name	Modele konuşma sırasında atıfta bulunacağınız bir isim verin.
pos	Sorgulamadan önce modele olumlu geri bildirim sağlayın.

Tüm İstem Değişikliklerinin Performans Etkisi

	Precision	Recall	F1	Template Stickiness
Baseline	61.2	70.6	65.6	79%
CoT	72.6	85.1	78.4	87%
Zero-CoT	75.5	88.3	81.4	65%
+rawinst	80	92.4	85.8	68%
+sysinst	77.7	90.9	83.8	69%
+bothinst	81.9	93.9	87.5	71%
+bothinst+mock	83.3	95.1	88.8	74%
+bothinst+mock+reit	83.8	95.5	89.3	75%
+bothinst+mock+reit+strict	79.9	93.7	86.3	98%
+bothinst+mock+reit+loose	80.5	94.8	87.1	95%
+bothinst+mock+reit+right	84	95.9	89.6	77%
+bothinst+mock+reit+right+info	84.9	96.5	90.3	77%
+bothinst+mock+reit+right+info+name	85.7	96.8	90.9	79%
+bothinst+mock+reit+right+info+name+pos	86.9	97	91.7	81%

Template stickiness, modelin istenen formatta ne sıklıkla yanıt verdiğini ifade eder.

Kod Üretimi İstem Fonksiyonu