Lisansüstü İş Sınıflandırması Vaka Çalışması

Lisansüstü İş Sınıflandırması Vaka Çalışması

Clavié ve diğerleri., 2023 (opens in a new tab), bir üretim sistemine uygulanan orta ölçekli metin sınıflandırma kullanım durumu üzerinde istem mühendisliği uygulandığı bir vaka çalışması sunar. Bir işin gerçek bir "ilk seviye iş" olup olmadığını, yani yeni bir mezun için uygun olup olmadığını sınıflandırma görevini kullanarak, bir dizi istem mühendisliği tekniğini değerlendirdiler ve sonuçlarını GPT-3.5 (gpt-3.5-turbo) kullanarak raporladılar.

Çalışma, LLM'lerin test edilen diğer tüm modellerden, DeBERTa-V3 gibi son derece güçlü bir temel model de dahil olmak üzere, daha iyi performans gösterdiğini ortaya koymaktadır. gpt-3.5-turbo ayrıca eski GPT3 varyantlarına göre tüm ana metriklerde belirgin şekilde daha iyi performans gösterir, ancak bir şablonu takip etme yeteneği diğer varyantlardan daha kötü olduğu için ek çıktı çözümlemesi gerektirir.

İstem mühendisliği yaklaşımlarının önemli bulguları şunlardır:

  • Bu gibi görevlerde, herhangi bir uzman bilgisine gerek olmadığı durumlarda, Az örnekli CoT istemlerinin tüm deneylerde Sıfır örnekli istemlerden daha kötü performans gösterdiği görülmüştür.
  • İstenen akıl yürütmeyi harekete geçirme üzerinde istemin etkisi büyüktür. Modele belirli bir işi sınıflandırmasını basitçe sorulması, bir F1 skorunda 65.6 sonucunu verirken, istem mühendisliği sonrası model bir F1 skorunda 91.7 elde eder.
  • Modelin bir şablona uymaya zorlanması tüm durumlarda performansı düşürür (bu davranış, makaleye sonrasında yapılan erken dönem GPT-4 testlerinde ortadan kalkar).
  • Birçok küçük değişiklik performans üzerinde anormal büyük bir etkiye sahip olabilir.
    • Tablolar, test edilen tüm değişiklikleri göstermektedir.
    • Talimatları düzgün vermekte ve kilit noktaları tekrar etmek en büyük performans sürücüsü gibi görünmektedir.
    • Modele bir (insan) ismi vermek ve buna göre hitap etmek bile F1 skorunu 0.6 puan artırır.

Test Edilen İsteme Yapılan Değişiklikler

Kısa adAçıklama
BaselineBir iş ilanı verin ve bir mezun için uygun olup olmadığını sorun.
CoTSorgulamadan önce birkaç doğru sınıflandırma örneği verin.
Zero-CoTModelden cevabını vermeden önce adım adım muhakeme etmesini isteyin.
rawinstKullanıcı mesajına ekleyerek rolü ve görevi hakkında talimatlar verin.
sysinstRolü ve görevi hakkındaki talimatları bir sistem mesajı olarak verin.
bothinstTalimatlarda rolu sistem mesajı ve görevi kullanıcı mesajı olarak ayırın.
mockGörev talimatlarını, onları doğrulayan bir tartışma taklidi yaparak verin.
reitTalimatlardaki kilit unsurları tekrarlayarak pekiştirin.
strictModelden, belirtilen şablona kesinlikle uyarak cevap vermesini isteyin.
looseVerilen bir şablonu izleyerek sadece nihai cevabın verilmesini isteyin.
rightModelin doğru sonuca ulaşmasını isteyin.
infoYaygın mantık hatalarını gidermek için ek bilgiler sağlayın.
nameModele konuşma sırasında atıfta bulunacağınız bir isim verin.
posSorgulamadan önce modele olumlu geri bildirim sağlayın.

Tüm İstem Değişikliklerinin Performans Etkisi

PrecisionRecallF1Template Stickiness
Baseline61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst8092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right8495.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.99791.781%

Template stickiness, modelin istenen formatta ne sıklıkla yanıt verdiğini ifade eder.