학위가 필요한 직업을 분류한 사례 연구

학위가 필요한 직업을 분류한 사례 연구

Clavié et al., 2023 (opens in a new tab)는 생산 시스템에 중간 규모 텍스트 분류 사용 사례를 적용한 프롬프트 엔지니어링에 대한 사례 연구를 발표했습니다. 직업이 정말 대학을 갓 졸업한 사람에게 적합한 "입문 수준의 직업"인지 아닌지 분류하는 작업을 하여 일련의 프롬프트 엔지니어링 기술을 평가하고 GPT-3.5 (gpt-3.5-turbo)를 이용하여 결과를 보고했습니다.

이 연구는 LLM이 DeBERTa-V3의 매우 강력한 기준선을 포함한 다른 모든 테스트된 모델들을 능가했음을 보여줍니다. gpt-3.5-turbo 또한 모든 주요 메트릭에서 구 버전의 GPT3 변종보다 눈에 띄게 뛰어난 성능을 보이지만, 템플릿에 대한 적용성이 다른 변종들에 비해 부족하여 추가적인 출력 파싱이 필요합니다.

이 연구의 프롬프트 엔지니어링 접근법에서 얻은 주요 결과는 다음과 같습니다.

  • 전문가의 지식이 필요하지 않은 이러한 단순 작업의 경우, 모든 실험에서 퓨샷 생각의 사슬 프롬프팅(Few-shot CoT prompting)이 제로샷 프롬프팅(Zero-shot prompting)에 비해 상대적으로 낮은 성능을 보여주었습니다.
  • 프롬프트는 올바른 추론 도출에 엄청난 영향을 미칩니다. 모델에게 직업을 분류하라고 단순히 명령했을 때에는 65.6의 F1 점수를 얻었으나, 프롬프트 엔지니어링 된 모델은 91.7의 F1 점수를 보여주었습니다.
  • 모델을 템플릿에 강제로 적용하려 한 모든 경우에 성능이 저하되었습니다(이 현상은 논문 후반의 GPT-4를 사용한 초기 테스트에서 사라졌습니다).
  • 여러 작은 수정사항이 성능에 엄청난 영향을 미쳤습니다.
    • 아래 표에서 테스트 된 모든 수정 사항을 확인할 수 있습니다.
    • 적절한 지시를 내리고 요점을 반복하는 것이 가장 큰 성능 동력으로 나타났습니다.
    • 단순히 모델에게 (사람) 이름을 지어주는 것으로 F1 점수가 0.6 상승했습니다.

테스트 된 프롬프트 수정 사항들

약어설명
Baseline채용 공고를 제공하고 갓 졸업한 사람에게 적합한지 묻습니다.
CoT질의를 하기 전에 정확히 분류된 몇 가지 예시를 제공합니다.
Zero-CoT모델에게 단계별로 추론하여 정답을 제시하도록 요구합니다.
rawinst역할 및 작업에 대한 지시를 사용자 메시지에 추가함으로써 제공합니다.
sysinst역할 및 작업에 대한 지시를 시스템 메시지로서 제공합니다.
bothinst시스템 메시지로서의 역할과 사용자 메시지로서의 작업으로 명령을 분할합니다.
mock그들을 인정하는 의사 토론을 통해 작업 지시를 제공합니다.
reit요점을 반복하여 지시를 강화합니다.
strict모델에게 주어진 템플릿을 엄격히 준수하여 답변하도록 요청합니다.
loose최종 답변만 주어진 탬플릿을 준수하여 반환하도록 요청합니다.
right모델에게 올바른 결론에 도달하도록 요청합니다.
info일반적인 추론 실패를 해결하기 위한 추가 정보를 제공합니다.
name모델에게 대화에서 부를 이름을 제공합니다.
pos질의를 하기 전 모델에게 긍정적인 피드백을 제공합니다.

프롬프트 수정 사항이 성능에 미치는 영향

정확도재현율F1템플릿 고착도
Baseline61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst8092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right8495.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.99791.781%

템플릿 고착도란 모델이 요구받은 형식으로 응답한 빈도를 나타냅니다.