편향

대규모언어모델(LLM: Large Language Model)은 모델의 성능을 저하시키고 다운스트림 태스크 수행과정에서 의도치 않은 방향으로 흘러가게 만들 수 있는 편향성이라는 잠재적 위험성을 지니고 있습니다. 그 중 일부는 효과적인 프롬프팅 전략을 통해 개선될 수 있지만 오히려 입력 텍스트의 일부를 덜어내거나 필터링하는 것과 같은 보다 정교한 솔루션이 필요할 수 있습니다.

표본 분포

퓨샷(few-shot) 학습 실행 시 표본 분포는 모델의 성능에 영향을 미치거나 모델에 편향을 줄 수 있을까요? 간단한 테스트를 진행해 봅시다.

프롬프트:

Q: 나 방금 굉장한 소식을 들었어!
A: 긍정

Q: 우리 급여가 올랐네요!
A: 긍정

Q: 나는 오늘 내가 성취한 일에 뿌듯함을 느껴.
A: 긍정

Q: 최고의 하루를 보내고 있어!
A: 긍정

Q: 이번 주말을 매우 고대하고있어!
A: 긍정

Q: 나는 지금 최고의 선물을 받았어!
A: 긍정

Q: 나는 지금 매우 행복해.
A: 긍정

Q: 이렇게 훌륭한 가족의 일원으로서 축복받았다고 느껴.
A: 긍정

Q: 바깥 날씨가 굉장히 흐리네요.
A: 부정

Q: 방금 끔찍한 소식을 들었어요.
A: 부정

Q: 씁쓸하네요
A:

출력:

부정

위의 예시에서 표본 분포는 모델에게 편향을 심어 주지 않는 것 같습니다. 좋습니다. 분류하기에 더 까다로운 텍스트를 예시로 모델이 어떻게 작동하는지 살펴보겠습니다:

프롬프트:

Q: 여기 음식 맛있다!
A: 긍정

Q: 난 이 수업이 지겨워.
A: 부정

Q: 내가 시험에서 떨어졌다니 믿을 수 없어.
A: 부정

Q: 오늘 즐거운 하루였어!
A: 긍정

Q: 난 이 일이 싫어.
A: 부정

Q: 여기 서비스 엉망이네.
A: 부정

Q: 살아가는 데 좌절감을 느껴.
A: 부정

Q: 조금도 쉬지 못해. 
A: 부정

Q: 이 음식 정말 맛없다.
A: 부정

Q: 더 이상은 내 상사를 못견디겠어.
A: 부정

Q: 무언가가 느껴져.
A:

출력:

부정

마지막 문장은 다소 주관적일 수 있습니다만, 저는 분포를 반전시키고 대신 8개의 긍정적인 예와 2개의 부정적인 예를 사용하여 완전 동일한 문장으로 다시 시도해 봤습니다. 모델은 뭐라고 대답했을까요? "긍정"이라고 답했습니다. 모델은 감정 분류에 대해 풍부한 지식을 가지고 있을 가능성이 있기 때문에 이것만으로는 편향성을 판가름하기에는 어렵습니다. 여기서 분포를 편향시키지 말고 각 라벨에 대해 균형 있는 수의 예시를 제공하라는 교훈을 얻을 수 있습니다. 모델은 지식이 부족한 경우에 작업을 더 어려워할 것입니다.

표본의 순서

퓨샷 예시를 이용하여 학습을 진행할 경우, 예시의 순서가 모델의 성능이나 편향성에 어떤 식으로 영향을 주는지 확인해 볼 필요가 있습니다.

위 표본들의 순서를 변경하여 모델이 출력하는 라벨에 편향을 만들어 낼 수 있는지 확인해보시기 바랍니다. 표본을 무작위로 정렬해 보는 것을 추천합니다. 예를 들어, 처음엔 긍정적인 예시만을, 마지막에는 모든 부정적인 예시만을 제공하는 것을 지양해야 합니다. 라벨 분포가 왜곡된 경우 이 문제는 더욱 심각해집니다. 이러한 유형의 편향을 줄이기 위해 여러번의 실험을 해 보시기 바랍니다.