대형 언어 모델은 데이터의 애매성을 어디에서 식별할까?

Hancheol Park, Ph. D.
AI Research Engineer, Nota AI

Geonmin Kim, Ph. D.
AI Research Engineer, Nota AI

요약

  • 본 연구에서는 대형 언어 모델(LLMs)을 활용하여 자연어 이해(NLU) 작업에서 여러 가지 정답이 존재하여 답변이 애매한 데이터를 탐지하는 혁신적인 방법을 제안합니다.

  • 중간 레이어 표현이 애매성을 탐지하는 데 유용한지 확인하기 위해, 해당 표현을 사용하는 새로운 분류기(Classifier)를 제안했습니다.

  • 이 연구 논문은 자연어 처리 분야 국제 최우수 학회 중 하나인 제31회 국제 컴퓨터 언어학 학회(COLING 2025)에 채택되었습니다.

 
 

연구의 주요 메시지

대형 언어 모델(LLMs)은 방대한 지식을 바탕으로 다양한 자연어 처리(NLP) 작업에서 뛰어난 성과를 내고 있습니다. 그러나 항상 신뢰할 수 있는 답변을 제공하지는 않으며, 특히 여러 정답이 존재하여 답이 명확하지 않은 질문에 대해 하나의 편향된 답변을 내놓는 경우가 많습니다. 본 연구는 이러한 문제를 해결하기 위해 애매한 데이터를 탐지하는 방법을 제안합니다. 더 구체적으로 우리는 텍스트의 함의(entailment) 관계 추론, 텍스트 기반 감정 분석과 같은 자연어 이해 태스크를 대상으로 연구를 수행합니다. 이러한 자연어 이해 태스크의 예제들은 일반적으로 자연어 텍스트와 해당 텍스트에 대한 사전 정의된 라벨 혹은 범주로 구성되어 있습니다.

본 연구는 대형 언어 모델의 중간 레이어에서 생성된 표현을 활용해 애매한 데이터를 탐지하는 방법을 제안합니다. 우리는 중간 레이어에서 산출된 애매한 샘플의 표현은 관련된 라벨의 다른 샘플들의 표현과 임베딩 혹은 벡터 공간 상에서 가까운 위치에 배치되는 경향을 관찰하였습니다. 이와 같은 중간 레이어 표현의 분포적인 특성을 활용하면 애매한 데이터를 효과적으로 탐지할 수 있을 것이라는 가설을 세웠습니다. 실험 결과, 중간 레이어를 활용한 방법이 최종 레이어를 활용한 방법보다 애매한 데이터를 더 정확하게 탐지할 수 있음을 확인했습니다.

또한, 대부분의 데이터셋에는 애매성 여부를 나타내는 라벨이 거의 없는 경우가 많습니다. 이를 해결하기 위해, 본 연구는 애매성 라벨 없이도 분류기를 훈련할 수 있는 새로운 접근법을 제안합니다.

 

논문의 의의/중요성

대형 언어 모델은 사용자 입력에 대해 종종 신뢰할 수 없는 응답을 생성합니다. 이 신뢰성 문제는 특히 대형 언어 모델 개발에 막대한 투자가 필요한 서비스 제공업체에게 심각한 문제로 작용합니다. 더욱이, 대형 언어 모델 기반 응용 프로그램 시장이 빠르게 성장하고 있는 상황에서, 신뢰성 문제를 해결하는 것은 매우 중요한 과제입니다.

대형 언어 모델의 신뢰성을 저하시키는 주요 원인 중 하나는 환각(hallucination) 현상입니다. 환각은 모델이 틀린 정보를 마치 사실인 것처럼 확신에 차서 응답하는 문제를 의미하며, 이미 많은 연구자들에 의해 광범위하게 다뤄져 왔습니다. 또 다른 문제는 다중 정답이 가능한 질문에 대해 단일하고 편향된 답변을 제공하는 경우입니다. 예를 들어, 여러 해석이 가능한 질문임에도 단 하나의 답변만을 제공하는 상황이 이에 해당합니다.

이상적인 대형 언어 모델은 다중 해석이 가능한 질문이 애매함을 사용자에게 알리는 동시에, 다중 라벨 분류 모델의 활용이나 전문가의 판단을 제안함으로써 사용자가 더 나은 결정을 내릴 수 있도록 돕는 역할을 해야 합니다. 특히, 자연어 이해 작업에서는 애매한 샘플이 빈번하게 등장하기 때문에, 입력 샘플이 애매한지 여부를 정확히 판단하는 기술은 필수적입니다. 그러나, 입력 프롬프트가 애매한지 여부를 탐지하는 연구는 상대적으로 부족했으며, 기존에 제안된 방법들 역시 실용성이 떨어지는 경우가 많았습니다.

 

방법론 요약

본 연구는 대형 언어 모델이 주어진 입력 텍스트에 대한 중간 레이어서의 표현(즉, 입력 텍스트의 마지막 토큰에 대한 은닉 벡터)가 입력된 텍스트가 애매한지 아닌지를 판단하는 데 도움이 되는 정보를 포함하고 있는지 알아보는 것을 목표로 합니다.

이를 확인하기 위해, 먼저 다양한 자연어 처리 작업(예: 감정 분석이나 텍스트간의 함의 관계 추론)에서 입력 문장이 애매한지 아닌지를 구분하는 데이터셋을 자동으로 생성했습니다. 이 데이터셋에서는 주어진 텍스트가 의도하는 바가 명확한지, 아니면 여러 가지로 해석될 수 있는 애매성이 있는 텍스트인지가 주석되어 있습니다.

그다음, 대형 언어 모델이 문장을 처리하면서 생성한 중간 레이어의 내부 표현(입력 텍스트의 마지막 토큰에 대해서 해당 중간 레이어로부터 산출된 은닉 벡터)을 활용해 입력 문장이 애매한지 여부를 판단하는 분류기를 학습시켰습니다. 즉, 중간 레이어 표현이 애매성을 판단하는 데 얼마나 효과적인지를 탐구한 것입니다.

 

애매성 탐지를 위한 데이터셋

우리는 주어진 샘플 텍스트가 애매한지 아닌지를 표시한 주석 데이터셋을 생성했습니다. 주석 데이터셋은 기존에 사용된 다중 레이블 분류 데이터셋과 여러 주석이 포함된 데이터셋을 활용해 자동으로 구축했습니다. 감정 분석과 자연어 추론 작업을 위해 총 세 가지 데이터셋을 사용했으며, 감정 분석 작업에는 GoEmotions 데이터셋(다중 감정 및 감정 분석 데이터셋)을, 자연어 추론 작업에는 SNLI(스탠퍼드 자연어 추론 데이터셋)과 MNLI(다중 장르 자연어 추론 데이터셋)을 활용했습니다.

애매성의 기준은 다음과 같이 정의했습니다. 다중 레이블 데이터셋에서는 여러 레이블이 부여된 샘플을 애매한 데이터로 간주했습니다. 자연어 추론 데이터셋의 경우, 주석자 5명이 모두 동일한 라벨을 선택한 샘플은 애매하지 않은 데이터, 2개 이상의 라벨이 최소 두 번 이상 선택된 샘플(예: 3/2/0 또는 2/2/1 분포)은 애매한 데이터로 분류했습니다. ChaosNLI 데이터셋(100명의 주석자가 제공한 주석 포함)에서는 다수 라벨이 100명 중 80명 이상 선택된 경우를 애매하지 않은 데이터, 60명 미만으로 선택된 경우를 애매한 데이터로 간주했습니다.

최종적으로, 전체 데이터셋의 텍스트를 대형 언어 모델의 입력 프롬프트 형식으로 변환했습니다. 실제 사용자가 명령어 기반의 대형 언어 모델을 사용하는 상황을 시뮬레이션하기 위해, 학습에 사용된 프롬프트 템플릿과 평가 단계에서 사용된 템플릿을 다르게 구성했습니다. 사용된 프롬프트 템플릿의 예는 표 2에 제시되어 있습니다.

전체 데이터셋의 텍스트는 대형 언어 모델의 입력 프롬프트 형식으로 변환되었습니다. 이를 통해, 실제 사용자가 명령어 기반 대형 언어 모델을 사용하는 상황을 시뮬레이션했습니다. 학습에 사용된 프롬프트 템플릿과 평가 단계에서 사용된 템플릿은 다르게 구성되었으며, 사용된 프롬프트 템플릿의 예는 표 2에 제시되어 있습니다.

 
 

실험 결과

본 연구에서는 명령어 기반으로 학습된 대형 언어 모델인 OPT-IML-1.3B, LLaMA 2-7B, LLaMA 2-13B를 사용했습니다. 이 모델들은 각각 24개, 32개, 40개의 레이어로 구성되어 있으며, 내부에서 데이터를 처리하는 히든 유닛의 크기는 2,048, 4,096, 5,120입니다. 또한, 애매성을 탐지하기 위해 사용된 분류기는 각 모델별로 다르게 구성되었습니다. 예를 들어, OPT-IML-1.3B 모델의 분류기는 2,048-512-128-2의 구조를, LLaMA 2-7B는 4,096-1,024-256-2의 구조를, LLaMA 2-13B는 5,120-1,024-256-2의 구조를 가집니다.

실험 결과(표 4 참조)에 따르면, 중간 레이어에서 생성된 표현을 사용했을 때 애매성을 탐지하는 성능이 최종 레이어를 사용했을 때보다 더 뛰어난 것으로 나타났습니다. 특히, 감정 분석처럼 주관적인 작업에서는 애매성을 탐지하기가 자연어 추론 작업보다 더 어려웠지만, 중간 레이어 표현을 활용하는 방식이 여전히 더 효과적임이 확인되었습니다. 또한, 작업 유형과 모델에 따라 애매성을 탐지하기에 가장 적합한 중간 레이어가 달라지는 경향이 있었습니다.

따라서, 각 작업에 적합한 중간 레이어를 자동으로 선택하는 기술 개발이 앞으로의 중요한 과제로 제시되었습니다.

 

또한, 대부분의 데이터셋에는 애매성을 표시하는 라벨이 부족하다는 한계가 있음을 확인했습니다. 이를 해결하기 위해, 본 연구는 학습 다이나믹스(Training Dynamics)이라는 개념을 활용하여 새로운 손실 함수(학습 방식)를 제안했습니다.

Mathematical Explanation

이 손실 함수에서 \(x\)는 입력 프롬프트를 의미하고, \(p_{gt}\)는 원래 작업의 정답 라벨에 대한 예측 확률을 나타냅니다. 예를 들어, 자연어 추론 작업에서 이는 함의(entailment), 중립(neutral), 모순(contradiction) 중 하나의 라벨에 대한 확률입니다. 한편, \(p_{amb}\) 는 해당 샘플이 애매할 확률 의미합니다. 즉, 모델이 해당 입력이 여러 가지로 해석될 수 있는 데이터인지 판단하는 확률 값입니다.

\(p_{gt}\)\(p_{amb}\) 는 대형 언어 모델의 출력을 활용하는 분류기를 통해 계산됩니다. 분류기의 출력값은 소프트맥스(softmax) 함수를 통해 확률로 변환되며, 최종 출력에는 각 작업의 라벨뿐만 아니라 애매성을 나타내는 라벨이 추가됩니다. 즉, 이 구조는 모델이 정답을 예측하는 것뿐만 아니라 샘플이 애매한지도 판단할 수 있도록 설계되었습니다.

이 손실 함수는 딥러닝 모델의 학습 특징을 활용합니다. 모델은 보통 학습 초기에 쉬운 샘플부터 학습하고, 시간이 지나면서 점점 어려운 샘플을 학습하는 경향이 있습니다. 이 과정에서 모델은 학습 초기 단계에서 예측 확률 \(p_{gt}\) 값이 낮은 샘플을 애매한 데이터로 간주합니다. 여기서 하이퍼파라미터 \(\lambda\) 는 모델이 샘플을 애매한 데이터로 판단하는 기준을 조정하는 역할을 합니다. 이 값은 소수의 라벨링된 검증 샘플을 이용해 최적화되며, 샘플이 애매한지 아닌지를 결정하는 데 영향을 줍니다. 이러한 방식은 모델이 학습을 진행하면서 점차 어려운 샘플을 탐지하고 처리할 수 있도록 도와줍니다.

실험 결과(표 7 참조)에 따르면, 이 손실 함수를 사용하면 애매성 라벨이 없는 데이터셋에서도 분류기를 효과적으로 학습할 수 있었습니다. 즉, 명시적으로 애매성 라벨을 제공하지 않아도, 모델이 데이터를 분석하여 애매성을 성공적으로 탐지할 수 있음을 입증했습니다.

 

결론

본 연구는 대형 언어 모델의 중간 레이어 표현이 입력 프롬프트의 애매성을 탐지하는 데 효과적인 정보를 포함하고 있음을 입증했습니다. 이를 통해 대형 언어 모델은 응답을 생성하기 전에 입력의 애매성을 평가할 수 있고, 신뢰할 수 있는 답변을 제공할 수 있는 능력을 갖추게 됩니다.

아울러, 본 연구는 두 가지 향후 과제를 제시합니다. 첫째, 자연어 이해 데이터셋에서 애매성 라벨을 자동으로 생성하는 기술 개발이 필요합니다. 현재는 사람이 직접 데이터를 보고 애매성을 판단해야 하지만, 앞으로는 모델이 데이터를 분석해 스스로 애매성을 판단하고 라벨을 생성하는 기술이 요구됩니다. 둘째, 작업에 따라 가장 적합한 중간 레이어를 자동으로 선택하는 기술을 연구해야 합니다. 이는 작업의 성격에 따라 애매성 탐지에 최적화된 중간 레이어가 달라질 수 있기 때문입니다.

 

 

이 연구에 대해 추가로 궁금한 사항이 있으시면 아래 이메일 주소로 언제든지 문의해 주세요: 📧 contact@nota.ai.

또한, AI 최적화 기술에 관심이 있으시면 저희 웹사이트 🔗 netspresso.ai.를 방문해 보세요.

Previous
Previous

다국어 대형 언어 모델 생성 텍스트 탐지 연구

Next
Next

모바일 디바이스에 효율적인 비전 언어 모델 배포하기