다국어 대형 언어 모델 생성 텍스트 탐지 연구

Hancheol Park, Ph. D.
AI Research Engineer, Nota AI

Geonmin Kim, Ph. D.
AI Research Engineer, Nota AI

Jaeyeon Kim
AI Research Engineer, Nota AI

 

개요

이 연구에서 우리는 다국어로 작성된 텍스트가 대형 언어 모델(Large Langauge Model, LLM)으로부터 생성된 것인지, 아니면 사람이 작성한 것인지를 구분하는 방법을 다룹니다.

이 연구를 통해 개발된 탐지 시스템은 COLING 2025 ‘AI 생성 콘텐츠 탐지(DAIGenC)’ 워크숍의 Shared Task 1(이진 다국어 기계 생성 텍스트(Machine-Generated Text, MGT) 탐지)에서 25개 팀 중 3위를 기록했으며, 해당 시스템을 제안한 연구 논문이 동일한 워크숍에 채택되었습니다. 논문의 제목은 “Nota AI at GenAI Detection Task 1: Unseen Language-Aware Detection System for Multilingual Machine-Generated Text”입니다.

또한, 본 연구에서 사용한 코드는 GitHub에서 확인할 수 있습니다.

 

그림 1. COLING 2025 DAIGenC 워크숍의 Shared Task 1 순위 발표에서 노타가 수상자로 발표되는 장면.

 

연구의 주요 메시지

이번 연구에서 우리는 다양한 언어로 작성된 텍스트가 사람이 쓴 것인지, 아니면 대형 언어 모델이 생성한 것인지 판별하는 방법을 제안합니다. 최신 다국어로 사전학습된 언어 모델(Pretrained Language Model, PLM)을 사용하더라도, 대형 언어 모델이 작성한 텍스트를 판별하도록 미세 조정(fine-tuning)된 모델은 학습된 언어에서는 높은 탐지 성능을 보이지만, 그렇지 않은 언어에 대해서 성능이 크게 저하되는 경향이 있습니다. 즉, 하나의 언어에서 특정 작업에 맞춰 미세 조정된 모델이 다른 언어에서도 같은 작업을 잘 수행할 것이라고 기대하기 어렵습니다. 이는 다국어로 사전학습된 언어 모델에서 제로샷 교차언어 전이학습(Zero-Shot Cross-Lingual Transfer Learning)이 예상만큼 효과적이지 않다는 점을 보여줍니다.

본 연구에서는 미세 조정 시 사용되지 않은 언어에서 발생되는 성능 저하 문제를 예방하기 위해, 언어에 종속적이지 않은 특징(feature)를 사용하는 분류 모델을 제안합니다. 첫째, 다양한 대형 언어 모델에서 추출한 토큰 수준 예측 분포를 이용했습니다. 둘째, 다국어로 사전학습 된 언어 모델에서 추출한 텍스트 임베딩(text Embedding)을 활용하였습니다.

제안된 방법을 통해 Shared Task 1의 Subtask B에서 25개 팀 중 3위를 기록했으며, F1 매크로 점수 0.7532를 달성했습니다.

 

연구의 의의 및 중요성

최근 개발된 대형 언어 모델은 사람과 유사한 수준의 유창한 자연어를 생성할 수 있습니다. 그러나 이러한 유창성 때문에, 생성된 텍스트에 포함된 부정확한 정보나 오류를 사람들이 쉽게 인지하기 어렵고 허위 정보가 사실처럼 확산될 위험이 있습니다. 따라서 대형 언어 모델이 생성한 텍스트를 탐지하는 기술의 중요성이 커지고 있습니다.

특히, 다국어 텍스트 생성이 가능해짐에 따라 다양한 언어에서 이를 효과적으로 탐지하는 것이 중요합니다. 이번 연구에서는 미학습 언어에서도 높은 탐지 성능을 유지할 수 있는 방법을 제안하여, 탐지 기술 발전에 기여하고자 합니다.

 

연구 방법론

사전 실험 결과, 본 연구에서의 태스크를 수행하도록 미세 조정된 언어 모델은 이미 학습된 언어에서는 높은 탐지 성능을 보이지만, 학습되지 않은 언어에서는 분류 정확도가 크게 감소하는 것을 확인하였습니다.

이 문제를 해결하기 위해, 입력된 텍스트의 언어를 판별한 후, 해당 언어가 모델의 미세 조정 과정에서 학습된 언어인지 확인합니다.

표 1. 미세 조정된 다국어 사전학습 언어 모델의 개발용 데이터셋 성능.

텍스트가 모델이 학습한 언어로 작성된 경우, 다국어로 사전학습 언어 모델을 기반으로 지도 학습(supervised Learning) 방식으로 미세 조정된 모델을 사용하여 탐지를 수행하였습니다. 여러 다국어로 사전학습된 언어 모델을 미세 조정하여 비교한 결과, multilingual e5-large 모델이 가장 높은 성능을 보였으므로 학습된 언어에서는 이 모델을 적용하였습니다(자세한 내용은 표 1 참고).

모델이 학습하지 않은 언어로 작성된 텍스트의 경우, 기존 방식만으로는 정확한 탐지가 어렵기 때문에, 본 연구에서는 대형 언어 모델에서 추출한 토큰 수준 예측 분포와 다국어로 사전학습된 언어 모델에서 얻은 의미 표현(meaning Representation)을 결합하는 방법을 도입하였습니다.

대형 언어 모델은 생성된 텍스트의 각 토큰을 높은 확률로 예측하는 반면, 사람이 작성한 텍스트는 동일한 의미를 가진 경우라도 예측 확률 분포가 더 다양하게 나타납니다. 이러한 특징을 기반으로, 입력된 텍스트에 대해 다음과 같은 세 가지 주요 지표를 추출하였습니다.

  • 예측된 토큰의 로그 확률 (F1): 대형 언어 모델이 주어진 입력에서 가장 높은 확률로 예측한 다음 토큰의 로그 확률

  • 실제 생성된 토큰의 로그 확률 (F2): 대형 언어 모델이 실제로 생성한 토큰의 로그 확률

  • 예측 분포의 엔트로피 (F3): 다음 토큰의 예측 확률 분포의 엔트로피 값

이러한 특징들은 Llama-3.2-1B-Instruct, Qwen2.5-1.5B-Instruct, Phi-3-mini-128k-instruct 모델에서 추출하였습니다.

추가적으로, 다국어로 사전학습된 언어 모델에서 텍스트의 의미 표현을 추출하여 탐지 성능을 향상시켰습니다. 사전 연구에서는 무작위로 선택한 20개의 영어 문장을 연구에 사용된 모든 언어로 번역한 후, XLM-RoBERTa-base 모델을 활용하여 텍스트 임베딩을 추출하였습니다. 마지막 레이어의 <s> 토큰의 은닉 상태(hidden State)를 문장의 의미를 나타내는 임베딩으로 사용하고, 이를 t-SNE 기법을 통해 2D 공간에 시각화한 결과, 의미가 유사한 문장들은 언어와 관계없이 가까운 위치에 군집하는 것을 확인하였습니다. 반면 의미가 다른 문장들은 서로 멀리 떨어져 분포하는 것을 확인할 수 있었습니다.

이 특징은 특정 언어의 특징에 구애받지 않으며(language-agnostic), 다국어 기계 생성 텍스트 탐지와 어떤 관계가 있는지는 명확하지 않지만, 실험적으로 탐지 성능을 개선하는 효과가 있음을 확인하였습니다. 해당 특징을 적용하기 전에는 개발 데이터셋에서 F1 점수가 0.7114였으나, 적용 후 0.7370으로 향상되었으며, 본 연구에서는 최종적으로 이 특징을 포함하기로 결정하였습니다.

의미 표현이 탐지 성능 향상에 기여할 가능성이 있는 요인 중 하나로, 대형 언어 모델이 종종 상식에 위반되는 텍스트를 생성한다는 점을 들 수 있습니다. 반면, 다국어로 사전학습된 언어 모델은 일반적으로 학습과정에서 양질의 텍스트를 기반으로 학습되므로, 사실 정보 위주로 학습되었을 가능성이 높습니다. 따라서, 의도적으로 노이즈를 학습하도록 훈련되지 않는 한, 암묵적으로 허위 정보와 사실 정보를 구분할 수 있는 능력을 가질 가능성이 높을 수 있습니다.

즉, 잘못된 정보를 포함하는 생성된 텍스트는 다국어로 사전학습된 언어 모델이 학습한 일반적인 지식과 차이가 클 것이며, 이는 학습 데이터 분포에서 벗어난(out-of-distribution) 샘플로 간주될 수 있습니다. 따라서, 이러한 텍스트들은 의미 임베딩 공간에서 정확한 정보가 포함된 샘플과 비교했을 때 멀리 떨어진 위치에 나타날 가능성이 높습니다. 본 연구에서는 향후 연구에서 이 가설을 추가로 검토할 예정입니다.

위에서 설명한 특징들을 기반으로, 그림 1에 제시된 모델을 학습하였습니다. 각 언어 모델은 서로 다른 토크나이저 (tokenizer)를 사용하므로, 입력 텍스트는 개별 모델의 토크나이저에 따라 서로 다른 길이로 분절된 후, 각각의 특징이 추출됩니다. 이렇게 추출된 특징들은 최종적으로 하나의 단일 특징 벡터(single Feature Vector)로 변환된 후, 분류 모델에 입력됩니다.

그림 2. 미학습 언어로 작성된 텍스트가 기계 생성 텍스트인지 아닌지를 분류하는 제안된 모델의 개요. 얼음 심볼은 훈련 중 파라미터가 업데이트되지 않는 모듈을, 불꽃 심볼은 훈련 중 파라미터가 업데이트되는 모듈을 의미함.

 

실험 결과

본 연구에서 개발한 탐지 시스템은 Shared Task 1의 Subtask B에서 25개 팀 중 3위를 기록하며, F1 매크로 점수 0.7532를 달성했습니다.

표 2. Shared Task 1의 상위 7개 팀 순위표

 

결론 및 향후 연구 방향

이번 연구에서 제안한 방법을 통해 미학습 언어에서도 대형 언어 모델이 생성한 텍스트를 효과적으로 탐지할 수 있었지만, 기준 모델(Baseline)과 비교했을 때 성능 차이는 크지 않았습니다. 이를 개선하기 위해, 향후 연구에서는 탐지 성능을 높일 수 있는 새로운 특징을 도입하고, 미학습 언어에서의 탐지 정확도를 향상시킬 전략을 모색할 계획입니다.

다만, 이 방식은 입력된 텍스트의 언어를 먼저 판별해야 하므로, 언어를 잘못 분류하면 탐지 오류가 발생할 가능성이 있습니다. 또한, 대형 언어 모델에서 특징을 추출하는 과정에서 높은 연산 비용이 발생한다는 점도 해결해야 할 과제입니다. 따라서, 향후 연구에서는 연산 비용을 줄이면서도 탐지 성능을 유지할 방법을 함께 탐색할 예정입니다.

이 연구는 허위 정보 문제 해결에 기여할 뿐만 아니라, 다양한 언어 환경에서도 강력하고 효율적인 탐지 시스템을 구축하는 기반이 될 것입니다.

 

 

이 연구에 대해 추가로 궁금한 사항이 있으시면 아래 이메일 주소로 언제든지 문의해 주세요: 📧 contact@nota.ai.

또한, AI 최적화 기술에 관심이 있으시면 저희 웹사이트 🔗 netspresso.ai.를 방문해 보세요.

Next
Next

대형 언어 모델은 데이터의 애매성을 어디에서 식별할까?