GLUE 벤치마크: 두 판 사이의 차이

IT 위키
(새 문서: GLUE 벤치마크(GLUE, General Language Understanding Evaluation)는 다양한 자연어 이해(NLU) 과제들을 모은 평가 기준으로, 여러 모델을 비교, 분석하기 위해 고안되었다. <ref>“GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”, Wang et al., 2018, https://arxiv.org/abs/1804.07461</ref> ==정의== GLUE는 여러 개의 서로 다른 NLU 과제(task)들을 포함하며, 하나의 모델이 여러 과제에...)
 
(차이 없음)

2025년 9월 18일 (목) 09:52 기준 최신판

GLUE 벤치마크(GLUE, General Language Understanding Evaluation)는 다양한 자연어 이해(NLU) 과제들을 모은 평가 기준으로, 여러 모델을 비교, 분석하기 위해 고안되었다. [1]

정의[편집 | 원본 편집]

GLUE는 여러 개의 서로 다른 NLU 과제(task)들을 포함하며, 하나의 모델이 여러 과제에 대해 얼마나 잘 일반화(generalize)할 수 있는지를 평가하도록 설계되었다. 학습률(transfer learning)과 멀티태스크 학습(multi-task learning)을 장려하며, 소량의 데이터로도 잘 작동하는 모델을 우대한다. [2]

구성 요소 및 주요 과제들[편집 | 원본 편집]

GLUE에 포함된 대표적인 과제들은 다음과 같다: [3]

  1. CoLA (Corpus of Linguistic Acceptability)
    • 문장이 문법적으로 타당한지 여부를 판단한다 (문장 단독).
  1. SST-2 (Stanford Sentiment Treebank)
    • 문장의 감성(sentiment, 긍정/부정)을 분류한다.
  1. MRPC (Microsoft Research Paraphrase Corpus)
    • 문장 쌍이 의미상 동등한지(paraphrase) 여부를 판단.
  1. QQP (Quora Question Pairs)
    • 두 개의 질문이 의미적으로 동일한지 판단.
  1. STS-B (Semantic Textual Similarity Benchmark)
    • 문장 쌍 사이의 유사도를 연속 점수(score)로 평가 (예: 1~5).
  1. MNLI (Multi-Genre Natural Language Inference)
    • 두 문장(premise-hypothesis) 간의 추론 관계(entailment / contradiction / neutral)를 판단.
  1. QNLI (Question-Natural Language Inference)
    • 질문(question)과 문장(sentence) 쌍 중 문장이 질문의 답을 포함하는지 여부 판단.
  1. RTE (Recognizing Textual Entailment)
    • 문장 간 함의(entailment)를 판단하는 여러 기존 데이터셋들을 통합한 과제.
  1. WNLI (Winograd Natural Language Inference)
    • 대명사 참조(pronoun reference) 문제 등을 포함한 어려운 문장쌍 추론(task).

평가 방식 및 특징[편집 | 원본 편집]

  • 각 과제마다 학습(train), 검증(dev), 테스트(test) 세트가 제공됨.
  • 점수(metric)는 과제별로 다르다 (정확도(accuracy), 유사도 점수(similarity), F1, 매크로/마이크로 평균 등).
  • 전체 GLUE 점수(GLUE score)는 여러 과제의 점수를 평균내어 계산됨.
  • 진단 진단 데이터셋(diagnostic dataset)을 포함하여, 언어학적 현상(linguistic phenomena)별 모델의 강점/약점을 분석할 수 있음. [4]

장점 및 한계[편집 | 원본 편집]

  • 장점
    • 다양한 언어적 과제들로 구성되어 모델의 일반화 능력 평가에 효과적이다.
    • 쉬운 과제부터 어려운 과제까지 포함되어 기술 발전 및 모델 비교가 가능하다.
    • 소규모 데이터 과제(task)도 있으므로 데이터 부족 환경에서도 평가됨.
  • 한계
    • 최근 일부 모델들은 GLUE에서 매우 높은 성능을 보여 “포화(saturation)” 현상이 나타남.
    • 영어 중심(English-centric)이며, 다른 언어(multilingual) 지원이 제한됨.
    • 몇몇 과제는 간단한 어휘(overlap) 특징에 크게 의존하는 바이트(bias)가 존재함.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, Alex Wang et al., 2018

각주[편집 | 원본 편집]

  1. “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”, Wang et al., 2018, https://arxiv.org/abs/1804.07461
  2. Wang et al., 2018, https://arxiv.org/abs/1804.07461
  3. GLUE 벤치마크 공식 웹사이트, https://gluebenchmark.com/
  4. Wang et al., 2018, https://arxiv.org/abs/1804.07461