GLUE 벤치마크
IT 위키
GLUE 벤치마크(GLUE, General Language Understanding Evaluation)는 다양한 자연어 이해(NLU) 과제들을 모은 평가 기준으로, 여러 모델을 비교, 분석하기 위해 고안되었다. [1]
정의[편집 | 원본 편집]
GLUE는 여러 개의 서로 다른 NLU 과제(task)들을 포함하며, 하나의 모델이 여러 과제에 대해 얼마나 잘 일반화(generalize)할 수 있는지를 평가하도록 설계되었다. 학습률(transfer learning)과 멀티태스크 학습(multi-task learning)을 장려하며, 소량의 데이터로도 잘 작동하는 모델을 우대한다. [2]
구성 요소 및 주요 과제들[편집 | 원본 편집]
GLUE에 포함된 대표적인 과제들은 다음과 같다: [3]
- CoLA (Corpus of Linguistic Acceptability)
- 문장이 문법적으로 타당한지 여부를 판단한다 (문장 단독).
- SST-2 (Stanford Sentiment Treebank)
- 문장의 감성(sentiment, 긍정/부정)을 분류한다.
- MRPC (Microsoft Research Paraphrase Corpus)
- 문장 쌍이 의미상 동등한지(paraphrase) 여부를 판단.
- QQP (Quora Question Pairs)
- 두 개의 질문이 의미적으로 동일한지 판단.
- STS-B (Semantic Textual Similarity Benchmark)
- 문장 쌍 사이의 유사도를 연속 점수(score)로 평가 (예: 1~5).
- MNLI (Multi-Genre Natural Language Inference)
- 두 문장(premise-hypothesis) 간의 추론 관계(entailment / contradiction / neutral)를 판단.
- QNLI (Question-Natural Language Inference)
- 질문(question)과 문장(sentence) 쌍 중 문장이 질문의 답을 포함하는지 여부 판단.
- RTE (Recognizing Textual Entailment)
- 문장 간 함의(entailment)를 판단하는 여러 기존 데이터셋들을 통합한 과제.
- WNLI (Winograd Natural Language Inference)
- 대명사 참조(pronoun reference) 문제 등을 포함한 어려운 문장쌍 추론(task).
평가 방식 및 특징[편집 | 원본 편집]
- 각 과제마다 학습(train), 검증(dev), 테스트(test) 세트가 제공됨.
- 점수(metric)는 과제별로 다르다 (정확도(accuracy), 유사도 점수(similarity), F1, 매크로/마이크로 평균 등).
- 전체 GLUE 점수(GLUE score)는 여러 과제의 점수를 평균내어 계산됨.
- 진단 진단 데이터셋(diagnostic dataset)을 포함하여, 언어학적 현상(linguistic phenomena)별 모델의 강점/약점을 분석할 수 있음. [4]
장점 및 한계[편집 | 원본 편집]
- 장점
- 다양한 언어적 과제들로 구성되어 모델의 일반화 능력 평가에 효과적이다.
- 쉬운 과제부터 어려운 과제까지 포함되어 기술 발전 및 모델 비교가 가능하다.
- 소규모 데이터 과제(task)도 있으므로 데이터 부족 환경에서도 평가됨.
- 한계
- 최근 일부 모델들은 GLUE에서 매우 높은 성능을 보여 “포화(saturation)” 현상이 나타남.
- 영어 중심(English-centric)이며, 다른 언어(multilingual) 지원이 제한됨.
- 몇몇 과제는 간단한 어휘(overlap) 특징에 크게 의존하는 바이트(bias)가 존재함.
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, Alex Wang et al., 2018
각주[편집 | 원본 편집]
- ↑ “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”, Wang et al., 2018, https://arxiv.org/abs/1804.07461
- ↑ Wang et al., 2018, https://arxiv.org/abs/1804.07461
- ↑ GLUE 벤치마크 공식 웹사이트, https://gluebenchmark.com/
- ↑ Wang et al., 2018, https://arxiv.org/abs/1804.07461