GLUE 벤치마크

GLUE 벤치마크(GLUE, General Language Understanding Evaluation)는 다양한 자연어 이해(NLU) 과제들을 모은 평가 기준으로, 여러 모델을 비교, 분석하기 위해 고안되었다. ^[1]

정의[편집 | 원본 편집]

GLUE는 여러 개의 서로 다른 NLU 과제(task)들을 포함하며, 하나의 모델이 여러 과제에 대해 얼마나 잘 일반화(generalize)할 수 있는지를 평가하도록 설계되었다. 학습률(transfer learning)과 멀티태스크 학습(multi-task learning)을 장려하며, 소량의 데이터로도 잘 작동하는 모델을 우대한다. ^[2]

구성 요소 및 주요 과제들[편집 | 원본 편집]

GLUE에 포함된 대표적인 과제들은 다음과 같다: ^[3]

CoLA (Corpus of Linguistic Acceptability)
- 문장이 문법적으로 타당한지 여부를 판단한다 (문장 단독).

SST-2 (Stanford Sentiment Treebank)
- 문장의 감성(sentiment, 긍정/부정)을 분류한다.

MRPC (Microsoft Research Paraphrase Corpus)
- 문장 쌍이 의미상 동등한지(paraphrase) 여부를 판단.

QQP (Quora Question Pairs)
- 두 개의 질문이 의미적으로 동일한지 판단.

STS-B (Semantic Textual Similarity Benchmark)
- 문장 쌍 사이의 유사도를 연속 점수(score)로 평가 (예: 1~5).

MNLI (Multi-Genre Natural Language Inference)
- 두 문장(premise-hypothesis) 간의 추론 관계(entailment / contradiction / neutral)를 판단.

QNLI (Question-Natural Language Inference)
- 질문(question)과 문장(sentence) 쌍 중 문장이 질문의 답을 포함하는지 여부 판단.

RTE (Recognizing Textual Entailment)
- 문장 간 함의(entailment)를 판단하는 여러 기존 데이터셋들을 통합한 과제.

WNLI (Winograd Natural Language Inference)
- 대명사 참조(pronoun reference) 문제 등을 포함한 어려운 문장쌍 추론(task).

평가 방식 및 특징[편집 | 원본 편집]

각 과제마다 학습(train), 검증(dev), 테스트(test) 세트가 제공됨.
점수(metric)는 과제별로 다르다 (정확도(accuracy), 유사도 점수(similarity), F1, 매크로/마이크로 평균 등).
전체 GLUE 점수(GLUE score)는 여러 과제의 점수를 평균내어 계산됨.
진단 진단 데이터셋(diagnostic dataset)을 포함하여, 언어학적 현상(linguistic phenomena)별 모델의 강점/약점을 분석할 수 있음. ^[4]

장점 및 한계[편집 | 원본 편집]

장점
- 다양한 언어적 과제들로 구성되어 모델의 일반화 능력 평가에 효과적이다.
- 쉬운 과제부터 어려운 과제까지 포함되어 기술 발전 및 모델 비교가 가능하다.
- 소규모 데이터 과제(task)도 있으므로 데이터 부족 환경에서도 평가됨.

한계
- 최근 일부 모델들은 GLUE에서 매우 높은 성능을 보여 “포화(saturation)” 현상이 나타남.
- 영어 중심(English-centric)이며, 다른 언어(multilingual) 지원이 제한됨.
- 몇몇 과제는 간단한 어휘(overlap) 특징에 크게 의존하는 바이트(bias)가 존재함.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, Alex Wang et al., 2018

각주[편집 | 원본 편집]

↑ “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”, Wang et al., 2018, https://arxiv.org/abs/1804.07461
↑ Wang et al., 2018, https://arxiv.org/abs/1804.07461
↑ GLUE 벤치마크 공식 웹사이트, https://gluebenchmark.com/
↑ Wang et al., 2018, https://arxiv.org/abs/1804.07461

[1] “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”, Wang et al., 2018, https://arxiv.org/abs/1804.07461

[2] Wang et al., 2018, https://arxiv.org/abs/1804.07461

[3] GLUE 벤치마크 공식 웹사이트, https://gluebenchmark.com/

[4] Wang et al., 2018, https://arxiv.org/abs/1804.07461

[1]

[2]

[3]

[4]

익명 사용자

검색

GLUE 벤치마크

이름공간

더 보기

문서 행위

목차

정의[편집 | 원본 편집]

구성 요소 및 주요 과제들[편집 | 원본 편집]

평가 방식 및 특징[편집 | 원본 편집]

장점 및 한계[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

GLUE 벤치마크

정의[편집 | 원본 편집]

구성 요소 및 주요 과제들[편집 | 원본 편집]

평가 방식 및 특징[편집 | 원본 편집]

장점 및 한계[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록