익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
GLUE 벤치마크
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
GLUE 벤치마크(GLUE, General Language Understanding Evaluation)는 다양한 자연어 이해(NLU) 과제들을 모은 평가 기준으로, 여러 모델을 비교, 분석하기 위해 고안되었다. <ref>“GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”, Wang et al., 2018, https://arxiv.org/abs/1804.07461</ref> ==정의== GLUE는 여러 개의 서로 다른 NLU 과제(task)들을 포함하며, 하나의 모델이 여러 과제에 대해 얼마나 잘 일반화(generalize)할 수 있는지를 평가하도록 설계되었다. 학습률(transfer learning)과 멀티태스크 학습(multi-task learning)을 장려하며, 소량의 데이터로도 잘 작동하는 모델을 우대한다. <ref>Wang et al., 2018, https://arxiv.org/abs/1804.07461</ref> ==구성 요소 및 주요 과제들== GLUE에 포함된 대표적인 과제들은 다음과 같다: <ref>GLUE 벤치마크 공식 웹사이트, https://gluebenchmark.com/</ref> #CoLA (Corpus of Linguistic Acceptability) #*문장이 문법적으로 타당한지 여부를 판단한다 (문장 단독). #SST-2 (Stanford Sentiment Treebank) #*문장의 감성(sentiment, 긍정/부정)을 분류한다. #MRPC (Microsoft Research Paraphrase Corpus) #*문장 쌍이 의미상 동등한지(paraphrase) 여부를 판단. #QQP (Quora Question Pairs) #*두 개의 질문이 의미적으로 동일한지 판단. #STS-B (Semantic Textual Similarity Benchmark) #*문장 쌍 사이의 유사도를 연속 점수(score)로 평가 (예: 1~5). #MNLI (Multi-Genre Natural Language Inference) #*두 문장(premise-hypothesis) 간의 추론 관계(entailment / contradiction / neutral)를 판단. #QNLI (Question-Natural Language Inference) #*질문(question)과 문장(sentence) 쌍 중 문장이 질문의 답을 포함하는지 여부 판단. #RTE (Recognizing Textual Entailment) #*문장 간 함의(entailment)를 판단하는 여러 기존 데이터셋들을 통합한 과제. #WNLI (Winograd Natural Language Inference) #*대명사 참조(pronoun reference) 문제 등을 포함한 어려운 문장쌍 추론(task). ==평가 방식 및 특징== *각 과제마다 학습(train), 검증(dev), 테스트(test) 세트가 제공됨. *점수(metric)는 과제별로 다르다 (정확도(accuracy), 유사도 점수(similarity), F1, 매크로/마이크로 평균 등). *전체 GLUE 점수(GLUE score)는 여러 과제의 점수를 평균내어 계산됨. *진단 진단 데이터셋(diagnostic dataset)을 포함하여, 언어학적 현상(linguistic phenomena)별 모델의 강점/약점을 분석할 수 있음. <ref>Wang et al., 2018, https://arxiv.org/abs/1804.07461</ref> ==장점 및 한계== *장점 **다양한 언어적 과제들로 구성되어 모델의 일반화 능력 평가에 효과적이다. **쉬운 과제부터 어려운 과제까지 포함되어 기술 발전 및 모델 비교가 가능하다. **소규모 데이터 과제(task)도 있으므로 데이터 부족 환경에서도 평가됨. *한계 **최근 일부 모델들은 GLUE에서 매우 높은 성능을 보여 “포화(saturation)” 현상이 나타남. **영어 중심(English-centric)이며, 다른 언어(multilingual) 지원이 제한됨. **몇몇 과제는 간단한 어휘(overlap) 특징에 크게 의존하는 바이트(bias)가 존재함. ==같이 보기== *[[자연어 이해]] *[[패러프레이즈 판별]] *[[자연어 추론]] *[[Sentiment 분류]] *[[언어 모델 평가 기준]] ==참고 문헌== GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding, Alex Wang et al., 2018 ==각주== <references /> [[분류:인공지능]] [[분류:벤치마크]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록