QQP (인공지능)
IT 위키
QQP(Quora Question Pairs)는 Quora 웹사이트에서 수집된 질문 쌍(question pairs) 데이터셋으로, 두 개의 질문이 의미적으로 중복(duplicates)인지 아닌지를 판정하는 과제이다.
정의[편집 | 원본 편집]
QQP는 자연어 처리에서 패러프레이즈 식별(paraphrase identification) 과 유사도 판단(semantic equivalence) 과제에 사용되는 데이터셋이다. 주어진 두 질문이 의미상 같은지를 바이너리 레이블(duplicated / not duplicated)로 구분한다.
구성 및 통계[편집 | 원본 편집]
- 전체 데이터 수: 약 400,000 쌍 이상의 질문 쌍을 포함함.
- 레이블: binary (duplicated vs not duplicated)
- 예제 질의 질문들: “How do I install Windows 10 on a specific hard drive?” vs “How do I install Windows 10 on a new hard drive?” 등이 있음. [1]
- 데이터 분할: 학습(train) / 검증(dev) / 테스트(test) 등으로 나뉘어 있음.
용도 및 중요성[편집 | 원본 편집]
- 패러프레이즈 식별 과제에 표준 벤치마크로 자주 쓰임.
- 문장 임베딩(sentence embedding), 자연어 이해(NLU), 질문 응답 시스템 및 유사 질문 찾기(duplicate question detection) 연구 등에 활용됨.
- GLUE 벤치마크의 한 구성 요소로, 여러 NLU 모델의 비교 지표 중 하나.
장점과 한계[편집 | 원본 편집]
- 장점:
- 데이터가 크고, 현실적인 질문 쌍들로 구성되어 있음.
- 레이블이 명확해 지도 학습(supervised learning)에 적합함.
- 한계:
- 질문 간 중복 여부의 판단이 때때로 주관적일 수 있음.
- 단지 두 질문의 의미적 동등 여부만을 보는 것이지 문맥이나 추가 정보를 고려하지 않음.
- 일부 질문 쌍은 텍스트 유사성이 매우 높아 단순 문자열 기반 방법들이 잘 처리할 수 있지만, 의미적으로는 다른 경우도 있음.
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
Quora Question Pairs Dataset — Kaggle GLUE: QQP — HuggingFace Datasets
각주[편집 | 원본 편집]
- ↑ “GLUE: QQP” HuggingFace Datasets