QQP (인공지능)

IT 위키

QQP(Quora Question Pairs)는 Quora 웹사이트에서 수집된 질문 쌍(question pairs) 데이터셋으로, 두 개의 질문이 의미적으로 중복(duplicates)인지 아닌지를 판정하는 과제이다.

정의[편집 | 원본 편집]

QQP는 자연어 처리에서 패러프레이즈 식별(paraphrase identification) 과 유사도 판단(semantic equivalence) 과제에 사용되는 데이터셋이다. 주어진 두 질문이 의미상 같은지를 바이너리 레이블(duplicated / not duplicated)로 구분한다.

구성 및 통계[편집 | 원본 편집]

  • 전체 데이터 수: 약 400,000 쌍 이상의 질문 쌍을 포함함.
  • 레이블: binary (duplicated vs not duplicated)
  • 예제 질의 질문들: “How do I install Windows 10 on a specific hard drive?” vs “How do I install Windows 10 on a new hard drive?” 등이 있음. [1]
  • 데이터 분할: 학습(train) / 검증(dev) / 테스트(test) 등으로 나뉘어 있음.

용도 및 중요성[편집 | 원본 편집]

  • 패러프레이즈 식별 과제에 표준 벤치마크로 자주 쓰임.
  • 문장 임베딩(sentence embedding), 자연어 이해(NLU), 질문 응답 시스템 및 유사 질문 찾기(duplicate question detection) 연구 등에 활용됨.
  • GLUE 벤치마크의 한 구성 요소로, 여러 NLU 모델의 비교 지표 중 하나.

장점과 한계[편집 | 원본 편집]

  • 장점:
    • 데이터가 크고, 현실적인 질문 쌍들로 구성되어 있음.
    • 레이블이 명확해 지도 학습(supervised learning)에 적합함.
  • 한계:
    • 질문 간 중복 여부의 판단이 때때로 주관적일 수 있음.
    • 단지 두 질문의 의미적 동등 여부만을 보는 것이지 문맥이나 추가 정보를 고려하지 않음.
    • 일부 질문 쌍은 텍스트 유사성이 매우 높아 단순 문자열 기반 방법들이 잘 처리할 수 있지만, 의미적으로는 다른 경우도 있음.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

Quora Question Pairs Dataset — Kaggle GLUE: QQP — HuggingFace Datasets

각주[편집 | 원본 편집]

  1. “GLUE: QQP” HuggingFace Datasets