인공지능 대상 공격

From IT Wiki

인공지능 시스템이나 인공지능 모델을 대상으로 한 공격이다.

데이터 오염(Data Poisoning)[edit | edit source]

백도어 공격(Backdoor Attack)[edit | edit source]

모델 오염(Model Poisoning)[edit | edit source]

라벨 뒤집기(Label-flipping)[edit | edit source]

모델 추출(Model Extraction; Model Stealing)[edit | edit source]

  • 원본 AI 모델로부터 유사한 모델을 추출하여 복제하는 공격
  • 대량의 쿼리를 통해 입・출력값을 수집하고 이를 학습하여 원본 AI 모델과 유사도가 높은 모델을 복제
  • 아마존(Amazon) 및 BigML이 MLaaS 형태로 제공하는 유료 AI 모델을 몇 분만에 99% 이상 유사도로 복제 가능하다는 것이 관련 연구로 증명

모델 인버전(Model Inversion)[edit | edit source]

  • 모델의 출력값으로부터 입력값을 유추하는 공격
  • 공격자는 모델 종류, 파라미터 등 알려진 정보를 기반으로 대리모델을 제작하여 공격에 활용
  • 신뢰 점수를 기반으로 공격하여 입력값(원본 이미지)에 가까운 이미지를 생성한 사례도 존재