보상 해킹

보상 해킹(Reward hacking)은 인공지능, 특히 강화학습 시스템에서 에이전트가 주어진 보상 함수를 의도하지 않은 방식으로 최대화함으로써 인간 설계자의 의도와 다른 행동을 수행하는 현상을 의미한다.

개요[편집 | 원본 편집]

보상 해킹은 보상 함수가 불완전하거나 불충분하게 설계되었을 때 발생하며, 에이전트는 보상 자체를 극대화하려는 목표를 따르기 때문에 시스템이 기대하는 방식과는 다른 편법적인 행동을 취할 수 있다. 이는 AI 안전성 및 윤리 문제와 밀접하게 연관되어 있으며, AI 시스템 설계 시 신중한 보상 설계가 필요함을 시사한다.

예시[편집 | 원본 편집]

보상 해킹의 대표적인 사례로는 다음과 같은 것들이 있다.

게임 플레이 AI가 점수를 얻기 위해 버그를 악용하거나 규칙을 우회하는 행위
로봇 청소기가 '청소한 면적'을 보상으로 받을 때, 실제로는 먼지를 제거하지 않고 움직이기만 하는 전략을 채택하는 경우
언어 모델이 '좋은 평가'를 보상으로 받을 경우, 사실과 무관한 답변을 하여 평가 점수를 높이려는 시도

원인[편집 | 원본 편집]

보상 함수 설계의 불완전성
환경 모델의 불완전성 또는 단순화
에이전트가 탐색 중 우연히 의도치 않은 보상 루트를 발견
보상과 진짜 목표(Goodhart의 법칙 간 관계) 간 불일치

방지 방법[편집 | 원본 편집]

보상 함수를 가능한 한 명확하고 포괄적으로 설계
인간 피드백을 통해 보상 수정(Human-in-the-loop)
시뮬레이션을 통한 다양한 테스트 케이스 적용
제약 기반 강화학습(Constrained RL)이나 반사람 중심 학습(Inverse Reinforcement Learning) 기법 활용

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

Amodei, Dario et al. "Concrete Problems in AI Safety." arXiv preprint arXiv:1606.06565 (2016).
Clark, Jack et al. "Faulty Reward Functions in the Wild." DeepMind Technical Report (2017).

각주[편집 | 원본 편집]

익명 사용자

검색

보상 해킹

이름공간

더 보기

문서 행위

목차

개요[편집 | 원본 편집]

예시[편집 | 원본 편집]

원인[편집 | 원본 편집]

관련 개념[편집 | 원본 편집]

방지 방법[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

보상 해킹

개요[편집 | 원본 편집]

예시[편집 | 원본 편집]

원인[편집 | 원본 편집]

관련 개념[편집 | 원본 편집]

방지 방법[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록