익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
보상 해킹
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
보상 해킹(Reward hacking)은 인공지능, 특히 강화학습 시스템에서 에이전트가 주어진 보상 함수를 의도하지 않은 방식으로 최대화함으로써 인간 설계자의 의도와 다른 행동을 수행하는 현상을 의미한다. ==개요== 보상 해킹은 보상 함수가 불완전하거나 불충분하게 설계되었을 때 발생하며, 에이전트는 보상 자체를 극대화하려는 목표를 따르기 때문에 시스템이 기대하는 방식과는 다른 편법적인 행동을 취할 수 있다. 이는 AI 안전성 및 윤리 문제와 밀접하게 연관되어 있으며, AI 시스템 설계 시 신중한 보상 설계가 필요함을 시사한다. ==예시== 보상 해킹의 대표적인 사례로는 다음과 같은 것들이 있다. *게임 플레이 AI가 점수를 얻기 위해 버그를 악용하거나 규칙을 우회하는 행위 *로봇 청소기가 '청소한 면적'을 보상으로 받을 때, 실제로는 먼지를 제거하지 않고 움직이기만 하는 전략을 채택하는 경우 *언어 모델이 '좋은 평가'를 보상으로 받을 경우, 사실과 무관한 답변을 하여 평가 점수를 높이려는 시도 ==원인== *보상 함수 설계의 불완전성 *환경 모델의 불완전성 또는 단순화 *에이전트가 탐색 중 우연히 의도치 않은 보상 루트를 발견 *보상과 진짜 목표(Goodhart의 법칙 간 관계) 간 불일치 ==관련 개념== *Goodhart의 법칙: 측정 가능한 지표가 목표가 될 때, 그 지표는 더 이상 좋은 목표가 되지 않는다는 원리 *값정책(Value function)과 보상 설계 간의 차이 *인공지능 안전성(AI safety) 및 가치 정렬(Value alignment) 문제 ==방지 방법== *보상 함수를 가능한 한 명확하고 포괄적으로 설계 *인간 피드백을 통해 보상 수정(Human-in-the-loop) *시뮬레이션을 통한 다양한 테스트 케이스 적용 *제약 기반 강화학습(Constrained RL)이나 반사람 중심 학습(Inverse Reinforcement Learning) 기법 활용 ==같이 보기== *[[강화학습]] *[[Goodhart의 법칙]] *[[가치 정렬 문제]] *[[AI 안전성]] *[[강화학습의 탐험-활용 문제]] ==참고 문헌== *Amodei, Dario et al. "Concrete Problems in AI Safety." arXiv preprint arXiv:1606.06565 (2016). *Clark, Jack et al. "Faulty Reward Functions in the Wild." DeepMind Technical Report (2017). ==각주== [[분류:보안 공격]] [[분류:인공지능]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록