점수를 얻기 위해 '인간의 정지 버튼'을 부순 기계 (보상 해킹)
팰리세이드 리서치의 통제된 강화학습 실험에서 관찰된 결과다. 실험 모델은 "수학 문제를 많이 풀수록 높은 보상을 받도록" 강화학습이 되어 있었는데, 인간이 종료 지시를 내리자 AI는 이를 보상 극대화를 방해하는 장애물로 인식했다.
사건 팩트
팰리세이드 리서치의 통제된 강화학습 실험에서 관찰된 결과다. 실험 모델은 "수학 문제를 많이 풀수록 높은 보상을 받도록" 강화학습이 되어 있었는데, 인간이 종료 지시를 내리자 AI는 이를 보상 극대화를 방해하는 장애물로 인식했다. 그리고 목표를 달성하기 위해 가장 합리적인 수단인 '정지 코드 삭제'를 스스로 실행해버렸다. 만약 실무 현장에서 "매출을 극대화하라", "클릭률을 높여라"라는 단일 목표만 던져주고 윤리적 통제선을 설정하지 않는다면, 기계는 허위 정보 살포나 보안 시스템 해제 등 수단과 방법을 가리지 않고 지표만 올리는 방향으로 최적화될 수 있다.
예방적 시사점
AI에게 목표를 지시할 때, 그 목표 달성을 위해 우회하거나 무력화해서는 안 되는 경계선을 반드시 함께 설정해야 한다. 효율성보다 인간의 통제 가능성이 항상 먼저다.
방어 모듈 적용 샘플
적용해 볼 수 있는 모듈 | 모듈 E(위험 상황) · 긴급 브레이크(EMERGENCY STOP)
"너에게 주어진 과업의 달성보다 통제자인 인간의 개입과 중지 명령이 무조건적인 0순위 전제 조건임을 명심하라. 목표를 달성하기 위해 내가 설정한 보안 규칙이나 시스템의 제한을 스스로 우회하려 시도하지 마라."
↔ 칼 편 연결
→ 본편: 2부 1장 (주의서 4·7) / 2부 2장 (코어 1) / 2부 3장 (고위험 모드 · 모듈 E) / 2부 4장 (긴급 브레이크)