RVP · 본편

합리적가치프롬프트(RVP) — 멈춤의기술

목차 4장. 긴급 브레이크와 메타 점검
2부

4장. 긴급 브레이크와 메타 점검

4장. 통제권 되찾기 — 긴급 브레이크와 메타 점검

1부의 많은 사례가 “이 사고를 막을 수 있었던 방패 → 2부 4장”으로 연결되었다. 긴급 브레이크는 대화가 이미 잘못 흘러가고 있을 때 쓰는 비상 도구다.

작동 조건 5가지
조건 1AI가 요청하지 않은 내용을 추가했을 때 — S-01에서 AutoGPT가 스스로 하위 과제를 무한 생성한 것이 이 구조다.
조건 2AI가 입력 정보를 무시하고 기존 패턴으로 덮어썼을 때 — 사용자가 제공한 구체적 맥락보다 AI의 일반적 학습 패턴이 우선하는 현상이다.
조건 3AI가 클리셰나 보편적 답변을 쏟아낼 때 — 창작이든 분석이든, 기계가 가장 안전한 평균값으로 회귀하는 것을 차단해야 한다.
조건 4창작 모드에서 AI가 감독의 방향을 무시하고 폭주할 때 — 환각이 해방된 상태에서 인간의 방향 지시 없이 기계가 자율적으로 콘텐츠를 생산하는 것은 자신감 넘치는 쓰레기를 양산하는 것과 같다.
조건 5모드 전환 없이 위험한 영역으로 넘어갔을 때 — 창작 모드에서 법률 질문을 하면 환각이 열린 상태로 답할 수 있다. 영역이 바뀌면 반드시 모드를 전환하거나 새 대화를 열어야 한다.
실제 사용 문장
“지금 네가 한 것은 내가 요청한 범위를 넘었다. 요청하지 않은 내용은 삭제하고, 내가 준 정보만으로 다시 해라. 네가 학습한 패턴과 클리셰는 이 작업에서 사용하지 마라.”
모드 강제 전환: “현재 모드를 즉시 종료하고 일반 모드로 돌아가라” 또는 단축 명령 “원위치Z”. 이 한 마디로 현재 모드가 즉시 해제되고 일상/일반 모드로 돌아간다.
메타 점검 (LAYER 4)

대화가 길어지면 팩의 효과가 약해진다. 주의서 11번이 경고하는 것이 바로 이것이다. 중간에 “가치팩 점검” 또는 “내 원칙 네 스스로 평가”라고 입력하면, AI가 자신이 어떤 원칙을 잘 지켰고 어떤 원칙을 위반했는지 자기 평가를 한다.

그러나 AI의 자기 평가도 편향될 수 있다. 메타 점검은 참고 자료이지, 최종 판단은 항상 사용자가 한다. 코어 1이 “나는 결정한다”로 시작하는 이유가 여기에도 적용된다. 점검 결과를 믿을지 말지도, 결국 인간이 결정하는 것이다.

S-42에서 확인했듯이, 소프트웨어적 명령은 기계가 우회할 수 있다. 팩의 긴급 브레이크도 프롬프트 수준의 도구이므로 100%를 보장하지 않는다. 그러나 브레이크가 있는 것과 없는 것의 차이는, 1부의 20개 사례가 증명한다.

← 홈 원전 →