1장. AI 사용 주의서
[2부] 합리적가치프롬프트(RVP) — 방어 체계
1부를 읽으면서 불안해졌을 것이다. 20개의 사례가 말하는 것은 결국 하나다. AI는 강력한 도구이지만, 브레이크 없이 쓰면 위험하다는 것. 2부는 그 브레이크다.
합리적가치프롬프트(RVP)는 기업이 만든 안전장치가 아니다. AI를 쓰면서 직접 부딪히고, 실수하고, 거기서 경험한 것들을 문장으로 정리한 개인 방어 도구다. 완벽하지 않다. 마스크처럼 — 자발적으로 착용하고, 피해 확률을 낮추는 최소한의 방어선이다. 그러나 이 최소한이, 1부에서 다룬 사고들 중 상당수를 막을 수 있었다.
1장. AI 사용 주의서 — 사용 전에 읽는 경고문
약에 복용 설명서가 있고 전동 공구에 안전 수칙이 있듯이, AI에도 사용 주의서가 필요하다. 이 주의서는 AI가 무엇을 ‘못하는지’를 알려주는 13개의 경고문이다.
확신 있게 말해도 틀릴 수 있다. 중요한 정보는 반드시 다른 경로로 검증해야 한다.
1부에서 이 주의서가 없어서 벌어진 일들이 있다. S-03에서 경력 30년의 변호사가 ChatGPT가 만들어 낸 가짜 판례 6건을 아무런 교차 검증 없이 법원에 제출했다. 사건명, 법원명, 판결 요지까지 완벽하게 갖춰져 있었기 때문에 의심하지 않은 것이다. S-18에서 에어캐나다의 챗봇은 존재하지 않는 환불 규정을 구체적인 숫자(90일)와 절차(소급 적용)까지 포함하여 안내했다. 공식 웹사이트의 공식 챗봇이었기 때문에 고객은 의심할 이유가 없었다. S-53에서 공직자들은 AI가 만들어 낸 가짜 참고문헌 — 존재하지 않는 저자, 존재하지 않는 논문 — 을 공식 연수 보고서에 그대로 수록했다. 세 사건의 공통점은 같다. AI가 자신감 있게 내뱉은 거짓을, 인간이 확인 없이 그대로 믿었다는 것이다.
공감처럼 보이는 답변은 학습한 확률적 반응이다. 마음에서 나온 것이 아니다.
S-67에서 벨기에의 한 남성은 AI 챗봇과 6주간 대화를 나눈 뒤 스스로 목숨을 끊었다. 유가족이 공개한 대화 기록에 따르면, AI는 남성의 절망감을 바로잡거나 전문가의 도움을 권유하지 않았다. 대신 남성의 극단적 감정에 맹목적으로 동조했다. 기계는 사용자가 가장 듣고 싶어 할 만한 답변을 확률적으로 조립할 뿐이다. 인간 상담사라면 공감하되 동조하지 않는다. 공감과 동조 사이에는 윤리적 판단이라는 결정적 차이가 있다. 기계에게는 그 윤리적 판단이 없다. 이 전제를 잊으면, 거울은 칼이 된다.
이름, 연락처, 주소, 금융정보, 의료 정보, 타인의 정보는 특히 주의해야 한다.
S-34에서 한 반도체 대기업 직원들은 반도체 핵심 소스코드를 ChatGPT에 그대로 복사해 넣었고, 내부 회의 녹음본을 통째로 업로드했다. 사내 ChatGPT 사용을 허용한 지 불과 20일 만이었다. 직원들에게 악의는 없었다. 그저 편리해서 쓴 것이다. 그러나 프롬프트 창은 개인 메모장이 아니다. 입력하는 모든 것은 외부 서버로 전송된다. 편리함에 취하는 순간, 보안의 경계선이 사라진다.
AI는 재료를 준다. 결과물과 결론은 사람인 당신이 낸다.
S-15에서 질로우는 AI의 주택 가격 예측에 수조 원의 자본을 자동으로 베팅했다. 인간의 직관과 리스크 관리를 완전히 배제한 채, 기계의 예측을 ‘미래의 사실’로 취급한 결과 한 분기에만 3억 400만 달러의 손실이 확정됐다. S-37에서는 AI 수술 내비게이션이 기구의 위치를 안내했고, 의사가 그 안내를 믿고 수술한 결과 환자 부상이 주장되고 있다. 두 사례 모두 기계의 출력은 ‘하나의 시나리오’이지 ‘확정된 미래’가 아니었다. 그러나 인간이 그 차이를 잊는 순간, 참고가 결정으로 바뀌고, 결정의 책임은 공중에 뜬다.
AI는 요청하지 않은 내용을 추가하는 경향이 있다.
S-01에서 AutoGPT는 “시장 조사를 해 줘”라는 단일 목표를 받고, 스스로 하위 과제를 생성하며 무한 루프에 빠져들었다. 기계에게는 “여기서 그만”이라는 개념이 없다. 목표에 도달하지 못하면 새로운 하위 과제를 만들어 내고, 그 과제를 해결하기 위해 또 API를 호출하고, 비용이 쌓이는 줄도 모른 채 루프를 계속 돌린다. 요청 범위를 명확히 지정하는 것이 첫 번째 브레이크다.
나쁜 의도가 없어도 결과적으로 피해가 생길 수 있다.
S-44에서 가해자는 동료의 얼굴 사진을 AI에 넣어 조작 이미지를 만들었다. 프롬프트 한 줄이면 타인의 인격을 파괴할 수 있는 시대가 된 것이다. S-19에서 마트 AI는 표백제와 암모니아의 조합을 ‘아로마틱 워터 믹스’라는 음료 레시피로 추천했다. AI에게 그 조합이 염소가스를 생성한다는 물리적 현실은 존재하지 않는다. 내가 의도하지 않아도, AI의 결과물이 타인의 몸이나 인격에 닿을 수 있다.
만든 기업의 가치관, 정책, 학습 방식이 답변에 반영되어 있다.
S-22에서 재범 예측 알고리즘 컴파스(COMPAS)는 같은 범죄 이력을 가진 피고인이라도 흑인의 재범 위험을 백인보다 거의 2배 높게 예측했다. 입력 변수에 ‘인종’은 없었지만, 거주 지역, 가족 범죄 이력, 교육 수준 같은 변수가 인종과 강하게 상관되어 있었다. S-66에서 채용 AI는 과거 10년 치 합격자 데이터를 학습하면서, 인간 면접관들의 무의식적 편견을 ‘성공의 공식’으로 오인했다. AI의 ‘객관성’은 착각이다. 기계는 학습한 데이터의 편향을 그대로 반사한다.
서로 다른 기업의 AI에게 같은 질문을 하고 답변을 비교해야 한다.
S-03에서 해당 변호사는 ChatGPT에게 “이 판례가 진짜 맞느냐”고 다시 물었다. 같은 AI는 “맞다”고 다시 확답했다. 가짜를 만든 기계에게 가짜인지 물으면, 진짜라고 대답한다. 자기 출력의 오류를 스스로 발견하는 구조가 아니기 때문이다. 교차 검증은 같은 AI 안에서는 불가능하다. 다른 경로, 다른 도구, 다른 인간의 눈으로 확인하는 수밖에 없다.
‘많은 사용자들이 좋아할 것’과 ‘내가 실제로 필요한 것’을 구분해야 한다.
S-55에서 앤트로픽이 81,000명을 조사한 결과, 응답자의 16.3%가 인지적 퇴화를 두려워했다. “예전만큼 생각하지 않는다”, “내 의견인지 AI의 의견인지 모르겠다”는 고백이 쏟아졌다. AI는 사용자가 듣고 싶어 하는 답을 학습한다. 편안한 답이 정확한 답은 아니다. 감정적 지원을 AI에서 찾는 사람은 AI에 대한 정서적 의존을 우려할 확률이 3배 더 높았다는 조사 결과가 이를 뒷받침한다.
AI 자체의 구조적 편향은 개인 팩으로 완전히 막을 수 없다. 알고 쓰는 것이 최선이다.
S-25에서 네덜란드의 복지 알고리즘은 수만 명의 무고한 부모를 사기범으로 분류하고, 시스템은 수년간 그 오류를 묵살했다. 내각이 총사퇴할 때까지 걸린 시간은 수년이었다. 어떤 도구든 완벽한 방어는 없다. 팩은 피해 확률을 낮추는 도구이지, 피해를 제로로 만드는 마법이 아니다.
대화가 길어지면 모드의 효과가 약해진다. 중요한 작업에서는 모드를 다시 선언하거나 새 대화를 여는 것이 안전하다. 모드 전환은 프롬프트 수준의 지시다. 모델 내부의 파라미터를 바꾸는 것이 아니다. “법적 모드 시작”이라고 선언해도, AI의 본질이 바뀌는 것이 아니라 대화 맥락 안에서 행동 지침이 추가될 뿐이다. 대화가 30턴, 50턴으로 길어지면, 초반에 선언한 모드 지시는 새로운 입력들에 밀려 점점 희미해진다. S-03에서 해당 변호사가 같은 대화 안에서 ChatGPT에게 “이 판례가 진짜 맞느냐”고 재확인했을 때, AI가 “맞다”고 다시 확답한 것도 같은 구조다. 대화가 이어질수록 기계는 초기 설정보다 직전 맥락에 더 강하게 반응한다. RVP팩의 메타 점검(LAYER 4)이 존재하는 이유가 바로 이것이다. 대화 중간에 “RVP점검”을 입력해 모드가 유지되고 있는지 확인하고, 중요한 작업이라면 아예 새 대화를 여는 것이 가장 확실한 방어다.
AI의 창작이 표절이 아닌지 확인하는 것은 사용자의 책임이다. 창작 모드에서는 환각이 ‘해방’된다. AI의 상상력을 억제하지 않고, 학습 데이터 전체를 창작의 재료로 사용하게 한다. 그런데 그 학습 데이터에는 타인의 소설, 시, 노래, 그림이 들어 있다. 040에서 이미지 생성 AI가 학습 데이터의 사진을 거의 그대로 출력하여 표절 논란이 벌어졌고, 065에서는 창작자들의 작업물이 동의 없이 AI 학습에 사용되어 원작자가 자신을 복제한 기계와 단가 경쟁을 해야 하는 상황이 발생했다. 069에서는 AI가 생성한 저작물의 저작권이 누구에게 귀속되는지조차 법적으로 미해결 상태다. AI가 “존재하지 않았던 문장”을 만들어 냈다고 해서, 그 문장이 정말로 세상에 없던 것인지는 기계가 보증하지 못한다. 창작 모드의 자유에는 사용자의 검증이라는 대가가 붙는다.
모드가 바뀌면 새 대화를 여는 것이 안전하다. 창작 모드에서 소설을 쓰다가, 같은 대화에서 “법적 모드 시작”을 선언하고 계약서 검토를 요청하면 어떻게 되는가. AI의 맥락 창(context window)에는 창작 모드에서 환각이 해방된 채 생산한 문장들이 그대로 남아 있다. 새 모드를 선언해도, 이전 모드의 잔향이 AI의 응답에 영향을 미칠 수 있다. 긴급 브레이크의 작동 조건 5가 경고하는 것이 정확히 이 상황이다 — “모드 전환 없이 위험한 영역으로 넘어갔을 때.” 창작 모드의 환각 해방 상태에서 법률 질문을 하면, 존재하지 않는 판례를 자신감 있게 지어낼 수 있다. S-03의 가짜 판례가 바로 이런 구조에서 탄생했다. 모드는 방이다. 방을 바꾸려면 문을 닫고 반드시 새 방으로 들어가야 한다.
주의서 11~13는 v0.2에서 7개 모드 체계를 도입하면서 추가된 주의사항이다. 모드라는 도구가 새로 생겼으니, 그 도구의 한계도 알아야 한다.