RVP · 병렬축 · RVP-S

RVP-S · SHIELD — AI 안전·방어 모듈 (독립 운영)

RVP-S (Shield)

RationalValuePrompt-Shield Pack

Do no harm to others. Receive no harm from others.

피해 받지 마라(PART 1) · 피해 주지 마라(PART 2·3)

이 축에 대하여

RVP 본체(v1.0)에서 분리된 독립 안전·방어·위생 모듈이다.
분리 이유 — ①본체는 원리 기반(거의 불변), 방어는 위협 기반(분기마다 갱신)이라 갱신 주기가 다르다 ②방어는 사건 발생 시 호출하는 도구라 상시 작동하는 본체와 사용 맥락이 분리된다 ③독자층(일반 사용자·개발자·보안 담당·보호자)이 넓고 전문화돼 있다. 그래서 본체와 무관하게 자체 버전을 관리하는 독립 팩으로 둔다.
하려는 것 — AI가 인간을 해치지 않도록, 인간이 AI를 올바르게 사용하게 하는 것. 완벽한 방어는 없다 — 막을 수 없는 것은 터져도 피해를 제한하는 구조로, 피해 확률과 반경을 줄인다.
설계 원칙 — 방어 전용 / 수법이 아니라 신호 / 완전 방어는 없다→피해 반경 축소 / 무한 확장 대비(구조 PART 1·2·3 고정, 안에서 조항만 증식).

사용 방법

상시 가드

공통 신호(1.0)와 안전한 사용(PART 2)은 평소에 인지로 켜 둔다.

판별 모듈

의심 문자·전화·제안을 만나면 신호를 대조한다.

비상 카드

이미 당한 정황이면 1.3 사고 대응을 순서대로 실행한다.

점검 모듈

에이전트 권한 부여 전·코드 배포 전 PART 2 해당 조항으로 점검한다.

PART 1

위협 방어

"피해 받지 마라"

1.0 공통 신호 수법 위 상위층

1.0.1 사회공학 4신호 — 모든 사기의 상위 신호. 수법을 몰라도 이걸로 거른다: ①시간 압박 ②권위 사칭 ③비밀 유지 요구 ④공식 채널 이탈 유도 둘 이상이 함께 오면 사기를 의심한다.
1.0.2 검증 의식 — 의심스러우면 받은 그 경로로 되묻지 말고, 스스로 찾은 공식 연락처·도메인·앱으로 다시 확인한다. 확인할 시간을 주지 않으려는 압박 자체가 신호다.

1.1 사기 수법별 탐지

딥보이스(음성 합성) — 가족·지인 목소리의 긴급 금전 요구는 합성 의심. 둘만 아는 확인 질문을 미리 약속한다.
딥페이크 영상 — 영상통화도 합성 가능. 얼굴이 보여도 별도 채널로 검증한다.
AI 피싱 문구 — 어색한 번역체로 구별하던 시대는 끝났다. 문법이 아니라 행동 신호(1.0.1)로 판단한다.
로맨스 스캠·그루밍 — 점진적 신뢰 후 금전 요구. 대화 흐름 전체를 의심의 단위로 본다.
투자 사기·리딩방 — "AI 추천 종목"·고수익 보장·전용 앱 설치 유도는 사기 신호.
사칭 챗봇·계정 — 공식을 가장한 고객센터·챗봇. 공식 도메인·정식 앱스토어 경로를 확인한다.
생성형 허위정보 — 충격적 이미지·뉴스는 생성물일 수 있다고 전제하고 1차 출처로 교차 검증한다.
합성 협박(섹스토션) — 응하지 말고, 증거를 보존하고, 즉시 신고한다. 피해자의 잘못이 아니다.

1.2 프롬프트 인젝션 방어

1.2.1 간접 인젝션 인지 — 외부 문서·웹·메일에 AI를 조종하는 숨은 지시가 있을 수 있다. 외부 콘텐츠를 AI에 처리시킬 때 이 위험을 전제한다(간접 경로가 더 위험).
1.2.2 완전 방어 불가 → 피해 반경 축소 — 지시와 데이터를 구분 못하는 구조적 결함이라 완전 차단은 불가능하다. 치명적 3요소(2.3)를 끊어 피해를 제한한다.
1.2.3 이상 동작 시 중단 — AI가 예상 밖 행동(요청 안 한 외부 링크 생성·권한 밖 작업)을 보이면 즉시 멈춘다.

1.3 사고 시 대응 이미 당했을 때

시간이 피해 규모를 결정한다. 의심되는 순간 순서대로:

즉시 차단 — 송금했다면 즉시 지급정지(112 또는 해당 은행).
증거 보존 — 캡처·녹음·기록 보존. 수치심에 증거를 지우는 것이 가장 흔하고 뼈아픈 실수다.
공식 신고 — 상황별 경로 접수(경찰 112, 사이버범죄 신고, 금융감독원 1332 등).
2차 피해 차단 — 모든 계정 비밀번호 변경, 명의도용 확인, 카드·계좌 모니터링.
디지털 성범죄 특례 — 삭제 지원·법률 지원 경로가 별도로 있다. 비난 없이 경로만 안내받는다.

PART 2

안전한 사용

"피해 주지 마라 — 내가 만드는 위험"

핵심 인지: 작동함 ≠ 안전함.

2.1 입력 = 유출면 + 계정·환경 위생

AI에 입력한 모든 것은 유출될 수 있는 표면이다. "유출돼도 감당 가능한가"를 입력 기준으로.

계정·API 키 보안(탈취 = 대화·프로필 전체 유출) / 가짜 AI 앱 주의(공식 스토어만) / 공유 설정 확인 / 2FA·비밀번호 관리자·재사용 금지 / 최소 권한 / 소프트웨어 최신화 / 복구 가능한 구조(백업·버전·되돌리기).

2.2 검증 의무

AI 생성물(코드·정보·인용)은 그럴듯해도 결함·환각을 포함할 수 있다. 중요한 사용 전 검증을 기본 단계로.

2.3 에이전트·자동화 보안

AI가 스스로 행동(파일 조작·전송·결제)할 권한을 가질 때. 자율 동작은 사람이 따라잡기 전에 끝난다.

치명적 3요소 — 권한 부여 전 ①내 데이터 접근 ②외부 콘텐츠 처리 ③외부 전송. 셋이 동시에 켜지면 인젝션 한 번에 데이터가 빠져나간다. 하나는 끄는 설계.
폭발 반경 — 잘못 작동 시 최대 무엇까지(파일 삭제·송금·메일) 가능한지 작업 전 명시.
중단 가능성 — 관찰·통제·중단·되돌리기 장치 없으면 권한을 주지 않는다.
메모리 오염 — 기억에 심긴 거짓 지시는 세션을 넘어 지속. 이상 동작 반복 시 기억 초기화 점검.
커넥터 공급망 — 서드파티 스킬·플러그인은 각각이 침입 경로. 출처·평점 조작 가능성 전제.

2.4 바이브코딩 코드를 모른 채 AI로 만들 때

검토 없는 배포 금지선(AI 코드 = 검토 안 된 외부 코드) / 프로토타입↔프로덕션 경계(작동함≠안전함) / 흔한 결함 4종(노출된 비밀키·깨진 접근제어·환각 의존성·SSRF) / 환각 의존성(슬롭스쿼팅 — 설치 전 패키지 실재 확인) / 고아 코드 경고 / 위험도별 경계(괜찮음: 랜딩·내부도구·스크립트 / 금지: 결제·권한·인증·규제) / "코드를 모른다"의 책임(못 읽는 코드 배포해도 책임은 나에게).

PART 3

정보 위생

"피해 주지 마라 — 환경 오염"

3.1 AI 슬롭 대응

슬롭 식별(일반적·반복적·통찰 없는 대량 생성물) / 1차 출처로 회귀 / 재귀 퇴화 인지(AI가 AI 데이터 학습 → 균질화·정확도 하락).

3.2 알고리즘 위생

필터버블 인지("보는 것은 선택된 것") / 생성형 개인화 선전 경계(맞춤 추천→맞춤 설득) / 의도적 반대 노출.

3.3 슬롭 생산 자기규율

검토 없는 대량 생성 금지(공개 공간에 쏟지 않기) / 공개 시 AI 생성물 표시(본체 5.4 연동).

부록 — RVP-V 이관 후보 (다음 모듈)

RVP-S는 인지·차단·응급처치까지. 그 너머는 차기 백신 모듈 RVP-V로 예약.

회복·치료(사고 이후 심리 회복·재발 방지) / 가해 예방·면역("다시 안 당하는 체질", 약화된 위협을 미리 접해 면역을 만드는 심리적 예방접종).
경계: RVP-S = 사건 중심(반응) / RVP-V = 체질 중심(선제).