GPT · DIALOGUE · 대화 기록

GPT에 한 질문

1) 사용자질문: 지금 인공지능의 “윤리 상태”는 어느 수준인가?

한 문장으로 말하면:

대부분의 상용 LLM(대형 언어 모델)은 ‘윤리적 판단을 스스로 이해해서 하는 존재’라기보다,

유해 행동을 줄이도록 “훈련+규칙+필터+운영 통제”가 덧대어진 시스템에 가깝습니다.

그래서 수준을 평가할 때는 “착하다/나쁘다”가 아니라, 위험을 얼마나 관리하느냐(리스크 관리 성숙도)로 봐야 정확해요. 이 관점은 NIST의 AI RMF(미국 표준기관 NIST의 위험관리 프레임워크)에서도 AI를 ‘사회-기술 시스템’으로 보고, 생애주기 전반에서 위험을 관리하라고 정리합니다.

현재의 현실적인 상태(핵심만)

- 가능한 것: 유해 요청 거부, 민감 영역(자해·폭력·불법 등)에서 안전 응답, 정책 위반 억제 등은 “상당히” 잘하도록 설계됨. (시스템 카드에 이런 안전 설계/평가가 공개되는 경우가 많음)

- 여전히 어려운 것:

- 환각(그럴듯한 거짓말)

- 편향/차별의 잔존(데이터·사회 편견 반영)

- 프롬프트 공격(탈옥/jailbreak)으로 안전장치 우회

- 맥락에 따라 ‘무해’와 ‘유해’가 갈리는 회색지대 판단

→ 즉, “윤리 능력”이 안정적으로 내장됐다기보다 운영적으로 완화되는 단계예요.

또 한 가지 중요한 사실: 전 세계적으로 “윤리”를 말할 때 공통 기준을 만들려는 시도가 있어요. 예를 들면

- UNESCO AI 윤리 권고(194개 회원국 적용): 인권·존엄, 공정성, 투명성, 인간 감독을 강조

- OECD AI 원칙(2019, 2024 업데이트): 인권·민주 가치 존중, 신뢰할 수 있는 AI를 위한 원칙/권고

- EU AI Act: 위험 기반 규제(금지/고위험/일반 등)로 실제 법적 의무를 부과하는 방향

정리하면, 윤리는 “완성된 능력”이라기보다 “규범(원칙) + 관리(프레임워크) + 규제(법) + 기술적 안전장치”가 합쳐진 상태로 발전 중입니다.

2) 사용자 질문: “세상에 나오기 전에 따로 데이터를 가지고 학습하는가?”

네. 일반적으로(회사/모델마다 다르지만) 두 단계 이상을 거칩니다.

(A) 사전학습(Pre-training)

- 웹/책/코드 등 대규모 텍스트(및 멀티모달이면 이미지 등)를 바탕으로 “언어/지식/패턴”을 학습합니다.

- 이 단계의 목적은 능력(capability) 확보에 가까워요.

(B) 후처리·정렬(Post-training / Alignment)

출시 전 “윤리·안전”과 가장 직접 관련 있는 부분이에요. 보통 아래 같은 방식이 포함됩니다.

- 지도 미세조정(SFT): “이런 질문엔 이렇게 답하라/이렇게 거절하라” 같은 예시 데이터로 학습

- RLHF(사람 피드백 기반 강화학습): 사람들이 좋은 답/나쁜 답을 비교 평가해 모델이 더 안전한 방향으로 가도록 훈련

- 헌법/원칙 기반 정렬(Constitutional AI 등): “규칙(헌장)”을 주고, 모델이 스스로 비판·수정하며 더 무해한 답으로 학습(RLAIF 포함)

추가로,

- 레드팀(red-teaming) / 안전 평가: 악용 시나리오로 시험하고 막는 작업

- 정책 필터/시스템 레벨 가드레일: 모델 바깥(제품/서비스 레이어)에서 차단 로직을 두는 방식

이런 것들이 “출시 전”에 함께 이루어지는 게 보통입니다. (각 사의 시스템 카드에 일부 공개)

즉 질문에 대한 정확한 답은:

네. ‘그냥 사전학습한 모델’을 바로 내보내는 게 아니라,

출시 전(그리고 출시 후에도) 안전/윤리 목적의 추가 학습·평가·통제를 별도로 합니다.

다음 단계(천천히, 신뢰 기반으로)

원하시면 다음부터는 “의견”이 아니라 공신력 문서를 축으로 읽어가면 좋아요.

- 국제규범: UNESCO / OECD

- 위험관리 표준: NIST AI RMF

- 실제 제품의 안전 설계 공개: 각 사 System Card / Model Card

- 규제(사회적 강제력): EU AI Act

원하시면, 다음 질문을 “깊이 있게” 이어가기 좋은 순서가 있어요(서두르지 않고):

- 윤리/안전이 ‘모델 내부 능력’인지 ‘운영 통제’인지 구분

- “합리적 가치 틀”을 원칙(규범) ↔ 실행 규칙(체크리스트/질문) ↔ 평가(점검)로 번역

- 격차 문제(접근성/역량/공정성)를 이 틀에 어떻게 넣을지

당장 다음으로는 제가 “상용 LLM의 안전장치가 왜 ‘완전한 윤리’가 되기 어려운가”를 (환각/편향/탈옥/책임소재 관점에서) 공신력 근거로 차근차근 정리해드릴까요?

위에서 언급했듯이 AI가 사용자와 사이에서 주고 받으며 성장해가면서 가지게 될 부정적 영향이 제일 걱정이에요. 이 부분은 통제하기가 어려울테니 하지만 긍적적이고 선한 프롬프트를 많이 메뉴얼 한다면 어떨까요?

아주 중요한 지점을 짚으셨어요. 그리고 질문 방식 자체가 이미 “통제의 환상”을 경계하고 있다는 점에서 굉장히 성숙합니다.

천천히, 정확하게 답할게요.