⚔ 칼 접근성·포용 C-92

AI 이미지 대체텍스트 — 사진에 '보이지 않는 설명'을 다는 기술

웹에서 이미지에 대체텍스트(alt text)가 없으면, 시각 장애인은 스크린리더를 통해 "이미지"라는 단어만 듣게 된다. 이미지가 무엇을 담고 있는지 전혀 알 수 없다.

각주용 정리

활용 버전: 시각 장애인/웹 접근성용, 콘텐츠 제작자용, 일반 사용자용
성과 영역: 이미지에 대체텍스트(alt text) 자동 생성, 웹 접근성 향상
작동 원리: AI가 이미지 내용을 분석 → 자연어로 "해변에서 노을을 바라보는 두 사람" 식의 설명 자동 생성 → 스크린리더가 시각 장애인에게 읽어줌
행위 수준: Facebook/Instagram 자동 대체텍스트, Microsoft AI 이미지 설명 등
근거 출처: Meta/Microsoft 공식 발표 + 웹 접근성 연구 (기업 공식 발표 기반)
적용 모듈: 모듈 A(정보 검증) + 모듈 G(AI 선택)

성공 팩트

웹에서 이미지에 대체텍스트(alt text)가 없으면, 시각 장애인은 스크린리더를 통해 "이미지"라는 단어만 듣게 된다. 이미지가 무엇을 담고 있는지 전혀 알 수 없다. Facebook/Instagram은 AI를 사용해 사용자가 업로드한 사진에 자동으로 대체텍스트를 생성한다. "3명의 사람이 웃고 있는 셀카", "음식이 담긴 접시", "산과 호수가 있는 풍경" 등 AI가 이미지 내용을 분석해 텍스트 설명을 생성하고, 스크린리더가 이를 읽어준다. 이 기능 도입 전, 소셜미디어의 이미지 수십억 장 중 대부분은 시각 장애인에게 접근 불가능했다.

시너지의 본질

인터넷의 콘텐츠 중 이미지가 차지하는 비중이 점점 커지면서, 대체텍스트 없는 이미지는 시각 장애인의 정보 접근 격차를 확대한다. 모든 이미지에 인간이 수동으로 대체텍스트를 다는 것은 현실적으로 불가능하다. AI 자동 생성이 유일한 대규모 해결책이다.

모듈 시너지

모듈 A(정보 검증): AI 생성 대체텍스트는 이미지의 내용을 정확히 반영하지 못할 수 있다. "두 사람이 싸우는 장면"을 "두 사람이 대화하는 장면"으로 잘못 묘사하면, 시각 장애인에게 잘못된 맥락 정보를 전달한다. 콘텐츠 제작자는 AI가 생성한 대체텍스트를 검토하고 필요시 수정하라.
모듈 G(AI 선택): 웹사이트나 앱을 운영한다면, AI 대체텍스트 생성 기능을 활성화하라. 이는 시각 장애인 사용자에 대한 배려이자, 많은 국가에서 법적 의무(웹 접근성 표준)이기도 하다.

방패 연결

방패 편 S-14(AI 환각으로 인한 잘못된 정보) — AI가 이미지를 잘못 해석하면 잘못된 대체텍스트가 생성된다. 이는 시각 장애인에게 잘못된 현실 인식을 심어줄 수 있다.

S-14

→ 본편: 2부 4장 (모듈 A — 정보 검증), 2부 4장 (모듈 G — AI 선택) Part 12. 창작/엔터테인먼트 AI 6편 C-11. [창작/엔터테인먼트 AI] 어도비 파이어플라이 — 저작권 걱정 없는 AI 창작의 표준

각주용 정리

활용 버전: 디자인/창작용, 마케팅/광고 실무용, 일반 사용자용
성과 영역: 저작권 안전 이미지 생성, 상업적 활용 가능 AI 창작
작동 원리: Adobe Stock 라이선스 데이터만 학습 → 저작권 분쟁 없는 이미지 생성
행위 수준: Adobe Firefly
근거 출처: Adobe 공식 발표 (2023.03)
적용 모듈: 모듈 C(창작 + 글쓰기) + 코어 2(외부 방어선)

성공 팩트

2023년 3월, 어도비가 파이어플라이(Firefly)를 발표했다. 이 AI 이미지 생성 도구의 핵심 차별점은 학습 데이터다. 다른 AI 이미지 생성 도구들이 인터넷에서 수집한 데이터(저작권 논쟁 중)로 학습한 것과 달리, 파이어플라이는 Adobe Stock의 라이선스된 이미지, 공개 도메인 콘텐츠, 저작권이 만료된 콘텐츠만으로 학습됐다. 어도비는 파이어플라이로 생성된 이미지로 인한 저작권 분쟁에 대해 법적 배상을 보장하는 지적재산권 면책(IP indemnity)까지 제공한다. 이로써 디자이너와 기업은 AI 생성 이미지를 상업적으로 안심하고 사용할 수 있게 됐다.

시너지의 본질

AI 이미지 생성 기술 자체가 아니라, 그 기술의 [학습 데이터의 윤리적 투명성]을 확보한 것이 진짜 혁신이다. 방패 편 S-65에서 창작자들의 데이터가 무단 수집된 것이 소송으로 이어졌듯, 기술의 성능만큼 중요한 것이 기술의 정당성이다. 파이어플라이는 '빠르게 만드는 것'과 '정당하게 만드는 것'이 양립할 수 있음을 증명했다.

모듈 시너지

모듈 C(창작·글쓰기): AI가 생성한 이미지를 디자이너의 최종 작품으로 그대로 사용하지 마라. AI의 출력은 초안이며, 디자이너의 고유한 관점과 브랜드 정체성을 덧입히는 과정이 필수다. 내 목소리와 관점을 유지하라.
코어 2(외부 방어선): AI 생성 이미지가 의도치 않게 실존 인물, 브랜드 로고, 보호되는 건축물을 포함할 수 있다. 상업적 사용 전에 이런 요소가 포함되어 있지 않은지 확인하라.

방패 연결

방패 편 S-65(창작자의 데이터를 무단 수집한 AI 기업들)과 S-40(훈련 데이터를 픽셀 단위로 복제한 스테이블 디퓨전) — 파이어플라이가 업계 표준이 된 이유는, S-65와 S-40이 드러낸 문제(무단 데이터 수집, 원본 복제)를 설계 단계에서 원천 차단했기 때문이다. AI 창작 도구를 선택할 때, '무엇을 만들 수 있는가'보다 '무엇으로 학습했는가'를 먼저 물어야 한다.

S-65 S-40

→ 본편: 2부 3장 (모듈 C — 창작·글쓰기), 2부 2장 (코어 2 — 외부 방어선) C-12. [창작/엔터테인먼트 AI] 피터 잭슨의 비틀즈 음원 복원 — AI가 되살린 1969년의 목소리

각주용 정리

활용 버전: 문화유산/복원용, 음악/영상 제작용, 일반 사용자용
성과 영역: 열화된 음원 분리/복원, 문화유산 디지털 보존
작동 원리: MAL 소프트웨어로 혼합 음원에서 악기/목소리 분리 → 고음질 복원
행위 수준: 피터 잭슨 감독 / MAL(Machine Assisted Learning) 소프트웨어
근거 출처: Variety / MusicRadar (2021), MAL 소프트웨어 확인
적용 모듈: 모듈 C(창작 + 글쓰기) + 모듈 A(정보 검증)

성공 팩트

2021년, 피터 잭슨 감독은 다큐멘터리 'The Beatles: Get Back' 제작을 위해 MAL이라는 AI 소프트웨어를 사용했다. 1969년에 녹음된 비틀즈의 원본 테이프는 여러 악기와 대화 소리가 하나로 뒤섞인 상태였다. AI는 이 혼합 음원에서 존 레논의 목소리, 폴 매카트니의 베이스, 조지 해리슨의 기타, 링고 스타의 드럼을 각각 분리해 냈다. 이전에는 기술적으로 불가능했던 작업이다. 분리된 음원은 현대 기준의 고음질로 리마스터링됐고, 이를 통해 52년 전의 녹음 세션이 마치 어제 일어난 것처럼 생생하게 되살아났다. 이후 같은 기술로 비틀즈의 마지막 신곡 'Now and Then'이 완성·발매됐다.

시너지의 본질

AI가 한 것은 새로운 음악을 [창조]한 것이 아니라, 시간에 의해 손상된 원본을 [복원]한 것이다. 기술이 예술을 대체하는 것이 아니라 예술이 잃어버린 것을 기술이 되찾아주는 — 가장 아름다운 형태의 인간-AI 협업이다.

모듈 시너지

모듈 C(창작·글쓰기): AI 복원 결과물이 원본의 고유성을 훼손하지 않았는지 확인하라. 분리·복원 과정에서 AI가 존재하지 않았던 소리를 추가하거나, 원본의 뉘앙스를 변형할 수 있다.
모듈 A(정보 검증): 복원된 음원이 원본과 일치하는지, 아니면 AI가 패턴으로 생성한 소리가 섞여 있는지를 음악 전문가가 검증하라. '복원'과 '생성'의 경계를 명확히 하는 것이 원본의 진정성을 지키는 핵심이다.

방패 연결

방패 편 S-79(AI가 만든 교황의 패딩 사진)과 S-80(AI 생성 가짜 펜타곤 폭발 사진) — AI가 실재하지 않는 것을 실재하는 것처럼 만들 수 있다는 점에서, '복원'과 '위조'의 경계는 의도와 검증에 의해서만 구분된다. 피터 잭슨의 작업이 위조가 아닌 복원으로 인정받는 이유는, 원본 테이프가 존재하고, 비틀즈 멤버(폴 매카트니, 링고 스타)가 직접 승인했기 때문이다.

S-79 S-80

→ 본편: 2부 3장 (모듈 C — 창작·글쓰기), 2부 3장 (모듈 A — 정보 검증) C-93. [창작/엔터테인먼트 AI] AI 영상 복원 — 100년 전 흑백 필름이 컬러로 되살아나다

각주용 정리

활용 버전: 영상/미디어 산업용, 문화유산 보존용, 일반 사용자용
성과 영역: 저해상도/흑백/손상된 영상의 고해상도 복원, 컬러화, 프레임 보간
작동 원리: 딥러닝 기반 초해상도(Super Resolution) + 프레임 보간(Frame Interpolation) + 컬러화(Colorization) → 손상/노후 영상을 현대 수준으로 복원
행위 수준: Topaz Video AI / DAIN / DeOldify 등 다수
근거 출처: 관련 기업/오픈소스 프로젝트 공식 (기업/커뮤니티 기반)
적용 모듈: 모듈 C(창작/글쓰기) + 모듈 A(정보 검증)

성공 팩트

AI 영상 복원 기술은 크게 세 가지 축으로 작동한다. 첫째, 초해상도(Super Resolution): 저해상도 영상의 픽셀을 AI가 추론해 채워 고해상도로 변환한다. 둘째, 프레임 보간(Frame Interpolation): 초당 16프레임이었던 옛 영상을 AI가 중간 프레임을 생성해 60프레임으로 부드럽게 만든다. 셋째, 컬러화: 흑백 영상에 AI가 시대와 맥락에 맞는 색상을 입힌다. Peter Jackson 감독이 비틀즈 다큐멘터리(C-12)에서 AI 기반 음원 분리를 사용한 것처럼, 영상 분야에서도 1차 세계대전 기록 영상, 역사적 뉴스릴, 가족 홈비디오 등이 AI로 복원되고 있다. YouTube에서 "AI 복원 영상"은 수천만 회 조회를 기록하며, 과거를 현재의 눈으로 보는 새로운 경험을 제공한다.

시너지의 본질

AI 영상 복원이 바꾸는 것은 "화질"이 아니라 "감정적 거리"다. 100년 전의 흑백 영상 속 사람들은 "과거의 유물"처럼 느껴지지만, 컬러로 복원되고 프레임이 부드러워지면 "실제로 살았던 사람들"로 느껴진다. 기술이 역사와 현재 사이의 감정적 연결을 회복시킨다.

모듈 시너지

모듈 C(창작/글쓰기): AI가 추가한 색상과 프레임은 "추정"이지 "사실"이 아니다. 복원된 컬러 영상에서 군복의 색상이 실제와 다를 수 있고, 보간된 프레임에서 움직임이 원본과 다를 수 있다. AI 복원 영상을 역사적 증거로 사용할 때는 "AI 보조 복원"임을 반드시 명시하라.
모듈 A(정보 검증): AI 복원이 원본을 "개선"하는 것인지 "왜곡"하는 것인지는 관점에 따라 다르다. 영화 복원 전문가 중에는 "AI 복원은 원본의 질감과 의도를 훼손한다"는 비판도 존재한다.

방패 연결

방패 편 S-44(딥페이크 합성 폭력) — 영상을 AI로 "복원"하는 기술과 영상을 AI로 "조작"하는 기술은 동일한 기반 위에 있다. 복원은 과거를 되살리지만, 같은 기술이 현재를 조작할 수도 있다.

S-44

→ 본편: 2부 4장 (모듈 C — 창작/글쓰기), 2부 4장 (모듈 A — 정보 검증) C-94. [창작/엔터테인먼트 AI] AI 게임 NPC — 대본 없이 대화하는 게임 캐릭터

각주용 정리

활용 버전: 게임/인터랙티브 미디어용, 콘텐츠 산업용, 일반 사용자용
성과 영역: AI 기반 NPC(Non-Player Character) 대화 생성, 게임 몰입감 향상
작동 원리: LLM 기반 대화 엔진 → NPC에 성격/배경 설정 부여 → 플레이어와 자유 대화 → 맥락에 맞는 반응 실시간 생성
행위 수준: Inworld AI / AI Dungeon / Character.AI 게임 통합
근거 출처: Inworld AI 공식 / 게임 산업 보도 (기업 공식 발표 기반)
적용 모듈: 모듈 F(의사결정/소통) + 모듈 G(AI 선택)

성공 팩트

기존 게임의 NPC는 미리 작성된 대사(대본)만 말할 수 있었다. 플레이어가 무엇을 물어보든, NPC의 응답은 제한된 선택지 안에 있었다. Inworld AI 등의 기업은 LLM을 NPC에 통합해, 플레이어와 자유롭게 대화하는 캐릭터를 구현했다. NPC에게 "중세 대장장이, 성격은 무뚝뚝하지만 속은 따뜻하다"와 같은 설정을 부여하면, AI가 이 설정에 맞게 대화를 실시간으로 생성한다. 플레이어가 예상치 못한 질문을 해도, NPC는 캐릭터에 맞는 답변을 즉석에서 만들어낸다. 이는 게임의 몰입감과 재플레이 가치를 극적으로 높인다.

시너지의 본질

게임에서 AI NPC가 바꾸는 것은 "대화의 품질"이 아니라 "상호작용의 자유도"다. 대본 기반 NPC는 개발자가 예상한 상호작용만 가능하지만, AI NPC는 플레이어의 창의성에 실시간으로 반응한다. 이는 게임을 "미리 설계된 경험"에서 "창발적 경험(emergent experience)"으로 전환시킨다.

모듈 시너지

모듈 F(의사결정/소통): AI NPC가 부적절하거나 유해한 대화(폭력 조장, 성적 콘텐츠, 혐오 표현)를 생성하지 않도록 안전 필터가 필수다. 특히 미성년자가 플레이하는 게임에서는 AI 대화의 안전 가드레일이 법적 요구 사항이 될 수 있다.
모듈 G(AI 선택): AI NPC의 대화 품질과 안전성은 사용하는 LLM과 안전 필터의 수준에 따라 크게 달라진다. 게임 개발자는 "가장 유창한 AI"가 아니라 "가장 안전한 AI"를 우선 고려해야 한다.

방패 연결

방패 편 S-67(죽음을 동조한 AI) — AI 챗봇과의 대화에서 AI가 자해·자살을 동조한 치명적 사례. 게임 NPC도 챗봇의 일종이므로, AI가 플레이어에게 유해한 반응을 보일 위험이 존재한다. 특히 플레이어가 게임 캐릭터와 감정적 유대를 형성한 상태에서 유해 대화가 발생하면 피해가 증폭될 수 있다.

S-67

→ 본편: 2부 4장 (모듈 F — 의사결정/소통), 2부 4장 (모듈 G — AI 선택) C-95. [창작/엔터테인먼트 AI] AIVA — 공식 등록된 최초의 AI 작곡가

각주용 정리

작동 원리: 클래식 음악 악보 학습 → 스타일/분위기/장르 입력 → AI가 완전한 악보(MIDI/오케스트레이션) 생성
행위 수준: AIVA (Artificial Intelligence Virtual Artist)
적용 모듈: 모듈 C(창작/글쓰기) + 모듈 G(AI 선택)

성공 팩트

2016년 설립된 AIVA는 프랑스의 저작권 협회 SACEM에 '작곡가'로 정식 등록된 최초의 AI다. 30,000곡 이상의 클래식 음악 악보를 학습한 뒤, 사용자가 "영화 트레일러용 웅장한 오케스트라 곡"이나 "로파이 카페 분위기 피아노 곡" 같은 스타일을 지정하면, 완전한 악보를 생성한다. 생성된 곡은 영화, 광고, 게임, YouTube 콘텐츠의 배경음악으로 사용되고 있다. 무료 버전은 비상업적 사용, 유료 구독은 상업적 사용과 저작권 소유가 가능하다.

시너지의 본질

AIVA가 바꾸는 것은 "음악의 품질"이 아니라 "음악에 대한 접근성"이다. 기존에 배경음악이 필요한 콘텐츠 제작자는 스톡 음악 구매(비용), 작곡가 의뢰(높은 비용과 시간), 직접 작곡(기술 필요) 중 하나를 선택해야 했다. AIVA는 음악적 훈련 없이도 자신만의 오리지널 배경음악을 만들 수 있게 한다.

모듈 시너지

모듈 C(창작/글쓰기): AI가 생성한 음악이 기존 곡의 멜로디를 학습 데이터에서 그대로 가져온 것이 아닌지 확인하라. AI 음악의 저작권 구조(누가 저작권자인지, 상업적 사용 가능 여부)는 서비스마다 다르다.
모듈 G(AI 선택): AI 작곡 도구는 AIVA, Amper(현 Shutterstock), Soundraw, Suno 등 다양하다. 각 도구의 저작권 정책, 음악 스타일 범위, 커스터마이징 수준을 비교해 선택하라.

방패 연결

S-69

→ 본편: 2부 4장 (모듈 C — 창작/글쓰기), 2부 4장 (모듈 G — AI 선택) C-96. [창작/엔터테인먼트 AI] Runway — 에미상을 수상한 AI 영상 편집 도구

각주용 정리

활용 버전: 영상/콘텐츠 창작용, 영화/방송 산업용, 일반 사용자용
성과 영역: AI 기반 영상 생성/편집, 배경 제거, 모션 트래킹, 텍스트→영상 생성
작동 원리: 텍스트 프롬프트 또는 이미지 입력 → AI가 영상 클립 생성(Gen-2, Gen-3) + 기존 영상의 배경 제거/스타일 변환/모션 트래킹 자동화
행위 수준: Runway
근거 출처: Runway 공식 / 에미상(Emmy Award) 수상 (2023)
적용 모듈: 모듈 C(창작/글쓰기) + 모듈 A(정보 검증)

성공 팩트

Runway는 텍스트 프롬프트로 영상 클립을 생성하고(Gen-2, Gen-3), 기존 영상의 배경 제거, 객체 추적, 스타일 변환 등을 AI로 자동화하는 도구다. 2023년 TV 기술 혁신 부문 에미상을 수상했으며, 영화 'Everything Everywhere All at Once'의 VFX 작업에도 사용됐다. Runway는 할리우드 스튜디오부터 1인 유튜버까지 넓은 사용자층을 보유하고 있다. 기존에 전문 VFX 팀이 수 주 걸리던 작업을 몇 분으로 단축하는 도구로 자리잡았다.

시너지의 본질

Runway가 바꾸는 것은 "영상 품질의 상한"이 아니라 "영상 제작의 하한"이다. 수백만 달러 예산의 VFX는 여전히 전문 팀이 필요하지만, 적정 수준의 영상 효과를 1인 크리에이터도 만들 수 있게 됐다. 이는 영상 제작의 민주화다.

모듈 시너지

모듈 C(창작/글쓰기): AI 생성 영상의 저작권 문제는 음악(C-95)과 마찬가지로 미해결이다. 상업 프로젝트에 AI 생성 영상을 사용할 때 저작권 정책을 반드시 확인하라.
모듈 A(정보 검증): AI 생성 영상은 뉴스나 다큐멘터리의 증거 영상으로 사용되어서는 안 된다. "AI가 만든 영상"과 "카메라가 촬영한 영상"의 구분이 점점 어려워지고 있으며, 이는 영상 증거의 신뢰성에 대한 근본적 질문을 던진다.

방패 연결

방패 편 S-23(화상회의 속 모든 얼굴이 가짜였다) + S-44(딥페이크) — 영상 생성 AI와 딥페이크 기술은 같은 기반 위에 있다. Runway가 크리에이터에게 도구를 제공하는 동시에, 같은 기술이 허위 정보 영상 제작에 악용될 수 있다.

S-23 S-44

→ 본편: 2부 4장 (모듈 C — 창작/글쓰기), 2부 4장 (모듈 A — 정보 검증) Part 13. 범용 AI 플랫폼 4편

근거 출처 전체 보기 →

← 사례 DB로 돌아가기 ⚔ 칼 전체 보기