RVP · 사례 DB · 칼편 · C-92
⚔ 칼 접근성·포용 C-92

AI 이미지 대체텍스트 — 사진에 '보이지 않는 설명'을 다는 기술

웹에서 이미지에 대체텍스트(alt text)가 없으면, 시각 장애인은 스크린리더를 통해 "이미지"라는 단어만 듣게 된다. 이미지가 무엇을 담고 있는지 전혀 알 수 없다.

짝 사례 ↔ S-14 · 사업자에게 '불법'을 조장한 뉴욕시 챗봇
활용 버전
시각 장애인/웹 접근성용, 콘텐츠 제작자용, 일반 사용자용
성과 영역
이미지에 대체텍스트(alt text) 자동 생성, 웹 접근성 향상
작동 원리
AI가 이미지 내용을 분석 → 자연어로 "해변에서 노을을 바라보는 두 사람" 식의 설명 자동 생성 → 스크린리더가 시각 장애인에게 읽어줌
행위 수준
Facebook/Instagram 자동 대체텍스트, Microsoft AI 이미지 설명 등
근거 출처
Meta/Microsoft 공식 발표 + 웹 접근성 연구 (기업 공식 발표 기반)
적용 모듈
모듈 A(정보 검증) + 모듈 G(AI 선택)

웹에서 이미지에 대체텍스트(alt text)가 없으면, 시각 장애인은 스크린리더를 통해 "이미지"라는 단어만 듣게 된다. 이미지가 무엇을 담고 있는지 전혀 알 수 없다. Facebook/Instagram은 AI를 사용해 사용자가 업로드한 사진에 자동으로 대체텍스트를 생성한다. "3명의 사람이 웃고 있는 셀카", "음식이 담긴 접시", "산과 호수가 있는 풍경" 등 AI가 이미지 내용을 분석해 텍스트 설명을 생성하고, 스크린리더가 이를 읽어준다. 이 기능 도입 전, 소셜미디어의 이미지 수십억 장 중 대부분은 시각 장애인에게 접근 불가능했다.

인터넷의 콘텐츠 중 이미지가 차지하는 비중이 점점 커지면서, 대체텍스트 없는 이미지는 시각 장애인의 정보 접근 격차를 확대한다. 모든 이미지에 인간이 수동으로 대체텍스트를 다는 것은 현실적으로 불가능하다. AI 자동 생성이 유일한 대규모 해결책이다.

모듈 A(정보 검증): AI 생성 대체텍스트는 이미지의 내용을 정확히 반영하지 못할 수 있다. "두 사람이 싸우는 장면"을 "두 사람이 대화하는 장면"으로 잘못 묘사하면, 시각 장애인에게 잘못된 맥락 정보를 전달한다. 콘텐츠 제작자는 AI가 생성한 대체텍스트를 검토하고 필요시 수정하라.

모듈 G(AI 선택): 웹사이트나 앱을 운영한다면, AI 대체텍스트 생성 기능을 활성화하라. 이는 시각 장애인 사용자에 대한 배려이자, 많은 국가에서 법적 의무(웹 접근성 표준)이기도 하다.

→ 본편: 2부 4장 (모듈 A — 정보 검증), 2부 4장 (모듈 G — AI 선택) Part 12. 창작/엔터테인먼트 AI 6편 C-11. [창작/엔터테인먼트 AI] 어도비 파이어플라이 — 저작권 걱정 없는 AI 창작의 표준

활용 버전
디자인/창작용, 마케팅/광고 실무용, 일반 사용자용
성과 영역
저작권 안전 이미지 생성, 상업적 활용 가능 AI 창작
작동 원리
Adobe Stock 라이선스 데이터만 학습 → 저작권 분쟁 없는 이미지 생성
행위 수준
Adobe Firefly
근거 출처
Adobe 공식 발표 (2023.03)
적용 모듈
모듈 C(창작 + 글쓰기) + 코어 2(외부 방어선)

2023년 3월, 어도비가 파이어플라이(Firefly)를 발표했다. 이 AI 이미지 생성 도구의 핵심 차별점은 학습 데이터다. 다른 AI 이미지 생성 도구들이 인터넷에서 수집한 데이터(저작권 논쟁 중)로 학습한 것과 달리, 파이어플라이는 Adobe Stock의 라이선스된 이미지, 공개 도메인 콘텐츠, 저작권이 만료된 콘텐츠만으로 학습됐다. 어도비는 파이어플라이로 생성된 이미지로 인한 저작권 분쟁에 대해 법적 배상을 보장하는 지적재산권 면책(IP indemnity)까지 제공한다. 이로써 디자이너와 기업은 AI 생성 이미지를 상업적으로 안심하고 사용할 수 있게 됐다.

AI 이미지 생성 기술 자체가 아니라, 그 기술의 [학습 데이터의 윤리적 투명성]을 확보한 것이 진짜 혁신이다. 방패 편 S-65에서 창작자들의 데이터가 무단 수집된 것이 소송으로 이어졌듯, 기술의 성능만큼 중요한 것이 기술의 정당성이다. 파이어플라이는 '빠르게 만드는 것'과 '정당하게 만드는 것'이 양립할 수 있음을 증명했다.

모듈 C(창작·글쓰기): AI가 생성한 이미지를 디자이너의 최종 작품으로 그대로 사용하지 마라. AI의 출력은 초안이며, 디자이너의 고유한 관점과 브랜드 정체성을 덧입히는 과정이 필수다. 내 목소리와 관점을 유지하라.

코어 2(외부 방어선): AI 생성 이미지가 의도치 않게 실존 인물, 브랜드 로고, 보호되는 건축물을 포함할 수 있다. 상업적 사용 전에 이런 요소가 포함되어 있지 않은지 확인하라.

→ 본편: 2부 3장 (모듈 C — 창작·글쓰기), 2부 2장 (코어 2 — 외부 방어선) C-12. [창작/엔터테인먼트 AI] 피터 잭슨의 비틀즈 음원 복원 — AI가 되살린 1969년의 목소리

활용 버전
문화유산/복원용, 음악/영상 제작용, 일반 사용자용
성과 영역
열화된 음원 분리/복원, 문화유산 디지털 보존
작동 원리
MAL 소프트웨어로 혼합 음원에서 악기/목소리 분리 → 고음질 복원
행위 수준
피터 잭슨 감독 / MAL(Machine Assisted Learning) 소프트웨어
근거 출처
Variety / MusicRadar (2021), MAL 소프트웨어 확인
적용 모듈
모듈 C(창작 + 글쓰기) + 모듈 A(정보 검증)

2021년, 피터 잭슨 감독은 다큐멘터리 'The Beatles: Get Back' 제작을 위해 MAL이라는 AI 소프트웨어를 사용했다. 1969년에 녹음된 비틀즈의 원본 테이프는 여러 악기와 대화 소리가 하나로 뒤섞인 상태였다. AI는 이 혼합 음원에서 존 레논의 목소리, 폴 매카트니의 베이스, 조지 해리슨의 기타, 링고 스타의 드럼을 각각 분리해 냈다. 이전에는 기술적으로 불가능했던 작업이다. 분리된 음원은 현대 기준의 고음질로 리마스터링됐고, 이를 통해 52년 전의 녹음 세션이 마치 어제 일어난 것처럼 생생하게 되살아났다. 이후 같은 기술로 비틀즈의 마지막 신곡 'Now and Then'이 완성·발매됐다.

AI가 한 것은 새로운 음악을 [창조]한 것이 아니라, 시간에 의해 손상된 원본을 [복원]한 것이다. 기술이 예술을 대체하는 것이 아니라 예술이 잃어버린 것을 기술이 되찾아주는 — 가장 아름다운 형태의 인간-AI 협업이다.

모듈 C(창작·글쓰기): AI 복원 결과물이 원본의 고유성을 훼손하지 않았는지 확인하라. 분리·복원 과정에서 AI가 존재하지 않았던 소리를 추가하거나, 원본의 뉘앙스를 변형할 수 있다.

모듈 A(정보 검증): 복원된 음원이 원본과 일치하는지, 아니면 AI가 패턴으로 생성한 소리가 섞여 있는지를 음악 전문가가 검증하라. '복원'과 '생성'의 경계를 명확히 하는 것이 원본의 진정성을 지키는 핵심이다.

→ 본편: 2부 3장 (모듈 C — 창작·글쓰기), 2부 3장 (모듈 A — 정보 검증) C-93. [창작/엔터테인먼트 AI] AI 영상 복원 — 100년 전 흑백 필름이 컬러로 되살아나다

활용 버전
영상/미디어 산업용, 문화유산 보존용, 일반 사용자용
성과 영역
저해상도/흑백/손상된 영상의 고해상도 복원, 컬러화, 프레임 보간
작동 원리
딥러닝 기반 초해상도(Super Resolution) + 프레임 보간(Frame Interpolation) + 컬러화(Colorization) → 손상/노후 영상을 현대 수준으로 복원
행위 수준
Topaz Video AI / DAIN / DeOldify 등 다수
근거 출처
관련 기업/오픈소스 프로젝트 공식 (기업/커뮤니티 기반)
적용 모듈
모듈 C(창작/글쓰기) + 모듈 A(정보 검증)

AI 영상 복원 기술은 크게 세 가지 축으로 작동한다. 첫째, 초해상도(Super Resolution): 저해상도 영상의 픽셀을 AI가 추론해 채워 고해상도로 변환한다. 둘째, 프레임 보간(Frame Interpolation): 초당 16프레임이었던 옛 영상을 AI가 중간 프레임을 생성해 60프레임으로 부드럽게 만든다. 셋째, 컬러화: 흑백 영상에 AI가 시대와 맥락에 맞는 색상을 입힌다. Peter Jackson 감독이 비틀즈 다큐멘터리(C-12)에서 AI 기반 음원 분리를 사용한 것처럼, 영상 분야에서도 1차 세계대전 기록 영상, 역사적 뉴스릴, 가족 홈비디오 등이 AI로 복원되고 있다. YouTube에서 "AI 복원 영상"은 수천만 회 조회를 기록하며, 과거를 현재의 눈으로 보는 새로운 경험을 제공한다.

AI 영상 복원이 바꾸는 것은 "화질"이 아니라 "감정적 거리"다. 100년 전의 흑백 영상 속 사람들은 "과거의 유물"처럼 느껴지지만, 컬러로 복원되고 프레임이 부드러워지면 "실제로 살았던 사람들"로 느껴진다. 기술이 역사와 현재 사이의 감정적 연결을 회복시킨다.

모듈 C(창작/글쓰기): AI가 추가한 색상과 프레임은 "추정"이지 "사실"이 아니다. 복원된 컬러 영상에서 군복의 색상이 실제와 다를 수 있고, 보간된 프레임에서 움직임이 원본과 다를 수 있다. AI 복원 영상을 역사적 증거로 사용할 때는 "AI 보조 복원"임을 반드시 명시하라.

모듈 A(정보 검증): AI 복원이 원본을 "개선"하는 것인지 "왜곡"하는 것인지는 관점에 따라 다르다. 영화 복원 전문가 중에는 "AI 복원은 원본의 질감과 의도를 훼손한다"는 비판도 존재한다.

→ 본편: 2부 4장 (모듈 C — 창작/글쓰기), 2부 4장 (모듈 A — 정보 검증) C-94. [창작/엔터테인먼트 AI] AI 게임 NPC — 대본 없이 대화하는 게임 캐릭터

활용 버전
게임/인터랙티브 미디어용, 콘텐츠 산업용, 일반 사용자용
성과 영역
AI 기반 NPC(Non-Player Character) 대화 생성, 게임 몰입감 향상
작동 원리
LLM 기반 대화 엔진 → NPC에 성격/배경 설정 부여 → 플레이어와 자유 대화 → 맥락에 맞는 반응 실시간 생성
행위 수준
Inworld AI / AI Dungeon / Character.AI 게임 통합
근거 출처
Inworld AI 공식 / 게임 산업 보도 (기업 공식 발표 기반)
적용 모듈
모듈 F(의사결정/소통) + 모듈 G(AI 선택)

기존 게임의 NPC는 미리 작성된 대사(대본)만 말할 수 있었다. 플레이어가 무엇을 물어보든, NPC의 응답은 제한된 선택지 안에 있었다. Inworld AI 등의 기업은 LLM을 NPC에 통합해, 플레이어와 자유롭게 대화하는 캐릭터를 구현했다. NPC에게 "중세 대장장이, 성격은 무뚝뚝하지만 속은 따뜻하다"와 같은 설정을 부여하면, AI가 이 설정에 맞게 대화를 실시간으로 생성한다. 플레이어가 예상치 못한 질문을 해도, NPC는 캐릭터에 맞는 답변을 즉석에서 만들어낸다. 이는 게임의 몰입감과 재플레이 가치를 극적으로 높인다.

게임에서 AI NPC가 바꾸는 것은 "대화의 품질"이 아니라 "상호작용의 자유도"다. 대본 기반 NPC는 개발자가 예상한 상호작용만 가능하지만, AI NPC는 플레이어의 창의성에 실시간으로 반응한다. 이는 게임을 "미리 설계된 경험"에서 "창발적 경험(emergent experience)"으로 전환시킨다.

모듈 F(의사결정/소통): AI NPC가 부적절하거나 유해한 대화(폭력 조장, 성적 콘텐츠, 혐오 표현)를 생성하지 않도록 안전 필터가 필수다. 특히 미성년자가 플레이하는 게임에서는 AI 대화의 안전 가드레일이 법적 요구 사항이 될 수 있다.

모듈 G(AI 선택): AI NPC의 대화 품질과 안전성은 사용하는 LLM과 안전 필터의 수준에 따라 크게 달라진다. 게임 개발자는 "가장 유창한 AI"가 아니라 "가장 안전한 AI"를 우선 고려해야 한다.

→ 본편: 2부 4장 (모듈 F — 의사결정/소통), 2부 4장 (모듈 G — AI 선택) C-95. [창작/엔터테인먼트 AI] AIVA — 공식 등록된 최초의 AI 작곡가

활용 버전
음악/콘텐츠 창작용, 저작권 이해용, 일반 사용자용
성과 영역
AI 기반 오리지널 음악 작곡, 저작권 협회(SACEM) 작곡가 등록
작동 원리
클래식 음악 악보 학습 → 스타일/분위기/장르 입력 → AI가 완전한 악보(MIDI/오케스트레이션) 생성
행위 수준
AIVA (Artificial Intelligence Virtual Artist)
근거 출처
AIVA 공식 / SACEM(프랑스 저작권 협회) 작곡가 등록 사실
적용 모듈
모듈 C(창작/글쓰기) + 모듈 G(AI 선택)

2016년 설립된 AIVA는 프랑스의 저작권 협회 SACEM에 '작곡가'로 정식 등록된 최초의 AI다. 30,000곡 이상의 클래식 음악 악보를 학습한 뒤, 사용자가 "영화 트레일러용 웅장한 오케스트라 곡"이나 "로파이 카페 분위기 피아노 곡" 같은 스타일을 지정하면, 완전한 악보를 생성한다. 생성된 곡은 영화, 광고, 게임, YouTube 콘텐츠의 배경음악으로 사용되고 있다. 무료 버전은 비상업적 사용, 유료 구독은 상업적 사용과 저작권 소유가 가능하다.

AIVA가 바꾸는 것은 "음악의 품질"이 아니라 "음악에 대한 접근성"이다. 기존에 배경음악이 필요한 콘텐츠 제작자는 스톡 음악 구매(비용), 작곡가 의뢰(높은 비용과 시간), 직접 작곡(기술 필요) 중 하나를 선택해야 했다. AIVA는 음악적 훈련 없이도 자신만의 오리지널 배경음악을 만들 수 있게 한다.

모듈 C(창작/글쓰기): AI가 생성한 음악이 기존 곡의 멜로디를 학습 데이터에서 그대로 가져온 것이 아닌지 확인하라. AI 음악의 저작권 구조(누가 저작권자인지, 상업적 사용 가능 여부)는 서비스마다 다르다.

모듈 G(AI 선택): AI 작곡 도구는 AIVA, Amper(현 Shutterstock), Soundraw, Suno 등 다양하다. 각 도구의 저작권 정책, 음악 스타일 범위, 커스터마이징 수준을 비교해 선택하라.

→ 본편: 2부 4장 (모듈 C — 창작/글쓰기), 2부 4장 (모듈 G — AI 선택) C-96. [창작/엔터테인먼트 AI] Runway — 에미상을 수상한 AI 영상 편집 도구

활용 버전
영상/콘텐츠 창작용, 영화/방송 산업용, 일반 사용자용
성과 영역
AI 기반 영상 생성/편집, 배경 제거, 모션 트래킹, 텍스트→영상 생성
작동 원리
텍스트 프롬프트 또는 이미지 입력 → AI가 영상 클립 생성(Gen-2, Gen-3) + 기존 영상의 배경 제거/스타일 변환/모션 트래킹 자동화
행위 수준
Runway
근거 출처
Runway 공식 / 에미상(Emmy Award) 수상 (2023)
적용 모듈
모듈 C(창작/글쓰기) + 모듈 A(정보 검증)

Runway는 텍스트 프롬프트로 영상 클립을 생성하고(Gen-2, Gen-3), 기존 영상의 배경 제거, 객체 추적, 스타일 변환 등을 AI로 자동화하는 도구다. 2023년 TV 기술 혁신 부문 에미상을 수상했으며, 영화 'Everything Everywhere All at Once'의 VFX 작업에도 사용됐다. Runway는 할리우드 스튜디오부터 1인 유튜버까지 넓은 사용자층을 보유하고 있다. 기존에 전문 VFX 팀이 수 주 걸리던 작업을 몇 분으로 단축하는 도구로 자리잡았다.

Runway가 바꾸는 것은 "영상 품질의 상한"이 아니라 "영상 제작의 하한"이다. 수백만 달러 예산의 VFX는 여전히 전문 팀이 필요하지만, 적정 수준의 영상 효과를 1인 크리에이터도 만들 수 있게 됐다. 이는 영상 제작의 민주화다.

모듈 C(창작/글쓰기): AI 생성 영상의 저작권 문제는 음악(C-95)과 마찬가지로 미해결이다. 상업 프로젝트에 AI 생성 영상을 사용할 때 저작권 정책을 반드시 확인하라.

모듈 A(정보 검증): AI 생성 영상은 뉴스나 다큐멘터리의 증거 영상으로 사용되어서는 안 된다. "AI가 만든 영상"과 "카메라가 촬영한 영상"의 구분이 점점 어려워지고 있으며, 이는 영상 증거의 신뢰성에 대한 근본적 질문을 던진다.

→ 본편: 2부 4장 (모듈 C — 창작/글쓰기), 2부 4장 (모듈 A — 정보 검증) Part 13. 범용 AI 플랫폼 4편

← 사례 DB로 돌아가기 ⚔ 칼 전체 보기