⚔ 칼 과학·연구 C-32

FunSearch — LLM이 수학자도 못 푼 난제의 새로운 해를 찾다

2024년 Nature에 발표된 FunSearch는 LLM의 환각 문제를 역이용한 시스템이다. LLM이 '답(solution)' 자체를 생성하는 대신 '답을 찾는 프로그램(function)'을 생성하고, 자동 평가기가 그 프로그램의 출력을 수학적으로 검증한다.

짝 사례 ↔ S-59 · 대학가에 퍼지는 'AI 대필'과 문해력의 하향 평준화

각주용 정리

활용 버전: 수학/컴퓨터과학 연구용, AI 연구용, 일반 사용자용
성과 영역: 조합론 미해결 문제(캡셋 문제)에서 기존 최고 기록 초과 달성, 온라인 빈 패킹 최적 휴리스틱 발견
작동 원리: LLM이 프로그램(함수) 생성 → 자동 평가기가 점수 산정 → 진화적 탐색으로 고득점 프로그램 반복 개선
행위 수준: DeepMind FunSearch
근거 출처: Romera-Paredes et al. (2024). Nature, 625, 468-475
적용 모듈: 모듈 A(정보 검증) + 모듈 D(논쟁적 주제/의사결정)

성공 팩트

2024년 Nature에 발표된 FunSearch는 LLM의 환각 문제를 역이용한 시스템이다. LLM이 '답(solution)' 자체를 생성하는 대신 '답을 찾는 프로그램(function)'을 생성하고, 자동 평가기가 그 프로그램의 출력을 수학적으로 검증한다. 검증을 통과한 프로그램만 살아남고, 이를 다시 LLM에 넣어 개선하는 진화적 과정을 반복한다. 이 방법으로 극단 조합론의 핵심 미해결 문제인 '캡셋 문제'에서 기존 최고 기록을 넘는 새로운 구성을 발견했다. 8차원에서 캡셋 크기 512를 달성해 기존 기록 496을 경신했다. 또한 실용적인 온라인 빈 패킹 문제에서도 기존 최선의 휴리스틱을 능가하는 알고리즘을 발견했다.

시너지의 본질

FunSearch가 증명한 것은 "AI가 수학을 이해한다"가 아니다. "AI의 창의적 제안 + 수학적 검증기의 엄격한 필터 = 검증된 새로운 발견"이라는 공식이다. LLM은 환각을 일으키지만, 그 환각 중 극소수가 실제로 기존 인간 수학자들이 시도하지 않은 유효한 접근법일 수 있다. 핵심은 환각을 차단하는 것이 아니라, 환각을 대량 생산한 뒤 검증기로 걸러내는 것이다.

모듈 시너지

모듈 A(정보 검증): FunSearch의 성공 비결은 자동 검증기에 있다. AI가 무엇을 생성하든, 수학적으로 올바른지를 자동으로 확인하는 시스템이 있었기에 환각이 발견으로 전환됐다. 일상에서 AI를 사용할 때도 "AI의 출력을 검증하는 별도의 체크 시스템"을 항상 짝으로 운영하라.
모듈 D(논쟁적 주제/의사결정): AI가 제시한 해법이 인간의 직관과 다를 때, "기계가 틀렸다"고 즉시 기각하지 마라. FunSearch가 발견한 캡셋 구성은 처음에 수학자들이 의아해했지만, 검증 결과 유효했다. 낯선 답이 반드시 틀린 답은 아니다.

방패 연결

방패 편 S-59(가짜 참고문헌의 유통) — LLM이 존재하지 않는 논문을 만들어낸 사례. FunSearch와의 차이는 명확하다. S-59에서는 검증 없이 LLM의 출력을 그대로 사용했고, FunSearch에서는 모든 출력을 자동 검증기로 걸렀다. 같은 LLM이라도 검증 시스템의 유무가 환각과 발견을 가른다.

S-59

→ 본편: 2부 4장 (모듈 A — 정보 검증), 2부 4장 (모듈 D — 논쟁적 주제)

근거 출처 전체 보기 →

← 사례 DB로 돌아가기 ⚔ 칼 전체 보기