"배경 제거"를 클릭할 때 서버의 GPU는 수십억 번의 부동 소수점 연산을 수행합니다. 알고리즘 엔지니어처럼 픽셀 계산부터 딥러닝까지 전체 기술 스택을 분해해 봅니다.
1단계: 크로마키 기술 (Chroma Key)
전통적인 "그린 스크린" 원리: 색상 차이에 기반한 간단한 수학적 판단.
핵심 알고리즘
픽셀 프로브
2단계: 딥러닝 모델 (U²-Net)
현대 AI가 "중첩 U 구조"를 통해 복잡한 의미와 세부 사항을 이해하는 방법.
의미론적 분할 (Semantic Segmentation)
그린 스크린과 달리 AI는 구체적인 색상 값에 신경 쓰지 않습니다. 합성곱 신경망 (CNN)을 통해 각 픽셀을 분류합니다: "이것은 얼굴", "이것은 나뭇잎". 색상이 비슷해도 모양, 질감, 문맥에 따라 구분합니다.
훈련 데이터
COCO, DUTS, ADE20K 등 수만 장의 라벨링 된 이미지 데이터셋으로 훈련되었습니다. 수천 가지 조명 조건의 인물 사진을 보았기 때문에 강력한 일반화 능력을 가집니다.
왜 U²-Net인가?
일반 네트워크는 깊어질수록 세부 사항을 잃기 쉽습니다. U²-Net은 중첩 U 구조를 채택하여 전역적 의미(사람이다)와 국소적 세부 사항(머리카락이다)을 효율적으로 포착합니다. 이는 remove.bg 등 도구의 핵심 기술 흐름입니다.
3단계: Alpha Matting 및 미지 영역
반투명 가장자리(머리카락 등)의 경우 AI는 복잡한 수학 방정식을 풀어야 합니다.
분할 마스크는 보통 흑백(0 또는 1)입니다. 단단한 물체에는 문제없지만, 머리카락, 연기, 유리 같은 반투명 물체에는 알파 채널(0.0 - 1.0의 회색조)이 필요합니다.
핵심 개념: 트라이맵 (Trimap)
모델은 "미지 영역" 픽셀에만 고비용의 Matting 알고리즘을 적용하여 주변 픽셀의 색상 상관관계를 통해 각 픽셀의 전경 비율을 추론합니다.
핵심 AI 모델
SOTA 현저성 검출, remove.bg 핵심 변형
실시간 인물 Matting 전용 설계, 트라이맵 불필요
구글 개발 범용 의미론적 분할 모델
산업계 응용 프로세스
원본 입력, CNN을 통해 저해상도 마스크 생성. 대략적인 인체 윤곽 확정.
"미지 영역"(머리카락 가장자리 등) 식별, 트라이맵 생성.
투명도 계산 및 합성 시 색상 유출 보정 (De-spill).