[ 떠먹여주는 논문 ] Best Paper of NeurIPS 2024, Visual Autoregressive Modeling: Scalable ImageGeneration via Next-Scale Prediction
어제보다 나은 사람이 되기

걱정보단 실행을, 그러나 계획적으로

Box World 자세히보기

AI

[ 떠먹여주는 논문 ] Best Paper of NeurIPS 2024, Visual Autoregressive Modeling: Scalable ImageGeneration via Next-Scale Prediction

Box형 2025. 1. 6. 19:55
반응형
반응형

무언가가 충분히 중요하다면 확률이 당신에게 유리하지 않더라도 시작하라

- 일론 머스크-


안녕하세요! 오늘은 NeurIPS 2024 베스트 페이퍼로 선정된 "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction" 논문에 대해 이야기해보려고 합니다. 이 논문은 기존 이미지 생성 모델의 한계를 뛰어넘는 새로운 방법론, VAR (Visual Autoregressive Modeling)을 제시합니다. VAR은 이미지의 구조적 특성을 효과적으로 학습하고, 고품질 이미지를 놀라운 속도로 생성할 수 있게 해줍니다. 특히, 이 논문에서는 이미지 생성 분야에서 diffusion 모델이 주류였던 흐름을 뒤집고, autoregressive 모델의 새로운 가능성을 제시했다는 점에서 주목할 만합니다. 본 포스트에서는 VAR의 핵심 아이디어와 작동 원리를 자세히 살펴보고, 실제 적용 가능성과 한계점에 대해 논의해보겠습니다.

이미지 생성 모델의 두 가지 축: Diffusion과 Autoregressive

이미지 생성 모델은 크게 두 가지 축으로 나눌 수 있습니다. 첫 번째는 우리가 흔히 아는 diffusion 모델입니다. Diffusion 모델은 이미지에 점진적으로 노이즈를 추가하고, 이를 역으로 제거하는 과정을 학습하여 고품질 이미지를 생성합니다. 최근 몇 년간 diffusion 모델은 이미지 생성 분야에서 뛰어난 성능을 보여주며 많은 발전을 이루어왔습니다.

반응형

반면, autoregressive (AR) 모델은 이미지의 일부를 생성하고, 이를 기반으로 다음 부분을 생성하는 방식을 사용합니다. AR 모델은 텍스트 생성 분야에서 GPT와 같은 large language model (LLM)의 기반이 되었으며, 이미지 생성 분야에서도 연구가 진행되어 왔습니다. AR 모델은 주로 컨볼루션 또는 트랜스포머 기반의 네트워크를 사용하여 이미지를 생성합니다. 이 논문에서 다루는 VAR 모델도 이러한 AR 모델의 일종으로 볼 수 있습니다.

기존 Autoregressive 모델의 문제점

기존 AR 모델은 이미지를 생성할 때, 이미지를 1차원 토큰 시퀀스로 변환하고 raster-scan 방식으로 순차적으로 토큰을 예측합니다. 이러한 방식은 다음과 같은 문제점을 야기합니다.

  • Mathematical Premise Violation (수학적 전제 위반): 이미지의 토큰들은 양방향 상관관계를 가지지만, 기존 AR 모델은 토큰들을 일방향으로 순차적으로 생성합니다. 이는 모델이 이미지의 전체적인 구조를 이해하는 데 어려움을 초래합니다.
  • Inability to Perform Some Generalization (일반화 능력 부족): 순차적인 생성 방식은 모델이 학습하지 않은 순서로 입력이 주어질 때 성능 저하를 야기합니다. 예를 들어, 이미지를 위에서 아래로 학습한 모델은 아래에서 위로 생성하는 작업을 잘 수행하지 못합니다.
  • Structural Degradation (구조적 손상): 이미지를 1차원으로 펼치는 과정에서 인접 토큰 간의 공간적 관계가 손실됩니다. 이로 인해 모델이 이미지의 구조적 정보를 효과적으로 학습하기 어렵습니다.
  • Inefficiency (비효율성): 이미지 토큰의 개수가 증가함에 따라, AR 모델의 계산 복잡도가 급격하게 증가합니다 (O(n⁶)). 이러한 계산 복잡도는 고해상도 이미지 생성에 큰 제약으로 작용합니다.

VAR: Next-Scale Prediction 기반의 새로운 패러다임

VAR은 이러한 기존 AR 모델의 문제점을 해결하기 위해, 이미지를 "next-token prediction"이 아닌 "next-scale prediction" 방식으로 생성합니다. VAR은 이미지를 여러 단계의 해상도를 가지는 토큰 맵으로 표현하고, autoregressive하게 낮은 해상도부터 높은 해상도 순서로 토큰 맵을 생성합니다. 이 과정을 coarse-to-fine 방식으로 명명하며, 기존의 raster-scan 방식과 차별점을 둡니다.

  • Multi-scale VQVAE: VAR은 먼저 이미지를 multi-scale VQVAE (Vector Quantized Variational Autoencoder)를 사용하여 여러 해상도의 토큰 맵으로 인코딩합니다. VQVAE는 이미지의 고차원 feature를 이산적인 코드 벡터로 양자화하는 모델입니다. 각 해상도 레벨에서 추출된 feature map은 코드북을 사용하여 양자화되어 토큰 맵으로 표현됩니다.
  • VAR Transformer: 그 다음으로, VAR transformer는 이전 단계의 모든 토큰 맵을 조건으로 하여 다음 해상도 토큰 맵을 생성합니다. 각 단계에서 토큰 맵 내의 토큰들은 병렬적으로 생성되므로 계산 효율성을 높입니다. 학습 시에는 block-wise causal mask를 사용하여 각 토큰 맵이 이전 단계에만 의존하도록 제한합니다.

VAR의 작동 방식

  1. Multi-scale VQVAE 인코딩: 입력 이미지는 Multi-scale VQVAE의 인코더를 통해 여러 해상도의 feature map으로 변환됩니다. 각 feature map은 양자화 과정을 거쳐 해당 해상도의 토큰 맵으로 변환됩니다.
  2. VAR Transformer 생성: VAR Transformer는 가장 낮은 해상도의 토큰 맵부터 시작하여 autoregressive 방식으로 다음 해상도의 토큰 맵을 생성합니다. 각 단계에서 모델은 이전 단계의 모든 토큰 맵과 함께 해당 단계의 위치 정보 (position embedding)를 입력으로 받습니다.
  3. Multi-scale VQVAE 디코딩: 최종적으로 생성된 모든 토큰 맵은 Multi-scale VQVAE의 디코더를 통해 원본 이미지로 복원됩니다. 디코더는 각 해상도 토큰 맵에서 해당 코드 벡터를 lookup하고, interpolation과 convolution을 통해 이미지로 복원합니다.

  • 예시: 포뮬레이션 1에서 이미지 조각의 나열된 시퀀스에 대한 확률은 각 조각들의 조건부 확률을 모두 곱한 값입니다. 이는 P(x₁, x₂, ..., xₜ) = Π P(xᵢ | x₁...xᵢ₋₁) 로 표현할 수 있습니다. 여기서 xᵢ 는 각 조각이고, t는 전체 조각의 개수입니다. 이 수식에서, xᵢ 는 이미지 조각을 의미하며 x₁...xᵢ₋₁ 는 xᵢ 이전의 모든 이미지 조각을 나타냅니다.

 

 

 

VAR의 장점

VAR은 기존 AR 모델의 단점을 극복하고 다음과 같은 장점을 제공합니다.

  • 개선된 수학적 전제: VAR은 coarse-to-fine 방식으로 이미지를 생성하여 토큰들의 양방향 상관관계 문제를 해결합니다. 각 해상도 단계에서 전체 토큰 맵을 예측하는 방식은 이러한 의존성을 내재적으로 처리합니다.
  • 향상된 일반화 능력: VAR은 이미지의 전체적인 구조를 학습하여 다양한 입력 조건에서도 안정적인 성능을 보입니다. 특히 in-painting, out-painting과 같은 zero-shot task에서도 우수한 성능을 나타냅니다.
  • 보존된 공간적 정보: 이미지의 2D 구조를 유지하면서 토큰 맵을 처리하여 spatial locality를 유지합니다. 멀티스케일 구조는 각 해상도에서 공간 정보를 더 잘 학습하도록 도와줍니다.
  • 높은 효율성: VAR은 병렬적인 토큰 생성과 재귀적인 스케일 확장을 통해 계산 복잡도를 O(n⁴)로 줄입니다. 이는 기존 AR 모델에 비해 훨씬 효율적인 계산을 가능하게 합니다. [수정된 설명] 원래 스크립트에서 언급된 O(n⁶)이 아닌 O(n⁴)가 맞는 수치입니다.
  • 뛰어난 이미지 생성 성능: VAR은 기존의 diffusion 트랜스포머 모델을 능가하는 이미지 생성 품질과 추론 속도를 제공합니다.

VAR의 학습 및 추론 과정

VAR 모델의 학습은 크게 두 단계로 나뉩니다.

  1. Multi-scale VQVAE 학습 (Stage 1): 원본 이미지를 입력으로 하여 Multi-scale VQVAE를 학습합니다. 이때, multi-scale quantization을 통해 여러 해상도 토큰 맵을 생성하고, 복원된 이미지와 원본 이미지 간의 차이를 줄이도록 학습합니다. 코드북은 학습 과정에서 최적화되며, 다양한 정보를 효과적으로 표현할 수 있도록 학습됩니다.
  2. VAR Transformer 학습 (Stage 2): 학습된 VQVAE를 사용하여 이미지를 토큰 맵으로 변환하고, VAR Transformer를 학습합니다. VAR Transformer는 이전 단계의 토큰 맵을 기반으로 다음 단계 토큰 맵을 예측하도록 학습됩니다. 이때, causal masking을 사용하여 미래 정보를 참조하지 않도록 합니다.

VAR 모델의 추론 과정은 다음과 같습니다.

  1. Multi-scale VQVAE 인코딩: 학습된 VQVAE를 사용하여 입력 이미지를 여러 해상도의 토큰 맵으로 인코딩합니다.
  2. VAR Transformer 생성: 가장 낮은 해상도 토큰 맵부터 시작하여 VAR Transformer를 통해 순차적으로 다음 해상도 토큰 맵을 생성합니다.
  3. Multi-scale VQVAE 디코딩: 생성된 모든 토큰 맵을 Multi-scale VQVAE 디코더를 통해 최종 이미지로 복원합니다.

 

 

 

실험 결과 및 Scaling Law

논문에서는 다양한 실험을 통해 VAR 모델의 우수성을 입증했습니다. ImageNet 데이터셋에서 VAR 모델은 diffusion 트랜스포머보다 더 빠른 속도로 더 나은 품질의 이미지를 생성했습니다. 특히 VAR 모델은 scaling law를 따르며, 모델 크기를 늘릴수록 성능이 지속적으로 향상된다는 점을 보여주었습니다.

또한, VAR 모델은 in-painting, out-painting과 같은 다양한 downstream task에서 zero-shot generalization 능력을 보여주었습니다. 이는 VAR 모델이 단순히 이미지를 생성하는 것을 넘어 이미지의 구조를 이해하고 활용할 수 있음을 의미합니다.

한계점 및 개선 방향

VAR 모델은 이미지 생성 분야에서 큰 발전을 이루었지만, 다음과 같은 한계점과 개선점이 존재합니다.

  • 텍스트 기반 이미지 생성 부재: 논문에서 텍스트를 기반으로 한 이미지 생성 기능은 구현되지 않았습니다. 향후 text-to-image 생성을 지원하고, multi-modal 기능을 확장할 필요가 있습니다.
  • 비디오 생성: VAR 모델의 비디오 생성 능력은 아직 실험적으로 검증되지 않았습니다. 향후 VAR 모델을 비디오 생성 분야로 확장하기 위한 연구가 필요합니다.
  • 모델 복잡성: Multi-scale VQVAE와 VAR Transformer 두 단계 학습이 필요하여 모델 학습 과정이 복잡할 수 있습니다. 이를 단순화하고 학습 효율을 개선할 필요가 있습니다.

결론

VAR은 기존 autoregressive 모델의 한계를 극복하고, 이미지 생성 분야에 새로운 가능성을 제시하는 모델입니다. Next-scale prediction이라는 새로운 패러다임을 통해 이미지의 구조적 정보를 효과적으로 학습하고, 고품질 이미지를 매우 효율적으로 생성할 수 있음을 입증했습니다. VAR 모델의 확장성과 일반화 능력은 향후 이미지 생성 분야의 발전에 큰 영향을 미칠 것으로 기대됩니다.

다들 새해복 많이 받으세요 :)

반응형