Reference

Sound Guided Image Manipulation

  • CLIP과 같은embedding space를 가지는 Audio Encoder를 학습시킨다.
  • StyleGAN source latent vector를 조절해 생성된 이미지의 embedding과 sound embedding 사이의 cosine distance가 최소화되도록 한다.
  • sound guided semantic manipulation은 잘 되지만, sound input에는 없었던 정보가 들어가는 단점이 있다.
    • 같은 클래스를 가진 여러 오디오가 있는데, contrasive learning을 수행할 때 positive edge가 하나밖에 없다.
    • auido-visual pair에 bias가 있다.

Robust Sound Guided Semantic Image Manipulation

audio-visual weakly paired contrasive learning

  • 같은 text description을 가졌지만 서로 pair가 아닌 image와 sound 간에 positive weak edge를 형성한다.
  • visual-text cosine 유사도 분포와, audio-visual cosine 유사도 분포의 Kullback-Leibler divergence를 최소화한다.
  • visual change 는 audio intensity와 비례한다.
  • 다른 논문들과의 비교, music style transfer 분야에서의 적용 등을 본다.

train

  • sound representation pre-training step

코드 분석

  • youtube_dl 대신 yt_dlp를 써야함.
  • vggsound.csv 파일 위치가 바뀌었음.
  • StyleGAN pretrain model이 landscape를 생성하는데 argparser의 description에는 어울리지 않는 프롬프트가 있음.
  • 또 ir_se_ 를 사용함07 070707070707