muli-modal 썸네일형 리스트형 [논문리뷰] DALL-E: Zero-Shot Text-to-Image Generation 너무너무 궁금했던 DALL-E 페이퍼가 공개되었어요 두근두근❤ 사상은 예상했던 대로 텍스트와 이미지를 하나의 스트림 (concat)으로 트랜스포머에 밀어 넣는다는 것 이때 denoising VAE를 사용하여 픽셀 단위의 이미지를 이미지 토큰으로 변환해 사용했다고 한다. 이번 논문 역시 #대용량데이터와 #대규모모델이 핵심 키워드였는데, large-scale 모델 학습을 위한 16-bit 학습, distributed optimization 등 다양한 노하우가 녹아있다. 논문: arxiv.org/pdf/2102.12092.pdf 깃헙: github.com/lucidrains/DALLE-pytorch Abstract 본 논문에서는 하나의 데이터 소스로부터 transformer를 활용하여 text-to-image.. 더보기 이전 1 다음