공부하고 기록하는, 경제학과 출신 개발자의 노트

학습일지/AI

Fast Intro to image and text Multi-Modal with OpenAI CLIP

inspirit941 2024. 3. 26. 17:52
반응형

https://youtu.be/989aKUVBfbk?si=uzoaSLQZlqQAJg1r

 

Multi Modal 중 하나인 OpenAI의 CLIP 모델

 

 

스크린샷 2024-03-26 오전 9 42 59

 

크게 두 가지 모델로 구성됨.

  • Vision Transformers
  • Text Transformers

 

 

https://github.com/openai/CLIP

 

GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - openai/CLIP

github.com

 

이미지와 텍스트 조합을 각각 Embedding -> 두 개의 output embedding vectors가 최대한 가까운 값을 갖도록 한다.

  • 즉 image와 text를 받아서, 각 pair를 similar Vector Space에 저장한다
    • text: single embedding 512 dim vet을 리턴
  • 이렇게 되면 image & text classification, image & text search 등 다양한 작업을 해볼 수 있음. 이미지와 텍스트 조합으로 시도해볼 수 있는 것들이 많아진다

 

 

 

https://huggingface.co/openai/clip-vit-base-patch32

 

openai/clip-vit-base-patch32 · Hugging Face

Model Card: CLIP Disclaimer: The model card is taken and modified from the official CLIP repository, it can be found here. Model Details The CLIP model was developed by researchers at OpenAI to learn about what contributes to robustness in computer vision

huggingface.co

github 공식 repo가 있긴 하지만, implemetation 용으로는 huggingface에 등록된 위 모델에 더 좋다.

 

huggingface library와 인터페이스가 맞춰져 있기 때문.

 

 

간단하게 CLIP으로 text -> image 매핑하는 예시.

 

반응형