학습일지/AI
Fast Intro to image and text Multi-Modal with OpenAI CLIP
inspirit941
2024. 3. 26. 17:52
반응형
https://youtu.be/989aKUVBfbk?si=uzoaSLQZlqQAJg1r
Multi Modal 중 하나인 OpenAI의 CLIP 모델
크게 두 가지 모델로 구성됨.
- Vision Transformers
- Text Transformers
https://github.com/openai/CLIP
이미지와 텍스트 조합을 각각 Embedding -> 두 개의 output embedding vectors가 최대한 가까운 값을 갖도록 한다.
- 즉 image와 text를 받아서, 각 pair를 similar Vector Space에 저장한다
- text: single embedding 512 dim vet을 리턴
- 이렇게 되면 image & text classification, image & text search 등 다양한 작업을 해볼 수 있음. 이미지와 텍스트 조합으로 시도해볼 수 있는 것들이 많아진다
https://huggingface.co/openai/clip-vit-base-patch32
github 공식 repo가 있긴 하지만, implemetation 용으로는 huggingface에 등록된 위 모델에 더 좋다.
huggingface library와 인터페이스가 맞춰져 있기 때문.
간단하게 CLIP으로 text -> image 매핑하는 예시.
반응형