공부하고 기록하는, 경제학과 출신 개발자의 노트

Multimodal 3

Gemini Multimodal RAG Applications with LangChain

https://www.youtube.com/live/vxF8-ay9Bzk?si=n9uDkQSpvdr1gkbJ 맨 앞부분의 langchain 소개 내용, langchain으로 단순히 구글 LLM 써서 결과 얻는 실습은 내용에서 제외함.multiModal 관련 내용만 정리.  Vertex AI Integration with LangChain 대충 우리 구글모델도 langchain에서 쉽게 쓸 수 있다는 내용들. embedding, vectorstore search도 된다. 다양한 종류의 input을 받을 수 있는 multiModal retriever도 가능함.MultiModal RAG Google사전 세팅from langchain_google_vertexai import VertexAI, ChatVertex..

학습일지/AI 2024.05.10

MultiModal RAG With GPT-4 Vision and LangChain 정리

https://youtu.be/6D9mpFCPeI8?si=P45ND9OjfPKsdaUq    LLM의 기능을 강화시키는 RAG는 Something to Vector 동작이 근간을 이루고 있다.텍스트의 경우는 EmbeddingModel 써서 간단히 벡터로 변환할 수 있음.그러나 PDF의 경우... 고려할 게 많다.Text, Table, Images...등장 순서나 구성방식도 정보를 포함하고 있다. 텍스트는 ChatModel을 활용하고, 이미지는 GPT-4 Vision 모델을 활용하면, pdf에 있는 데이터를 벡터화할 수 있다pdf의 text, table, image 내용을 SummarizeRaw Document도 DocumentStore에 저장하고 값을 받아온다영상에서는 제작자가 '아직 image + te..

학습일지/AI 2024.04.12

Fast Intro to image and text Multi-Modal with OpenAI CLIP

https://youtu.be/989aKUVBfbk?si=uzoaSLQZlqQAJg1r Multi Modal 중 하나인 OpenAI의 CLIP 모델 크게 두 가지 모델로 구성됨. Vision Transformers Text Transformers https://github.com/openai/CLIP GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - ope..

학습일지/AI 2024.03.26