공부하고 기록하는, 경제학과 출신 개발자의 노트

학습일지 194

Simple LangChain Agent with OpenAI, Wikipedia, DuckDuckGo

LangChain Agents (2024 update)https://youtu.be/WVUITosaG-g?si=M6fkM-NlUM6XeMJb  duckduckgo, wikipedia를 langchain agent로 사용하는 방법!pip install duckduckgo-search wikipedia langchain langchainhub langchain_openaiimport osos.environ['OPENAI_API_KEY'] = "your api key"from langchain_openai import ChatOpenAIfrom langchain import hubfrom langchain.agents import create_openai_functions_agentfrom langchain...

학습일지/AI 2024.04.26

MultiModal RAG With GPT-4 Vision and LangChain 정리

https://youtu.be/6D9mpFCPeI8?si=P45ND9OjfPKsdaUq    LLM의 기능을 강화시키는 RAG는 Something to Vector 동작이 근간을 이루고 있다.텍스트의 경우는 EmbeddingModel 써서 간단히 벡터로 변환할 수 있음.그러나 PDF의 경우... 고려할 게 많다.Text, Table, Images...등장 순서나 구성방식도 정보를 포함하고 있다. 텍스트는 ChatModel을 활용하고, 이미지는 GPT-4 Vision 모델을 활용하면, pdf에 있는 데이터를 벡터화할 수 있다pdf의 text, table, image 내용을 SummarizeRaw Document도 DocumentStore에 저장하고 값을 받아온다영상에서는 제작자가 '아직 image + te..

학습일지/AI 2024.04.12

Fast Intro to image and text Multi-Modal with OpenAI CLIP

https://youtu.be/989aKUVBfbk?si=uzoaSLQZlqQAJg1r Multi Modal 중 하나인 OpenAI의 CLIP 모델 크게 두 가지 모델로 구성됨. Vision Transformers Text Transformers https://github.com/openai/CLIP GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - ope..

학습일지/AI 2024.03.26

DroidCon 2024 - AI Pull Request reviewer using ChatGPT and GitHub Actions

https://www.droidcon.com/2024/03/14/automate-pull-request-reviews-using-chatgpt-and-github-actions/?ref=dailydev https://youtu.be/t9hleFcIWQ8?si=eWwzMBgHdcRAd5FG 인터넷 돌아다니다가 찾은 영상인데, 재미있어 보여서 정리함. Android Codebase에 rookie수준의 mistake를 만들고 나서 code review를 받아보는 형태로 시연. Repository: https://github.com/Nerdy-Things/chat-gpt-pr-reviewer GitHub - Nerdy-Things/chat-gpt-pr-reviewer Contribute to Nerdy-Thin..

학습일지/AI 2024.03.21

Knative의 Eventing Prometheus 고쳐서 동작하게 만들었던 히스토리

Knative Eventing을 활용해서 CloudEvent 기반 event-driven 구조를 도입해 서비스 간 결합도를 낮추는 작업을 하고 있던 중 knative 진영에서 개발 중단된, prometheus query를 주기적으로 호출해서 CloudEvent를 생성하는 프로덕트를 찾았다. 조금만 고쳐쓰면 사용할 수 있을 것 같아서 수정했고, 지금은 잘 사용 중이다. 무얼 고쳐서 어떻게 동작하도록 만들었고, 쓰려면 어떻게 해야 하는지를 기록으로 남기기 위한 포스트. 원본 https://github.com/knative-extensions/eventing-prometheus GitHub - knative-extensions/eventing-prometheus: Prometheus integration wi..

LangChain - Advanced RAG Technique for Better Retrieval Performance 정리

아래 유튜브 영상을 정리하였음. https://youtu.be/KQjZ68mToWo?si=09NX4cfbE9lYTJ9l 일반적인 RAG StepIndexing Step: Data Load -> Split -> Embedding -> Store in VectorDBRetrieval Step: Ask Question -> Embedding Question -> Retrieve Similar Documents -> add as a prompt -> LLMLangchain이 Vector Store에서 필요한 데이터를 더 잘 가져올 수 있도록 하는 기법MultiQueryRetrieverContextual CompressionEnsemble RetrieverSelf-Querying RetrieverTime-weig..

학습일지/AI 2024.03.14

SK Tech Summit 2023 - 비즈니스에 실제로 활용 가능한 LLM 서비스 만들기

비즈니스에 실제로 활용 가능한 LLM 서비스 만들기SKT Data Application팀 김찬호님 개요 chatGPT 출시 전인 22년 9월 / 출시 이후인 23년 9월에 세콰이어 캐피털에 올라온 글. GPT-4한테 요약시킨 결과22.09: Gen AI가 창의성의 일부분에서 인간보다 우월한 성과를 내고 있다.23.09: Gen AI는 혁신적인 제품이었다. 유용성에 의문이 있었으나, 가치를 창출하는 시장이 출현하고 있다. 기대해볼 만하다. 22.09: foundation 모델 열거하고, 도메인 예시만 짤막하게 썼던 반면23.09: Stack 구조를 소개함. 도메인별 foundation 모델 / serving, management tool / framework / application / monitoring..

학습일지/AI 2024.02.17

Google Cloud Summit 2023 Seoul - Cloud Run으로 Fast, Scalable, Durable 앱 구축하기

Google Cloud Customer Engineer 권신중님. CloudRun: 완전관리형, 컨테이너 기반 애플리케이션 배포 / 운영 / 확장을 위한 서비스. 인프라 고민 필요없음. CloudRun 소개 크게 두 가지 형태로 쓰임. Service / Job. Service: public / private한 웹사이트 또는 Endpoint url endpoint 제공 autoscale 기준은 크게 두 가지 (or 조건으로 동작함) cpu 기준. default 60% request 개수 (concurrency) - default 80. canary deployment (traffic split) based on revision HTTP, WebSocket, gRPC, Event 등 다양한 조건으로 트리거 ..

Efficient NLP - Fine-tuning Whisper to learn my Chinese dialect (Teochew)

https://youtu.be/JH_78KmP4Zk?si=ulBFE_AFcDeqn-XT Teochew 라는 중국 방언을 Whisper로 ASR 수행하게 만들기 위한 작업. Teochew 언어의 특징? 사용인구는 대략 10만명 정도. 대만에 인접해 있는 중국 본토 소수 지역에서 사용 대만어 계열인 Hokkien과 유사. 중국어 분화로만 봤을 땐 만다린어 / 광동어 쪽이긴 하지만 distantly related Mandarin to Teochew 해주는 translate을 transfer learning하려는 것이 목적. 만다린어 계열은 10억 이상이 사용하고 있으며, whisper 인식률이 괜찮은 언어 중 하나. 인간에게는 한쪽 언어를 알면, 다른 쪽 언어를 배우기 쉽다고 함. 특이한 점이라면, 하나의 의..

학습일지/AI 2024.02.14