공부하고 기록하는, 경제학과 출신 개발자의 노트

데이터야놀자 2

데이터야놀자 2023 - Whisper 모델의 불필요한 Weight 줄여서 학습비용 절약하기

https://youtu.be/MDE2HRsfr7g?si=7s4yRsOlUSZ8_nnu Socar AI Research 조충현님. STT 모델 경량화 연구내용의 소개. 카셰어링 업체가 자체 STT를 구축해야 했던 이유? CS 상담사의 업무에는 여러 가지가 있다. 상담가이드 문서 검색, 유저 정보 확인, 예약내역 확인, 상담내용 기록... 이걸 매 상담마다 반복해야 함. 이렇다보니 상담이 많아지면 대기시간이 길어짐... CS만족도 하락. 상담원은 고객업무에만 집중하도록, 상담 외 업무는 AI를 사용하는 방향으로. 그러려면, 고객과 상담원의 대화 내역을 문서화하는 작업은 필수. 문서가 있어야 AI가 뭐라도 할 수 있기 때문. Whisper: OpenAI에서 공개한 오픈소스 STT. 코드와 weight 공개되..

학습일지/AI 2024.01.18

데이터야놀자 2022 - ElasticSearch에서 NLP 처리를 위한 Vector 데이터 검색하기

https://youtu.be/aW5_voFk938?si=hEwqM1kQCDBAwbd0 ES Advocate 김종민님 전통 검색엔진으로서의 ES '사용자가 입력한 query'가 포함된 Docs를 Text Matching 방식으로 찾는다. Docs 저장할 때 Tokenizer 사용해서 text -> index 변환 해당 docs가 query를 얼마나 많이 포함하고 있는지를 TF 같은 요소를 기반으로 점수 계산. -> 연관도 높은 결과를 가져온다. LLM 등장으로 '검색엔진이 질문 의미를 이해하고, 적합한 결과를 가져오는 형태'의 서비스를 제공하려는 시도가 늘었음. query와 매칭되지는 않지만, query의 해답인 'connection speed requirements' 정보를 포함한 docs를 리턴하는 ..

학습일지/AI 2023.12.10