공부하고 기록하는, 경제학과 출신 개발자의 노트

vectordb 2

NHN Forward 22 - 벡터 검색 엔진에 ANN HNSW 알고리즘 도입기

https://youtu.be/hCqF4tDPNBw?si=wYvWqiYFzX5UDr6R 대충? 거의 정확하다! 벡터 검색 엔진에 ANN HNSW 알고리즘 도입기 NHN Cloud 로그플랫폼개발팀 권성재. 벡터 검색엔진 운영하면서 새로운 알고리즘 도입하기까지. 기존 방식의 문제점, 해결책, C++ 구현체 말고 Golang에 적용하기까지. 헷갈릴 수 있어서 용어 정리하자면 ML 기술 결과물로 나온 Vector 값의 검색 관련 내용임. ML이나 AI 기술 자체에 관련된 건 아니다. HNSW 도입 배경 기존 방식인 KNN: 점 두개의 L2 Distance 계산. 검색 대상으로 들어온 Vector가 있으면 기존 DB에 있던 모든 Vector 간 거리를 일일이 계산 -> 가장 거리가 가까운 K개 응답. 따라서, 데..

학습일지/AI 2024.01.01

데이터야놀자 2022 - ElasticSearch에서 NLP 처리를 위한 Vector 데이터 검색하기

https://youtu.be/aW5_voFk938?si=hEwqM1kQCDBAwbd0 ES Advocate 김종민님 전통 검색엔진으로서의 ES '사용자가 입력한 query'가 포함된 Docs를 Text Matching 방식으로 찾는다. Docs 저장할 때 Tokenizer 사용해서 text -> index 변환 해당 docs가 query를 얼마나 많이 포함하고 있는지를 TF 같은 요소를 기반으로 점수 계산. -> 연관도 높은 결과를 가져온다. LLM 등장으로 '검색엔진이 질문 의미를 이해하고, 적합한 결과를 가져오는 형태'의 서비스를 제공하려는 시도가 늘었음. query와 매칭되지는 않지만, query의 해답인 'connection speed requirements' 정보를 포함한 docs를 리턴하는 ..

학습일지/AI 2023.12.10