JUST WRITE

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

JUST WRITE

[Embedding] Hybrid Search - Qdrant 구성

Hybrid Search 구성RAG와 LLM을 활용한 자동분류 서비스를 구성하고 있습니다.Milvus에 Dense 임베딩 값을 넣어서 RAG를 구성하였지만 성능이 좋지 않았습니다.성능 보완을 위해 Dense 임베딩뿐만 아니라 Sparse 임베딩도 넣어서 성능을 보완해보려고 합니다.Sparse 임베딩과 Dense 임베딩이 무엇인지는 아래 포스팅을 참고하시길 바랍니다.차이점 중심으로 비교해 보았습니다. [Embedding] Sparse vs Dense 임베딩Sparse vs Dense 임베딩프로젝트에 투입해서 RAG와 LLM을 활용한 자동 분류 서비스를 개발하였습니다.처음에는 다국어를 지원하는 paraphrase-multilingual-mpnet-base-v2 임베딩 모델로 임베딩을 생성해서Milvusde..

AI 2025. 7. 12. 14:23

[Embedding] Sparse vs Dense 임베딩

Sparse vs Dense 임베딩프로젝트에 투입해서 RAG와 LLM을 활용한 자동 분류 서비스를 개발하였습니다.처음에는 다국어를 지원하는 paraphrase-multilingual-mpnet-base-v2 임베딩 모델로 임베딩을 생성해서Milvus에 해당 임베딩을 저장하여 RAG를 구성하였습니다. [LLM] RAG와 LLM을 활용한 자동 분류(1) - VectorDB 구성하기VectorDB 구성하기좋은 기회로 사내에서 데이터를 카테고리별로 자동 분류하는 과제를 맡게 되었습니다.엔지니어이기 때문에 분류 서비스를 만들어 본 적은 없지만,이번 기회에 다양한 것들을 도developnote-blog.tistory.comRAG만 구성하면 다 될 줄 알았지만 생각보다 검색 성능이 좋지 않았습니다.유사 문서의 검색 ..

AI 2025. 7. 2. 13:23

[카이제곱검정(1)] 부서별 업무 환경이 질환에 영향을 미칠까?

부서별 업무 환경이 질환에 영향을 미칠까?프로젝트에서 데이터 분석 업무를 맡게 되었습니다.그중 하나가 직원 건강검진 데이터를 분석하는 것이었습니다.개인 정보 보안 때문에 제한된 정보만으로 분석하게 되었습니다.건강검진 데이터는 아래와 같은 형태로 되어 있었습니다.연령대부서고혈압당뇨빈혈20대A 부서AAA50대B 부서D1C2A2022년부터 데이터를 관리하기 시작해서 3년 치 정도의 데이터만 엑셀로 관리되고 있었습니다.데이터는 총 700건 정도밖에 되지 않았습니다.작은 데이터 셋으로도 의미 있는 인사이트를 얻을 수 있을지 고민하였습니다.데이터를 보고 아래와 같은 궁금증이 생겼습니다.연령대가 높을수록 질병 발생률이 높을까?부서별 업무 환경이 영향을 미칠까?이게 단순한 우연일까? 데이터로 증명할 수 없을까?이러한 ..

Analysis 2025. 6. 22. 18:46

[LLM] RAG와 LLM을 활용한 자동 분류(2) - Ollama 세팅하기

Ollama 세팅하기데이터를 카테고리별로 자동 분류하는 과제를 진행하고 있습니다.LLM과 RAG를 활용해서 자동 분류를 진행하려고 합니다.방식을 간단하게 나열해 보면 아래와 같습니다.학습에 쓰일 과거 데이터를 VectorDB에 저장한다.서버에 OpenSource 기반의 LLM을 설치한다.분류를 진행하려는 데이터를 VectorDB에서 유사한 데이터를 찾는다.찾은 데이터를 기반으로 프롬프트를 구성해서 LLM에 어떤 카테고리에 해당하는지 물어본다.이전 포스팅에서 VectorDB 설치에 관해 정리하였습니다. [LLM] RAG와 LLM을 활용한 자동 분류(1) - VectorDB 구성하기VectorDB 구성하기좋은 기회로 사내에서 데이터를 카테고리별로 자동 분류하는 과제를 맡게 되었습니다.엔지니어이기 때문에 분류..

AI 2024. 12. 14. 11:52

[LLM] RAG와 LLM을 활용한 자동 분류(1) - VectorDB 구성하기

VectorDB 구성하기좋은 기회로 사내에서 데이터를 카테고리별로 자동 분류하는 과제를 맡게 되었습니다.엔지니어이기 때문에 분류 서비스를 만들어 본 적은 없지만,이번 기회에 다양한 것들을 도전하려고 합니다.그래서 자동 분류를 RAG와 LLM을 활용해서 해보려고 합니다.방식을 간단하게 나열해 보면 아래와 같습니다.학습에 쓰일 과거 데이터를 VectorDB에 저장한다.서버에 OpenSource 기반의 LLM을 설치한다.분류를 진행하려는 데이터를 VectorDB에서 유사한 데이터를 찾는다.찾은 데이터를 기반으로 프롬프트를 구성해서 LLM에 어떤 카테고리에 해당하는지 물어본다.시리즈로 구성해서 위 내용들을 블로그에 정리해보려고 합니다.이번 포스팅에서는 VectorDB를 구성하고 분류에 참고할 과거 데이터를 저장..

AI 2024. 11. 23. 15:48

[Trino] 너의 흔적을 기록하고 싶어 - 히스토리 데이터 영구 저장

Trino 히스토리 데이터 영구 저장사내에서 빅데이터 쿼리에 뛰어난 성능을 보여주는 Trino를 활용하고 있습니다.빅데이터 쿼리뿐만 아니라 다른 데이터베이스의 데이터끼리 조인이 가능합니다.현재 쿠버네티스 환경에 Trino를 구성해서 사용하고 있습니다. 다만 한 가지 문제가 있었습니다.presto 기반의 쿼리 엔진이라 메모리를 사용해서 로그성 데이터가 남지 않았습니다.따로 벡엔드 데이터베이스를 가지지 않습니다.Trino에서 쿼리 한 이력을 확인하는데 큰 제약이 있습니다.하지만 방법은 없는 것이 아닙니다.Trino에서 쿼리 이력을 저장할 수 있도록 제공해 주는데 따로 설정이 필요합니다.이번 포스팅에서는 Trino에서 쿼리 이력을 따로 저장하는 방법을 정리하도록 하겠습니다.Trino WEB UI이번 포스팅에서..

Data 2024. 11. 17. 15:10

Prev 1 2 3 4 ··· 35 Next

JUST WRITE

티스토리툴바