<aside> 💡

이 글은 아래 영상을 보고 정리한 내용입니다.

[팀네이버 컨퍼런스 DAN 24] 사람을 대신해야 진짜 AI지? : LLM 기반 임베딩부터 검색 품질 자동 평가 모델까지

</aside>

1. Background

1-1. 검색 품질 평가

검색 품질 평가란?

→ 사용자에게 검색 결과가 적절한지 평가하는 것

어떻게 진행?

→ 외부 전문 인력으로 평가

이런 것의 문제?

Human annotator 간 의견 불일치율 약 20%~35%
1을 해결하기 위해 비용을 늘리려고 해도 한계 효용 감소
시간 대비 작업량은 peak를 찍고 감소, 인간 일의 효율이 안남

1-2. 고품질 임베딩 모델에 대한 Needs

임베딩 모델을 잘 활용하면 Relevance labeling(자동 평가)도 가능하고, 쿼리 임베딩 등 여러 곳에 쓰임

2. LLM 기반 Embedding Model

<aside> 💡

2번 정리

LLM(Decoder-only)에 Hard Negative, objective term + 양방향 attn, Mean Pooling 방식을 사용했더니 기존 Encoder-only 모델보다 성능 좋은 Embedder를 얻을 수 있었다
다만, 연산량이 많아 Latency에서 한계가 있다. </aside>

MTEB 리더보드