<aside> 💡

이 글은 아래 영상을 보고 정리한 내용입니다.

[팀네이버 컨퍼런스 DAN 24] 사람을 대신해야 진짜 AI지? : LLM 기반 임베딩부터 검색 품질 자동 평가 모델까지

</aside>

1. Background

1-1. 검색 품질 평가

검색 품질 평가란?

→ 사용자에게 검색 결과가 적절한지 평가하는 것

어떻게 진행?

외부 전문 인력으로 평가

이런 것의 문제?

  1. Human annotator 간 의견 불일치율 약 20%~35%
  2. 1을 해결하기 위해 비용을 늘리려고 해도 한계 효용 감소
  3. 시간 대비 작업량은 peak를 찍고 감소, 인간 일의 효율이 안남

1-2. 고품질 임베딩 모델에 대한 Needs

임베딩 모델을 잘 활용하면 Relevance labeling(자동 평가)도 가능하고, 쿼리 임베딩 등 여러 곳에 쓰임

2. LLM 기반 Embedding Model

<aside> 💡

2번 정리

MTEB 리더보드