
[LLM] LLM 기반의 시스템을 평가하는 방법을 알아보자
·
LLM/Basic
LLM 성능 평가 1. Performance Metrics(1) 통계적인 방식의 Metrics BLEU Score: 기계 번역 품질을 평가. LLM의 출력과 레퍼런스 번역의 일치 정도를 평가 (단어 일치 중심).ROUGE Score: 텍스트 요약 품질 평가. 출력 요약이 레퍼런스 요약의 핵심 키워드를 얼마나 잘 반영하는지 평가.딥러닝 기반의 생성 모델(Generative Model)은 텍스트 생성, 챗봇, 문서 요약 등 다양한 분야에서 사용. 생성된 문장을 평가하는 방법으로는 BLEU와 ROUGE 두 가지가 있으며, 이를 통해 모델의 성능을 측정할 수 있음BLEU와 ROUGE의 차이ROUGE: Reference Sentence의 단어가 Generated Sentence에 포함되는 정도를 측정.BLEU: ..