이 리뷰는 오직 학습과 참고 목적으로 작성되었으며, 해당 논문을 통해 얻은 통찰력과 지식을 공유하고자 하는 의도에서 작성된 것입니다. 본 리뷰를 통해 수익을 창출하는 것이 아니라, 제 학습과 연구를 위한 공부의 일환으로 작성되었음을 미리 알려드립니다.
오늘은 LLM 모델의 발전을 전반적으로 이해할 수 있는 Survey 논문에 대한 리뷰인데 전체적인 LLM의 발전과 흐름을 이해하는데 도움이 될 것 같아 리뷰하였다. 이 포스트의 논문 리뷰는 25년에 업데이트된 Large Language Models: A Survey v3버전을 기준으로 작성되었다.
S. Minaee, T. Mikolov, N. Nikzad, M. Chenaghlu, R. Socher, X. Amatriain, and J. Gao, "Large Language Models: A Survey," arXiv preprint arXiv:2402.06196, 2025. [Online]. Available: https://arxiv.org/abs/2402.06196.
내용이 길어 나누어 리뷰하였고 다음은 이전글에서 리뷰한 글이다.
2025.03.04 - [LLM/Paper reviews] - [논문 리뷰] Large Language Models: A Survey 1
[논문 리뷰] Large Language Models: A Survey 1
이 리뷰는 오직 학습과 참고 목적으로 작성되었으며, 해당 논문을 통해 얻은 통찰력과 지식을 공유하고자 하는 의도에서 작성된 것입니다. 본 리뷰를 통해 수익을 창출하는 것이 아니라, 제 학
c0mputermaster.tistory.com
V. LLM을 위한 주요 데이터셋
대형 언어 모델(LLM)은 다양한 작업에서 뛰어난 성능을 보이지만, 실제 성능을 평가하려면 여러 평가 지표와 데이터셋이 필요함. 이 섹션에서는 LLM 성능을 평가하기 위해 사용되는 주요 데이터셋들을 소개함.
A. 기본 작업을 위한 데이터셋: 언어 모델링/이해/생성
- Natural Questions
구글 검색에 제출된 실제 질문들을 바탕으로 한 QA 데이터셋. 위키피디아에서 답을 찾고, 긴 답과 짧은 답을 제공함. - MMLU
LLM이 다양한 분야에서 일반적인 지식과 문제 해결 능력을 평가하는 데이터셋. 여러 분야에서 제로샷, 몇 샷 시나리오를 평가함. - MBPP
파이썬 코드 생성 작업을 평가하는 데이터셋. 기본적인 프로그래밍 개념과 표준 라이브러리를 다룬 974개의 문제를 포함함. - HumanEval
164개의 프로그래밍 문제를 제공하는 데이터셋. 각 문제는 함수 시그니처, 문서 문자열, 여러 개의 유닛 테스트를 포함함. - APPS
파이썬 코드 생성 작업을 위한 데이터셋. 232,444개의 파이썬 프로그램과 10,000개의 고유한 프로그래밍 문제를 포함함. - WikiSQL
자연어 질문에서 SQL 쿼리를 생성하는 작업을 평가하는 데이터셋. 87,726개의 SQL 쿼리와 자연어 질문쌍을 포함함. - TriviaQA
650,000개 이상의 질문-답변 쌍을 포함하는 데이터셋. 각 질문에는 여러 출처에서 가져온 증거가 포함됨. - RACE
중고등학생들이 작성한 영어 시험 문제를 기반으로 한 독해 데이터셋. 100,000개 이상의 질문을 포함함. - SQuAD
위키피디아 기사를 기반으로 한 QA 데이터셋. 100,000개 이상의 질문-답변 쌍이 포함됨. - BoolQ
예/아니오 질문을 포함한 독해 데이터셋. 15,942개의 질문-답변 쌍이 있음. - MultiRC
다중 문장을 활용한 독해 데이터셋. 약 6,000개의 질문을 포함하며, 각 질문에는 여러 정답 선택지가 있음.
B. 새로운 능력을 평가하는 데이터셋: ICL, 추론(CoT), 명령 따르기
이 표는 다양한 언어 모델들이 두 가지 일반 상식 추론 작업인 OBQA(Open Book Question Answering)와 HellaSwag에서 얼마나 잘 수행하는지 비교한 것이다.
- OBQA는 모델이 다양한 세상 지식을 활용하여 질문에 답할 수 있는 능력을 측정하는 테스트
- HellaSwag는 모델이 주어진 문맥에서 가장 적합한 문장을 예측하는 능력을 측정하는 테스트로, 문장의 끝을 자연스럽게 이어가는 능력을 평가
표에 나오는 숫자들은 모델들이 각 작업에서 얻은 성능 점수(정확도 등)를 나타낸다
- Davinci-003(OpenAI의 모델)은 OBQA에서 51점, HellaSwag에서 83.4점을 기록했습니다.
- GPT-4는 HellaSwag에서 95.3점을 기록하며 매우 높은 성능을 보였습니다.
표에 나오는 다른 모델들(Falcon 7B, Alpaca 7B, Pythia 12B 등)은 모델의 크기(예: 7B, 12B, 70B 등)를 나타내며, 일반적으로 숫자가 클수록 더 강력한 모델입니다.
이 표는 다양한 AI 모델들이 상식 추론 작업에서 어떤 성능을 보이는지 비교한 결과를 제공하며, GPT-4와 Gemini Ultra와 같은 더 최신 모델들이 뛰어난 성능을 보인다는 것을 알 수 있습니다.
- GSM8K
수학적 추론 능력을 평가하는 데이터셋. 8.5K개의 초등학교 수준의 수학 문제를 포함함. - MATH
고등학교 수학 문제를 포함하는 데이터셋. 12,500개의 문제를 제공하며, 다양한 난이도와 주제를 다룸. - HellaSwag
상식 추론을 평가하는 데이터셋. 70,000개의 질문을 포함하며, 각 질문은 네 가지 선택지로 구성됨. - AI2 Reasoning Challenge (ARC)
과학적 추론을 평가하는 데이터셋. 7,787개의 질문을 포함하며, 쉬운 문제와 어려운 문제로 나뉨. - PIQA
일상적인 상식 문제를 평가하는 데이터셋. 각 질문에는 두 개의 가능한 답이 제공되며, 그 중 하나가 올바른 답임. - SIQA
사회적 상황에 대한 상식 추론을 평가하는 데이터셋. 38,000개의 질문을 포함하며, 각 질문에는 여러 선택지가 있음. - OpenBookQA (OBQA)
텍스트 이해와 상식 지식이 필요한 QA 데이터셋. 6,000개의 질문이 포함되며, 다단계 추론이 요구됨. - TruthfulQA
모델이 진실된 답을 생성할 수 있는지 평가하는 데이터셋. 817개의 질문이 포함되며, 건강, 법, 정치 등 다양한 분야의 질문이 있음. - OPT-IML Bench
명령 메타 학습을 위한 종합 벤치마크. 2,000개의 NLP 작업을 포함하는 데이터셋임.
C. 외부 지식/도구를 사용하는 능력 평가 데이터셋
- HotpotQA
다중 홉 추론이 필요한 QA 데이터셋. 113,000개의 질문을 포함하며, 각 질문에는 두 개의 위키피디아 문서가 제공됨. - ToolQA
LLM이 외부 도구를 활용하여 답을 찾는 능력을 평가하는 데이터셋. - GPT4Tools
도구 사용에 대한 명령을 따르는 능력을 평가하는 데이터셋. 세 가지 버전으로 나누어져 있으며, 각 버전은 도구와 관련된 명령을 포함함.
VI. PROMINENT LLMS’ PERFORMANCE ON BENCHMARKS
이 섹션에서는 대형 언어 모델(LLM)의 성능을 평가하는 데 사용되는 주요 지표와 벤치마크에 대해 다룹니다. 특히 모델들이 다양한 벤치마크와 데이터셋에서 어떻게 성능을 발휘하는지에 대한 분석을 제공합니다.
1. 주요 LLM 성능 지표
LLM의 성능을 평가할 때 주로 사용되는 지표는 해당 모델이 수행하는 작업에 따라 달라집니다. 예를 들어, 감성 분석과 같은 분류 작업에서는 정확도, 정밀도, 재현율, F1 점수 등 분류 지표가 주로 사용됩니다. 하지만 코드 생성과 같은 오픈 엔디드 작업에서는 PASS@k와 같은 지표가 사용됩니다.
1.1 PASS@k
PASS@k 지표는 모델이 여러 개의 생성된 솔루션 중에서 몇 개가 정확한지를 평가하는 지표입니다. 예를 들어, 주어진 문제에 대해 모델이 여러 개의 코드 솔루션을 생성하고, 그 코드들이 각각 테스트를 통과했는지 확인합니다. 그 후, 여러 솔루션 중에서 정확한 코드가 얼마나 있는지를 평가하여 PASS@k 점수를 산출합니다.
1.2 Exact Match (EM)
Exact Match(EM) 지표는 생성된 답변이 주어진 정답과 정확히 일치하는지를 평가합니다. 정확히 일치하는 답변만을 올바르게 평가하기 때문에, 정밀한 평가가 가능합니다.
1.3 BLEU, ROUGE, BERTScore
BLEU, ROUGE, BERTScore와 같은 지표는 기계 번역, 텍스트 생성 등의 작업에서 주로 사용됩니다. 이 지표들은 모델이 생성한 텍스트가 인간의 답변 또는 정답과 얼마나 유사한지를 평가합니다. BLEU와 ROUGE는 N-그램 기반의 평가 방법이고, BERTScore는 언어 모델을 활용하여 더 복잡한 유사성을 평가합니다.
1.4 Human Evaluation
사람에 의한 평가도 LLM 성능을 측정하는 데 중요한 지표입니다. 이는 주로 텍스트 생성 품질을 평가할 때 사용되며, 생성된 텍스트가 얼마나 자연스러운지, 문법적으로 정확한지, 내용적으로 적절한지를 사람의 평가자가 평가합니다.
이 표는 다양한 언어 모델 벤치마크와 평가 지표에 대한 정보를 정리한 것이다. 코드 생성, 자연어 이해, 대화형 AI, 추론, 상식 추론, QA (질문 응답) 등 여러 작업 유형에 대해 성능을 평가하고 있다.
2. 대형 언어 모델의 벤치마크 성능
다음은 다양한 벤치마크와 데이터셋에서의 LLM 성능을 비교한 표입니다.
2.1 Commonsense Reasoning (상식 추론)
상식 추론은 모델이 세상에 대한 일반적인 지식을 가지고 있으며 이를 바탕으로 문제를 해결할 수 있는 능력입니다. 예를 들어, HellaSwag와 같은 벤치마크는 주어진 부분적인 이야기에서 가장 적절한 결말을 선택하는 문제입니다. 이 문제를 해결하려면 모델이 세상에 대한 일반적인 지식을 바탕으로 텍스트를 추론해야 합니다.
2.2 코딩 생성 (Code Generation)
코딩 생성 작업은 모델이 주어진 문제에 대해 코드 조각을 생성하고 이를 테스트하여 정확한 답을 생성하는 작업입니다. HumanEval 데이터셋은 코드 생성 모델의 성능을 평가하는 벤치마크 중 하나입니다.
2.3 수학적 추론 (Mathematical Reasoning)
수학적 추론은 모델이 수학적 문제를 해결하는 능력입니다. GSM8K와 같은 데이터셋에서는 초등학교 수준의 수학 문제를 모델에게 제공하고 이를 해결하는 능력을 평가합니다.
2.4 세계 지식 (World Knowledge)
세계 지식 작업은 모델이 일반적인 지식을 얼마나 잘 이해하고 있는지를 평가하는 작업입니다. 예를 들어, TriviaQA와 같은 데이터셋은 일반적인 지식에 대한 질문을 다룹니다.
3. 모델 카테고리 및 정의
LLM을 분류하는 여러 가지 기준이 존재합니다. 주요 분류 기준은 모델의 크기, 유형, 사용 목적, 공개 여부 등입니다.
3.1 모델 크기
- Small: 1억 개 이하의 파라미터
- Medium: 1억 ~ 10억 개의 파라미터
- Large: 10억 ~ 100억 개의 파라미터
- Very Large: 100억 개 이상의 파라미터
3.2 모델 유형
- Foundation Model: 사전 훈련된 언어 모델로, 특정 작업에 맞게 추가적인 훈련이 필요함
- Instruction Model: 사전 훈련된 모델에 명령어 기반의 훈련을 추가하여 특정 작업을 수행하도록 조정됨
- Chat Model: 사전 훈련된 모델에 대화 기반 훈련을 추가하여 대화형 응답 생성
3.3 모델 공개 여부
- Public: 모델과 가중치가 공개되어 있음
- Private: 모델과 가중치가 공개되지 않음
VII. 도전 과제 및 미래 방향
대형 언어 모델(LLM)은 최근 몇 년 동안 인상적인 성과를 거두었지만, 여전히 빠르게 발전하는 연구 분야로 여러 도전 과제가 존재합니다. 이 섹션에서는 주요 도전 과제와 미래 방향에 대해 정리해보겠습니다.
A. 더 작고 효율적인 언어 모델
- 문제: 대형 모델은 성능이 우수하지만, 비용과 비효율성 문제가 존재합니다.
- 해결책: 더 작은 모델(SLM)을 개발하고, 파라미터 효율적인 훈련 기법(PEFT)이나 증류 방식으로 작은 모델을 훈련시키는 연구가 진행되고 있습니다.
B. 새로운 포스트-어텐션 아키텍처
- 문제: 트랜스포머 기반 아키텍처는 여전히 주요하지만, 긴 문맥을 처리하는 데 효율적이지 않음.
- 해결책: 상태공간모델(SSM)이나 포스트-어텐션 모델들이 긴 문맥을 더 잘 처리할 수 있는 효율적인 방법을 제시하고 있습니다.
C. 다중 모달 모델
- 문제: 다양한 유형의 데이터(텍스트, 이미지, 비디오 등)를 통합하여 처리하는 모델의 필요성.
- 해결책: 다중 모달 모델들이 등장하여 여러 데이터 유형을 통합적으로 처리하고 있으며, 앞으로도 이 분야에서 연구가 진행될 것입니다.
D. LLM 사용 및 증강 기법 개선
- 문제: LLM의 한계(예: 환각 문제)를 해결하기 위한 방법이 필요함.
- 해결책: 고급 프롬프트 엔지니어링과 도구 사용 등을 통해 LLM의 성능을 증강시키는 연구가 계속될 것입니다.
E. 보안 및 윤리적/책임 있는 AI
- 문제: LLM의 보안성과 윤리적 문제가 중요한 이슈로 떠오르고 있습니다.
- 해결책: 공격을 탐지하고 예방하는 보안 연구와, 모델이 공정하고 편향 없이 민감한 정보를 처리하도록 만드는 윤리적 연구가 중요합니다.
논문 출처
S. Minaee, T. Mikolov, N. Nikzad, M. Chenaghlu, R. Socher, X. Amatriain, and J. Gao, "Large Language Models: A Survey," arXiv preprint arXiv:2402.06196, 2025. [Online]. Available:
https://arxiv.org/abs/2402.06196
Large Language Models: A Survey
Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is a
arxiv.org
'LLM > Paper reviews' 카테고리의 다른 글
[논문 리뷰] Large Language Models: A Survey 1 (0) | 2025.03.04 |
---|---|
[논문 리뷰] Were RNNs All We Needed? (1) | 2025.01.19 |