오늘은 데이터 분석을 공부하기 전에 간단하게 어떤식으로 분석이 진행되는지 전체적인 프로세스를 알아보자
데이터분석과정
문제 정의
- 분석 하고자 하는 문제를 정의하고 해결 목표를 최대한 명확하고 구체적으로 설정
- 분석 방향을 여러 관점에서 검토하고 데이터 수급 가능성을 확인 ( 보유한 데이터에 맞춰 분석 방향을 설정하면 분석이 제한 될 수 있음 )
- 분석에 필요한 특성 결정
- 머신러닝 학습 유형 몇 평가 지표 결정
데이터 수집 및 검증
- 필요한 데이터를 직접 수집하거나, 기존 데이터를 활용
- Python에서 데이터를 직접 입력하거나 파일에서 불러올 수 있음
- 데이터 전처리에 앞서 데이터를 검증하고 유형을 파악
데이터 전처리
- 원시 데이터의 수정과 변환
- 데이터 정규화/ 표준화 수행
- 파생 변수( Featur Engineering ) 생성 및 데이터 병합
- 필요에 따라 차원 축소 수행
- 훈련 데이터와 테스트 데이터 분리
모델 선택 및 학습
- 학습 유형 결정 ( 지도, 비지도, 강화 )
- 적절한 모델 선택
- 훈련 데이터를 사용하여 모델 학습
- 과적합 방지를 위한 정규화 및 드롭아웃 적용
모델 평가 및 최적화
- 테스트 데이터로 모델 성능을 평가하고 일반화 성능 확인
- 성능 평가 지표 선정
- 성능을 향상시키기 위해 하이퍼 파라미터 튜닝 수행
- Feature Engineering, 앙상블 학습 등 추가 작업 진행
- 교차 검증으로 모델 안정성 확인
모델 배포 및 유지보수
- 모델을 API 형태로 제공
- 클라우드 서비스 배포
- 실시간 데이터 입력 및 모델 예측 결과 확인
- 모델의 성능 저하 감사
- 재학습 필요 시 모델 업데이트 및 재배포
다음에는 데이터 분석라이브러리인 Pandas에 대해 알아보고 숙달해 보려고 한다.
2025.02.25 - [Data Analysis/Basic] - [Data Analysis] Pandas 라이브러리 연습
[Data Analysis] Pandas 라이브러리 연습
1. Pandas 라이브러리란? Pandas는 2009년에 오픈소스로 공개된 이후, 데이터 분석 및 가공을 위한 표준 라이브러리로 자리잡았음. 특히 데이터프레임을 활용하면 구조화된 데이터의 처리 및 변형이
c0mputermaster.tistory.com
'Data Analysis > Basic' 카테고리의 다른 글
[Data Analysis] 데이터 전처리 해보기 (0) | 2025.03.29 |
---|---|
[Data Analysis] 데이터 시각화 해보기 (0) | 2025.03.23 |
[Data Analysis] 데이터 정제 및 분석 해보기 (0) | 2025.03.23 |
[Data Analysis] Pandas 라이브러리 연습 2 (0) | 2025.03.20 |
[Data Analysis] Pandas 라이브러리 연습 (0) | 2025.02.25 |