[Data Analysis] 데이터 전처리 해보기
·
Data Analysis/Basic
텍스트 전처리 개요텍스트 전처리란?자연어로 작성된 데이터를 기계 학습 및 분석에 적합한 형식으로 정제(Cleaning)하고 구조화(Structuring)하는 작업  자연어 처리(NLP)와 텍스트 마이닝(Text Mining)의 차이자연어 처리 (NLP): 인간의 언어를 이해하고 처리하는 기술로, 언어의 구조와 의미를 분석하여 텍스트나 음성 데이터를 컴퓨터가 이해할 수 있게 만듭니다.텍스트 마이닝 (Text Mining): 텍스트 데이터에서 유용한 정보나 패턴을 추출하는 기술로, 주로 대량의 텍스트 데이터에서 의미 있는 인사이트나 지식을 발견하는 데 집중합니다.자연어 처리 (NLP)는 인간 언어의 구조적, 의미적 특성을 분석하여 텍스트나 음성을 "이해"하는 것이 주 목적입니다. 예를 들어, 문법적 분석이나..
[Data Analysis] 데이터 시각화 해보기
·
Data Analysis/Basic
대표적인 파이썬 시각화 라이브러리에는 Matplotlib, Seaborn, Pandas Visualization, Plotly, Bokeh 등이 있는데 오늘은Matplotlib 라이브러리를 이용해 데이러틀 시각화 해보았다 https://wikidocs.net/92071 01. Matplotlib 기본 사용![](https://wikidocs.net/images/page/92071/basics_00.png) Matplotlib 라이브러리를 이용해서 그래프를 그리는 일반적인 방…wikidocs.netMatplotlib 특징1. 선 그래프(Line Graph), 막대 그래프(Bar Chart), 산점도(Scatter Plot), 히스토그램(Histogram), 파이 차트(Pie Chart) 등 다양한 유형의 ..
[Data Analysis] 데이터 정제 및 분석 해보기
·
Data Analysis/Basic
아마존 리뷰 데이터 세트를 이용해서 Pandas를 통해 데이터 정제 및 분석을 해보았다.  아마존 리뷰 데이터 세트를 사용했다.  pandas 데이터 프레임 길이 제한pd.set_option('display.max_rows', 10) 1. 데이터 세트에 저장된 인덱스와 컬럼의 총 개수를 확인하고 데이터 타입이 문자열인 컬럼 조회하기import pandas as pddf_json = pd.read_json('Magazine_Subscriptions.json', lines=True)info = df_json.info()print("\n------------------------------------\n")shape = df_json.shapeprint(f"행 수: {shape[0]}, 열 수: {shape[..
[Data Analysis] Pandas 라이브러리 연습 2
·
Data Analysis/Basic
pd.to_numeric(arg, errors='raise')  Pandas에서 문자열이나 기타 형식의 데이터를 숫자로 변환할 때 사용하는 함수 * `arg`: 숫자로 변환할 대상 (Series, list-like 등)* `errors`: 변환 중 오류 발생 시 처리 방법 지정    * `raise` (기본값): 오류 발생 시 예외 발생    * `coerce`: 오류 발생한 항목을 NaN으로 처리    * `ignore`: 변환 시도 없이 원본 그대로 반환 pd.cut(x, bins, labels=None, include_lowest=False)*  연속형 데이터를 구간(bins)으로 나누어 범주형(categorical) 데이터로 변환할 때 사용* `x`: 구간으로 나눌 연속형 데이터 (Series, ..
[Data Analysis] Pandas 라이브러리 연습
·
Data Analysis/Basic
1. Pandas 라이브러리란? Pandas는 2009년에 오픈소스로 공개된 이후, 데이터 분석 및 가공을 위한 표준 라이브러리로 자리잡았음. 특히 데이터프레임을 활용하면 구조화된 데이터의 처리 및 변형이 용이해지며, 내부적으로 Cython(C++ 기반 최적화 코드)을 사용하여 빠른 속도를 제공함.주요 활용 라이브러리:산술 계산: NumPy, SciPy 등데이터 분석: statsmodels, scikit-learn 등시각화: Matplotlib, Seaborn 등Pandas는 Anaconda, Google Colab 등의 환경에서 기본적으로 설치되어 있으며, 필요 시 pip install pandas를 통해 추가 설치할 수 있음. import pandas as pd# Pandas 현재 버전 확인print..
[Data Analysis] 데이터 분석 프로세스 알아보기
·
Data Analysis/Basic
오늘은 데이터 분석을 공부하기 전에 간단하게 어떤식으로 분석이 진행되는지 전체적인 프로세스를 알아보자데이터분석과정문제 정의분석 하고자 하는 문제를 정의하고 해결 목표를 최대한 명확하고 구체적으로 설정분석 방향을 여러 관점에서 검토하고 데이터 수급 가능성을 확인 ( 보유한 데이터에 맞춰 분석 방향을 설정하면 분석이 제한 될 수 있음 )분석에 필요한 특성 결정머신러닝 학습 유형 몇 평가 지표 결정데이터 수집 및 검증필요한 데이터를 직접 수집하거나, 기존 데이터를 활용Python에서 데이터를 직접 입력하거나 파일에서 불러올 수 있음데이터 전처리에 앞서 데이터를 검증하고 유형을 파악데이터 전처리원시 데이터의 수정과 변환데이터 정규화/ 표준화 수행파생 변수( Featur Engineering ) 생성 및 데이터 ..