[Project] 도시 데이터를 활용한 길거리 쓰레기통 배치 최적화 해보기
·
Data Analysis/Project
Part 3. 마포구 데이터를 이용하여 적절한 쓰레기통 갯수를 예측하고 배치 최적화 해보기 이전글2025.06.02 - [Data Analysis/Project] - [Project] 데이터를 활용하여 가중치 그리드 만들기 [Project] 데이터를 활용하여 가중치 그리드 만들기Part 2. 격자를 만들어서 가중치 정량화하기 이전글 ( 도시 데이터 선정과 전처리 )2025.06.02 - [Data Analysis/Project] - [Project] 도시 데이터를 활용한 길거리 쓰레기통 배치 최적화 해보기 - 데이터 전처c0mputermaster.tistory.com 연도별 추세 분석을 통한 적절한 쓰레기통 개수 예측1. 마포구 연도별 가로 쓰레기통 변화 분석마포구의 가로 쓰레기통 설치 수는 주로 주민 ..
[Project] 데이터를 활용하여 가중치 그리드 만들기
·
Data Analysis/Project
Part 2. 격자를 만들어서 가중치 정량화하기 이전글 ( 도시 데이터 선정과 전처리 )2025.06.02 - [Data Analysis/Project] - [Project] 도시 데이터를 활용한 길거리 쓰레기통 배치 최적화 해보기 - 데이터 전처리 및 시각화 [Project] 도시 데이터를 활용한 길거리 쓰레기통 배치 최적화 해보기 - 데이터 전처리 및 시각화Part 1. 데이터 수집과 전처리, 그리고 시각화프로젝트 개요마포구의 가로 쓰레기통을 더 효율적으로 배치할 수 없을까?그런 생각에서 출발해 서울시와 마포구에서 제공하는 공공데이터들을 수c0mputermaster.tistory.com 마포구 전체에 100m 간격 격자 생성 geopandas 라이브러리와 SHP 파일을 사용하여 마포구 그리드 생성sh..
[Project] 도시 데이터를 활용한 길거리 쓰레기통 배치 최적화 해보기 - 데이터 전처리 및 시각화
·
Data Analysis/Project
Part 1. 데이터 수집과 전처리, 그리고 시각화프로젝트 개요마포구의 가로 쓰레기통을 더 효율적으로 배치할 수 없을까?그런 생각에서 출발해 서울시와 마포구에서 제공하는 공공데이터들을 수집하고,이 데이터를 활용해 공간적 수요 기반 분석을 해봤다. 단순히 위치만 보는 게 아니라,유동 인구상권 밀집도공원 인근 취식 가능성무단투기 발생 지점까지 고려해서 데이터 기반 의사결정을 할 수 있도록 격자 단위로 가중치를 계산해봤다.이 글에서는 데이터 수집과 전처리, 시각화에 초점을 맞춘다. 분석 및 최적화 파트는 2부에서 다룰 예정.1. 데이터셋 소개1-1. 서울시 가로 쓰레기통 설치 현황📄 seoul_street_bin_count_by_year_2013_2024.xlsx출처: 서울 열린데이터 광장2013~2024년..
[Deep learning] 데이터 분석과 1D CNN
·
Data Analysis/Basic
CNN이란?CNN(Convolutional Neural Network, 합성곱 신경망)은 딥러닝에서 이미지나 영상, 음성 등의 데이터 처리에 자주 사용되는 신경망 구조 1. Convolution(합성곱)입력 이미지에서 특징(엣지, 윤곽 등)을 추출하는 필터(커널)를 사용해 연산을 수행이 과정을 통해 특징 맵(feature map)을 생성2. Pooling(풀링)합성곱 결과에서 중요한 정보만 남기고 차원을 축소주로 Max Pooling이 쓰이며, 연산량을 줄이고 과적합 방지에도 도움3. Fully Connected Layer(완전 연결 계층)앞에서 추출한 특징들을 기반으로 분류(classification) 등의 작업을 수행이 부분은 일반적인 MLP(다층 퍼셉트론)와 유사하게 작동 https://velog...
[Data Analysis] 워드 임베딩 (Word Embedding) 정리
·
Data Analysis/Basic
1. 전통적인 텍스트 표현 방법원-핫 인코딩 (One-Hot Encoding)단어마다 고유 번호를 붙이고, 그 번호 위치만 1이고 나머지는 전부 0인 벡터를 만든다.장점: 단순하고 이해하기 쉬움.단점: 벡터가 너무 커지고 대부분 0이라 비효율적이고, 단어 의미도 반영 못 함.https://wikidocs.net/22647 02-08 원-핫 인코딩(One-Hot Encoding)컴퓨터 또는 기계는 문자보다는 숫자를 더 잘 처리 할 수 있습니다. 이를 위해 자연어 처리에서는 문자를 숫자로 바꾸는 여러가지 기법들이 있습니다. 원-핫 인코딩(One-Hot E…wikidocs.net # 예제 텍스트texts = ["I love natural language processing", "Language models a..
[Data Analysis] 데이터 전처리 해보기
·
Data Analysis/Basic
텍스트 전처리 개요텍스트 전처리란?자연어로 작성된 데이터를 기계 학습 및 분석에 적합한 형식으로 정제(Cleaning)하고 구조화(Structuring)하는 작업  자연어 처리(NLP)와 텍스트 마이닝(Text Mining)의 차이자연어 처리 (NLP): 인간의 언어를 이해하고 처리하는 기술로, 언어의 구조와 의미를 분석하여 텍스트나 음성 데이터를 컴퓨터가 이해할 수 있게 만듭니다.텍스트 마이닝 (Text Mining): 텍스트 데이터에서 유용한 정보나 패턴을 추출하는 기술로, 주로 대량의 텍스트 데이터에서 의미 있는 인사이트나 지식을 발견하는 데 집중합니다.자연어 처리 (NLP)는 인간 언어의 구조적, 의미적 특성을 분석하여 텍스트나 음성을 "이해"하는 것이 주 목적입니다. 예를 들어, 문법적 분석이나..
[Data Analysis] 데이터 시각화 해보기
·
Data Analysis/Basic
대표적인 파이썬 시각화 라이브러리에는 Matplotlib, Seaborn, Pandas Visualization, Plotly, Bokeh 등이 있는데 오늘은Matplotlib 라이브러리를 이용해 데이러틀 시각화 해보았다 https://wikidocs.net/92071 01. Matplotlib 기본 사용![](https://wikidocs.net/images/page/92071/basics_00.png) Matplotlib 라이브러리를 이용해서 그래프를 그리는 일반적인 방…wikidocs.netMatplotlib 특징1. 선 그래프(Line Graph), 막대 그래프(Bar Chart), 산점도(Scatter Plot), 히스토그램(Histogram), 파이 차트(Pie Chart) 등 다양한 유형의 ..
[Data Analysis] 데이터 정제 및 분석 해보기
·
Data Analysis/Basic
아마존 리뷰 데이터 세트를 이용해서 Pandas를 통해 데이터 정제 및 분석을 해보았다.  아마존 리뷰 데이터 세트를 사용했다.  pandas 데이터 프레임 길이 제한pd.set_option('display.max_rows', 10) 1. 데이터 세트에 저장된 인덱스와 컬럼의 총 개수를 확인하고 데이터 타입이 문자열인 컬럼 조회하기import pandas as pddf_json = pd.read_json('Magazine_Subscriptions.json', lines=True)info = df_json.info()print("\n------------------------------------\n")shape = df_json.shapeprint(f"행 수: {shape[0]}, 열 수: {shape[..
[Data Analysis] Pandas 라이브러리 연습 2
·
Data Analysis/Basic
pd.to_numeric(arg, errors='raise')  Pandas에서 문자열이나 기타 형식의 데이터를 숫자로 변환할 때 사용하는 함수 * `arg`: 숫자로 변환할 대상 (Series, list-like 등)* `errors`: 변환 중 오류 발생 시 처리 방법 지정    * `raise` (기본값): 오류 발생 시 예외 발생    * `coerce`: 오류 발생한 항목을 NaN으로 처리    * `ignore`: 변환 시도 없이 원본 그대로 반환 pd.cut(x, bins, labels=None, include_lowest=False)*  연속형 데이터를 구간(bins)으로 나누어 범주형(categorical) 데이터로 변환할 때 사용* `x`: 구간으로 나눌 연속형 데이터 (Series, ..
[Data Analysis] Pandas 라이브러리 연습
·
Data Analysis/Basic
1. Pandas 라이브러리란? Pandas는 2009년에 오픈소스로 공개된 이후, 데이터 분석 및 가공을 위한 표준 라이브러리로 자리잡았음. 특히 데이터프레임을 활용하면 구조화된 데이터의 처리 및 변형이 용이해지며, 내부적으로 Cython(C++ 기반 최적화 코드)을 사용하여 빠른 속도를 제공함.주요 활용 라이브러리:산술 계산: NumPy, SciPy 등데이터 분석: statsmodels, scikit-learn 등시각화: Matplotlib, Seaborn 등Pandas는 Anaconda, Google Colab 등의 환경에서 기본적으로 설치되어 있으며, 필요 시 pip install pandas를 통해 추가 설치할 수 있음. import pandas as pd# Pandas 현재 버전 확인print..
[Data Analysis] 데이터 분석 프로세스 알아보기
·
Data Analysis/Basic
오늘은 데이터 분석을 공부하기 전에 간단하게 어떤식으로 분석이 진행되는지 전체적인 프로세스를 알아보자데이터분석과정문제 정의분석 하고자 하는 문제를 정의하고 해결 목표를 최대한 명확하고 구체적으로 설정분석 방향을 여러 관점에서 검토하고 데이터 수급 가능성을 확인 ( 보유한 데이터에 맞춰 분석 방향을 설정하면 분석이 제한 될 수 있음 )분석에 필요한 특성 결정머신러닝 학습 유형 몇 평가 지표 결정데이터 수집 및 검증필요한 데이터를 직접 수집하거나, 기존 데이터를 활용Python에서 데이터를 직접 입력하거나 파일에서 불러올 수 있음데이터 전처리에 앞서 데이터를 검증하고 유형을 파악데이터 전처리원시 데이터의 수정과 변환데이터 정규화/ 표준화 수행파생 변수( Featur Engineering ) 생성 및 데이터 ..