분류 전체보기
-
1. 데이터 프로파일링 2. 데이터 전처리 및 특성 엔지니어링 3. 모델링저번 포스트를 끝으로 데이터 프로파일링을 마쳤다.데이터 프로파일링 과정을 통해 각 특성마다 필요한 특성인지 아닌지에 대한 평가하고,FamilySize라는 새로운 특성을 만들었다. 이번 포스트에서는 특성 엔지니어링에 대해 다룬다.특성 엔지니어링에서 요구되는 작업은 결측치 처리, 이상치 제거, 원핫인코딩, 타입 변환 등이 있다.모델에 학습시킬 최종 데이터셋을 만드는 과정이라고 생각하면 된다. 데이터셋도 있고, 특성도 전에 선택하지 않았나? 왜 특성 엔지니어링을 또 진행하는가?이를 설명하려면 데이터 유형에 따른 성질(categorical, numerical), 원핫인코딩에 대한 이해가 필요하다. 1. 데이터 유형에 따른 성질Catego..
Kaggle : Titanic (data preprocessing, feature engineering)1. 데이터 프로파일링 2. 데이터 전처리 및 특성 엔지니어링 3. 모델링저번 포스트를 끝으로 데이터 프로파일링을 마쳤다.데이터 프로파일링 과정을 통해 각 특성마다 필요한 특성인지 아닌지에 대한 평가하고,FamilySize라는 새로운 특성을 만들었다. 이번 포스트에서는 특성 엔지니어링에 대해 다룬다.특성 엔지니어링에서 요구되는 작업은 결측치 처리, 이상치 제거, 원핫인코딩, 타입 변환 등이 있다.모델에 학습시킬 최종 데이터셋을 만드는 과정이라고 생각하면 된다. 데이터셋도 있고, 특성도 전에 선택하지 않았나? 왜 특성 엔지니어링을 또 진행하는가?이를 설명하려면 데이터 유형에 따른 성질(categorical, numerical), 원핫인코딩에 대한 이해가 필요하다. 1. 데이터 유형에 따른 성질Catego..
2023.07.31 -
2. seaborn 라이브러리 사용이전 포스트(matplotlib)에 이어 이번에는 seaborn을 사용하여 막대그래프를 그린다.seaborn은 카테고리형 (값의 종류가 한정적)일 때 활용하기 좋다. ⓛ SibSp (동승자 수(형제, 자매, 배우자))와 Survived의 관계import seaborn as snsimport matplotlib.pyplot as pltsns.countplot(x='SibSp', hue='Survived', data=train)plt.legend(loc='upper right', title='survived')- seaborn 라이브러리를 sns라는 이름으로 import한다.- matplotlib.pyplot 라이브러리를 plt라는 이름으로 import한다. - sns.co..
Kaggle : Titanic (data profiling _ Seaborn library)2. seaborn 라이브러리 사용이전 포스트(matplotlib)에 이어 이번에는 seaborn을 사용하여 막대그래프를 그린다.seaborn은 카테고리형 (값의 종류가 한정적)일 때 활용하기 좋다. ⓛ SibSp (동승자 수(형제, 자매, 배우자))와 Survived의 관계import seaborn as snsimport matplotlib.pyplot as pltsns.countplot(x='SibSp', hue='Survived', data=train)plt.legend(loc='upper right', title='survived')- seaborn 라이브러리를 sns라는 이름으로 import한다.- matplotlib.pyplot 라이브러리를 plt라는 이름으로 import한다. - sns.co..
2023.07.29 -
1. matplotlib의 hist함수 먼저 matplotlib의 hist함수이다.구간을 설정할 수 있기 때문에 대상열의 고유값의 종류가 많거나 연속형 타입일 경우 자주 사용한다. ① Age(나이)와 Survived의 관계 첫번째로 profiling할 특성은 Age(나이)이다.import matplotlib.pyplot as plt%matplotlib inline plt.hist(train.loc[train['Survived']==0, 'Age'].dropna(), # train set에서 생존=0인 행에서 'Age'열값만 가져온 데이터 프레임, 결측치있는 행은 제거, bins=30, alpha=0.5, label='0') # 히스토그램 설정(bi..
Kaggle : Titanic (data profiling _ matplotlib library)1. matplotlib의 hist함수 먼저 matplotlib의 hist함수이다.구간을 설정할 수 있기 때문에 대상열의 고유값의 종류가 많거나 연속형 타입일 경우 자주 사용한다. ① Age(나이)와 Survived의 관계 첫번째로 profiling할 특성은 Age(나이)이다.import matplotlib.pyplot as plt%matplotlib inline plt.hist(train.loc[train['Survived']==0, 'Age'].dropna(), # train set에서 생존=0인 행에서 'Age'열값만 가져온 데이터 프레임, 결측치있는 행은 제거, bins=30, alpha=0.5, label='0') # 히스토그램 설정(bi..
2023.07.29 -
데이터 분석은 대략적으로 3단계를 거친다. 1. 데이터 프로파일링 2. 특성 엔지니어링 3. 모델링 (캐글의 경우 문제상황과 데이터가 주어지므로 문제정의 단계와 데이터 준비 단계는 생략했다.) 이번 포스트부터 첫번째 단계인 데이터 프로파일링에 대해 살펴보자.데이터를 프로파일링한다는 것은 데이터를 살펴본다는 뜻이다.요리를 하기 위한 식재료를 찾는 작업이라고 보면 될 것 같다. 재료만 좋으면 반이라도 간다는 말이 있다.아무리 요리사가 요리실력이 떨어진다고 한들 그 재료가 좋다면 어떻게든 맛은 어느정도 보장된다는 말이다.허나 반대로 요리사가 최상급의 요리 실력을 가지고 있다고 한들 물러터진 재료를 사용한다면 그 요리는 실패작이 될 수 밖에 없다. 데이터 분석에서 이를 비유하자면 이와 같다.요리실력 = 모델(알..
Kaggle : Titanic (feature profiling)데이터 분석은 대략적으로 3단계를 거친다. 1. 데이터 프로파일링 2. 특성 엔지니어링 3. 모델링 (캐글의 경우 문제상황과 데이터가 주어지므로 문제정의 단계와 데이터 준비 단계는 생략했다.) 이번 포스트부터 첫번째 단계인 데이터 프로파일링에 대해 살펴보자.데이터를 프로파일링한다는 것은 데이터를 살펴본다는 뜻이다.요리를 하기 위한 식재료를 찾는 작업이라고 보면 될 것 같다. 재료만 좋으면 반이라도 간다는 말이 있다.아무리 요리사가 요리실력이 떨어진다고 한들 그 재료가 좋다면 어떻게든 맛은 어느정도 보장된다는 말이다.허나 반대로 요리사가 최상급의 요리 실력을 가지고 있다고 한들 물러터진 재료를 사용한다면 그 요리는 실패작이 될 수 밖에 없다. 데이터 분석에서 이를 비유하자면 이와 같다.요리실력 = 모델(알..
2023.07.29 -
맨 처음 교수님께서 내주셨던 과제이다.이거에 더해 sql책도 과제로 내주셨지만 이는 다음에 차차... 이 책을 공부한 목적: 캐글 대회가 어떻게 진행되는지, 전체적인 과정을 파악함과 동시에 고전 문제인 titanic 문제를 책을 따라 풀어보면서 순서 익히기 1. 데이터셋캐글의 데이터셋은 3가지로 나뉘어져있다.test.csvtrain.csv~~~_submission.csv ~~~submission.csv는 채출해야하는 양식이다.모범답안?? 같은 느낌이다. 학교 수업에서 과제 내주실 때 이렇게 제출하면 됩니다~ 하는 것처럼 ㅎㅎ test.csv는 목표값이 비워져있는 데이터셋이다.이 비워진 목표값을 예측해서 채운후 제출하면 캐글에서 점수가 나오고 이 점수로 경쟁하는 구조이다. train.csv는 목표값까지 나..
Kaggle : Titanic (outline)맨 처음 교수님께서 내주셨던 과제이다.이거에 더해 sql책도 과제로 내주셨지만 이는 다음에 차차... 이 책을 공부한 목적: 캐글 대회가 어떻게 진행되는지, 전체적인 과정을 파악함과 동시에 고전 문제인 titanic 문제를 책을 따라 풀어보면서 순서 익히기 1. 데이터셋캐글의 데이터셋은 3가지로 나뉘어져있다.test.csvtrain.csv~~~_submission.csv ~~~submission.csv는 채출해야하는 양식이다.모범답안?? 같은 느낌이다. 학교 수업에서 과제 내주실 때 이렇게 제출하면 됩니다~ 하는 것처럼 ㅎㅎ test.csv는 목표값이 비워져있는 데이터셋이다.이 비워진 목표값을 예측해서 채운후 제출하면 캐글에서 점수가 나오고 이 점수로 경쟁하는 구조이다. train.csv는 목표값까지 나..
2023.07.27