대표사진 삭제
사진 설명을 입력하세요.
안녕하세요, 은서예요!
이번 주도 어김없이 팀 분석 과제로 돌아왔습니다 ㅎ.ㅎ
저번 포스팅에서는 제 나름대로의 전처리 방식을 Brightics로 구현해서 보여 드렸다면,
이번에는 팀 회의 결과로 나온 EDA&데이터 전처리와 모델링을 보여 드리려고 합니다

그 전에!
브라이틱쓰리 조의 홍보 영상이 드디어 올라왔습니다 ㅎ.ㅎ
열심히 만든 영상이니 모두 링크 한 번씩 클릭해 주시고 댓글도 달아 주세요 ㅜ.ㅜ
저는 온 단톡방과 SNS에 홍보를 열시미 돌렸답니다,,, 친구들아 고마워 !
https://www.youtube.com/watch?v=GjWg866IvYE&t=16s
1. 수치형 변수 정리
저희 팀은 이렇게 구글 공유 문서를 이용해서 모든 변수의 처리 방법을 논의했습니다
NA값이 많은 변수는 없애고, 명목형과 수치형을 나누어서 생각했어요!
수치형 변수 중 리모델링 연도를 나타내는 YearRemodAdd에서 YearBuilt를 빼 주어서
리모델링 한 지 몇 년이 지났는지를 알 수 있는 컬럼을 새로 만들어 주었습니다!
Add Function Column을 사용해 주었어용
이렇게 수치형 변수의 전처리를 마친 뒤, select column 함수를 이용해 수치형 변수만 선택해서
heatmap으로 상관관계를 확인해 보려고 해요!
select column에서 이렇게 수치형 변수만 선택해 주고 OK
대표사진 삭제
사진 설명을 입력하세요.
이렇게 간단하게 변수 간의 상관관계까지 살펴볼 수 있네요~!
2. 명목형 변수 정리
마찬가지로 이런 식으로 명목형 변수의 처리 방법까지 모두 정리해 주었는데요
먼저 Add column 함수를 사용해서 0과 1로 구분된 새로운 열을 생성해 줍니다
Basement가 있냐 없냐로 구분하기 위해 NA는 0, 나머지는 1로 지정된 컬럼을 만들어 주었어요
그 다음은 One hot encoder 함수를 통해 더미변수화를 시켜 줘야 하는데욥
여기서 잠깐!
One hot encoding이란 무엇일까요?
서치해 보다가 쉽게 설명하신 예시가 있어 가져와 보았습니다
위의 사진과 같이 중복을 제외한 4가지의 종류를 하나의 column으로 정해준 뒤,
이 값에 해당하면 그 column의 값을 1, 그 외의 값을 0으로 지정해주는 것입니다
이렇게하면 아주 간단하게 데이터를 encoding할 수 있죠!
여기서는 이해를 돕기 위하여 데이터가 10개 이하로 쓰였지만, 이번에 사용할 데이터는 훨씬 크기가 큽니다
이렇게 되면 데이터의 차원은 엄청나게 커지고, 계산하는 데에도 시간이 매우 오래 걸릴 거예요
따라서 차원을 줄여서 사용하는 경우가 있는데 차원을 줄이는 방법으로 많이 쓰이는 것이 PCA와 LDA입니다
저희 팀의 모델에서는 PCA를 사용했는데, 이 함수는 다음 포스팅에서 소개하겠습니다 XD
[출처] One-hot Vector와 One-hot encoding이란?|작성자 mj
아무튼, 다시 Brightics로 넘어와 볼까요?
이렇게 One hot encoding이 필요한 컬럼을 모두 선택해서 돌리면
너무나 쉽게 완료됩니다!
아무리 생각해도 컬럼을 마우스로 선택한다는 게 Brightics의 최대 장점 중 하나가 아닐까 생각해요 ㅜ.ㅜ 넘나뤼 편해,,
하지만 이 과정을 통해서 컬럼이 276개로 늘어났네요
3. 순서형 변수 정리
마지막으로 순서형 !
회의에서는 Label Encoder 함수를 사용하려고 했었지만
Label Encoder를 사용하면 알파벳 순서로 숫자가 부여되기 때문에 데이터의 특성을 반영하기 힘들 것 같더라고요
사진 설명을 입력하세요.
그래서 나중에 혼란이 생기는 걸 방지하기 위해
이렇게 Add Column을 사용해서 직접 값들을 바꿔 주었습니다!
짜잔 ҉ ٩(๑>ω<๑)۶҉
전체적인 모델은 이렇게 만들어졌습니다! 가장 많은 도움을 준 동휘 오빠한테 무한한 감사를,,
다음 포스팅에서는 오늘 포스팅 이후의 모델링 과정을 보여 드리도록 하겠습니다 ㅎ.ㅎ
그럼 안농~!

본 포스팅은 삼성 SDS Brightics 서포터즈 활동의 일환으로 작성되었습니다.
#삼성SDS#Brightics#BrighticsAI#브라이틱스#데이터분석#데이터사이언스#인공지능#브라이틱스서포터즈#서포터즈#대외활동#분석프로그램 #히트맵 #onehotencoder #Kaggle #KaggleCompetition #HousePrice #데이터시각화 #R#Rstudio#Python#SamsungSDS#삼성서포터즈#코딩#통계#iris#삼성#분석플랫폼#모델링#머신러닝#데이터분석툴#빅데이터#브라이틱스서포터즈2기#서포터즈2기#삼성SDSBrightics #BrighticsStudio #브라이틱스 #모델링 #데이터분석 #데이터 #브라이틱스서포터즈 #Brightics서포터즈 #브라이틱스다운 #모델링 #데이터시각화 #프로그램설치
#Brightics설치방법 #파이썬 #python #R #Rstudio #코딩 #코딩없이분석 #삼성SDS #삼성서포터즈 #데이터분석대외활동 #대외활동 #코딩하는법