본문 바로가기

삼성 SDS Brightics

[삼성 SDS Brightics] 개인 분석 미션 01. 데이터 전처리 / Brightics Studio로 학교 과제를 할 수 있다? ㄴ0ㄱ

 

 

 

안녕하세요, 은서예요!

저는 요즘 기말고사와,, 엄청난 과제 폭탄으로,, 거의 죽어 가고 있지만,,!

그나마 제 메마른 생활에 한 줄기 빛이 되어 주는 ㅜ.ㅜ Brightics 포스팅 시간이 돌아왔네욧

 

이번에는 드디어 ☆ㄱㅐ인 미 션★ 시간입니다!

이제부터 본격적으로 Brightics Studio를 활용한 데이터 분석 방법을 보여 드릴 계획이에오 ˚✧₊⁎( ˘ω˘ )⁎⁺˳✧༚

그럼 바로 데이터 선정부터 시작해 볼까요 ? 기기

 

 

1. 데이터 선정

 

우선 저는 데이터 분석을 처음부터! 끝까지! 혼자서 해 보는 게 처음이라 넘 떨리는데요...!

처음 하는 분석인 만큼 요즘 시국에 맞는 '이시국데이터'를 선택해 보고 싶었슴니다 (겉멋)

그래서 고심하고 고심한 끝에 고른 데이터는 바로바로,,

 

"마스크 5부제에 대한 인식 조사!"

 

였습니다 짝짝

 

핫하지 않다구요 . . . ?

않의,, 아직 코로나 대박이잔아,, 마스크 불편하잔아,,

작년부터 올해까지 우리를 괴롭히고 있는 코로나 (ㅂㄷㅂㄷ)

한창 마스크가 부족했던 때에 혜성처럼 나타난! 마스크 5부제에 대한 시민들의 인식 조사 데이터를 가지고 분석하려고 합니닷 ㅎ.ㅎ

 

굉장히 의미 있는 결과는 나오지 않을지라도,, 이번 미션에서는 Brightics 사용법을 제대로 익혀 보자구요!

 

 

 

 

우선 저는 학교찬스로 KSDC를 이용했습니다!

교내 도서관 홈페이지가 있으신 분들은 학교 아이디를 통해 누구나 접속하실 수 있답니다 ㅎ ㅎ

혹은 집 근처 도서관에서 접속이 가능해요!

 

 

 

자료를 선택해 들어가 주면 다음과 같이 다양한 자료를 다운받을 수 있고, 온라인 통계 분석까지 가능하더라구요!

저는 Excel 원자료, 설문지 자료를 활용했습니닷

 

 

2. 데이터 로딩

 

데이터를 다운받아 보니 아무래도 설문 결과를 데이터화 한 것이다 보니 컬럼 이름도 없고, 모두 숫자로 처리되어 있더라고요?

저는 먼저 제가 분석할 주제인 마스크에 대한 질문과 설문 참여자에 대한 정보를 묻는 질문만 빼고 모두 삭제한 뒤,

컬럼의 이름을 추가해 줬습니다!

 

질문은 총 12개로 이루어져 있었습니다!

1. 귀하께서 거주하는 지역은 어디입니까?

2. 귀하의 성별은 무엇입니까?

3. 귀하의 만 나이가 어떻게 되십니까?

4. 귀하의 최종 학력은 어디에 해당되십니까? 졸업을 기준으로 응답해 주십시오

5. 우리나라는 지정된 요일에 공적 마스크를 1인 2개씩 구매할 수 있는 ‘마스크 5부제’를 3월 9일부터 시행하고 있습니다. 귀하는 마스크 5부제 시행 후 본인이 사용할 목적으로 공적 마스크를 구입하신 적이 있습니까?

6. 공적 마스크를 구입하신 적이 있다면 본인이 사용할 목적으로 몇 번 구입하셨습니까?

7. 공적 마스크를 구입하지 않았다면 그 이유는 무엇입니까?

8-1. 5부제 시행 이전보다 마스크 구매가 쉽다 (매우 그렇다 - 전혀 그렇지 않다)

8-2. 공평한 마스크 수급에 필요한 제도이다

8-3. 전반적으로 만족한다

 

설문에 해당하는 답변이 모두 번호로 데이터화 되어 있었어욥

 

 

지역 -> region

성별 -> sex

나이 -> age

학력 -> educ

마스크 5부제 시행 후 공적 마스크 구매 여부 -> buy

구입 횟수 -> buy_num

구입하지 않은 이유 -> buyx

마스크 5부제에 대한 평가) 시행 이전보다 마스크 구매가 쉽다 -> easybuy

공평한 마스크 수급에 필요한 제도다 -> equal

전반적으로 만족한다 -> satisfied

직업 -> job

사회 경제적 계층 -> class

 

헥헥,, 이렇게 야매로 컬럼 이름을 지정해 주었어요!

엑셀에서 CSV 파일로 변경까지 해 주면 데이터 로드 준비는 끝-!

 

 

이제는 왠지 익숙해져 버린 Brightics Studio를 켜 줍니다!

My projects 옆 + 버튼을 눌러서 새로운 프로젝트를 하나 만들어 줬어요

 

 

여기에 Mask 모델을 만들어 주고,,,

 

 

Load 함수에서 제가 뚝딱뚝딱 가공한 Mask 파일을 로딩해 주겠슴니당

 

여기서 잠깐 ! !

※ File Name allows only the following characters: "a-z", "A-Z", "0-9", "_", ".".

파일 이름은 영문, 숫자, 언더바, 온점밖에 인식이 안 되니 주의하세요!

 

 

 

 

 

성공적으로 데이터를 로딩했다는 팝업이 뜹니당

근데 이거 넘 귀엽지 않나효,, ㄱㅇㅇ ㅠ

 

 

짜잔 ✧٩(ˊωˋ*)و✧

데이터를 성공적으로 불러왔습니다!

 

 

3. 데이터 전처리 

 

자, 이제 마지막 전처리!

먼저 결측값이 있는지부터 확인해 보겠슴다

결측값은 Statics summary 함수를 사용해서 알아볼 계획이에요!

 

 

새로운 함수 Statics summary를 추가해 주고 Input Columns에 모든 열을 추가해 줄게요!

 

 

그리고 Target Statics를 선택해 줄 건데, 모든 값들이 설문에 답변한 항목들이기 때문에 Max, Min과 같이

필요가 없을 것 같은 측정값들은 체크를 풀어 주고 필요한 항목들만 남겨 줬어요!

가장 중요한 건 결측값이니 Null count를 꼭 체크해 줍시다

 

 

결과를 보았더니,, 오잉 ?

결측값이 하나도 없네요 . . . ?

망했다...

 

너무 완벽한 데이터를 가져왔는지,,, ^^ 결측값 처리가 불필요하게 되었슴다

하지만 이렇게 끝내면 너무 아쉬우니 결측값이 존재하는 데이터로 결측값 처리 연습을 해 보도록 해요...!

 

 

4. 데이터 전처리 연습해 보기 (^^)

 

 

먼저 급하게 과제로 사용했었던 Size Korea 2015년 인체계측자료 일부를 불러와 줍니다...!

 

 

콤마로 분리함도 체크해 주고!

 

데이터 로딩!

 

 

이번엔 키, 손발 크기 등이 포함되어 있는 자료라서 평균값, 최대값, 최소값 등도 넣어 봤어요!

Null count에 결측값의 개수가 주륵 떠 있는 거 보이시나요?

그럼 이제 이 결측값들을 대체해 보겠습니당

 

 

결측값 대체는 Replace Missing Number라는 함수를 사용해 줄 거예요

왜냐면 이 자료의 모든 값이 숫자형이기 때문이죠!

(만약 자료형이 문자라면 Replace Missing String 함수를 사용하시면 됩니당)

 

그리고 Inputs에서 table을 꼭 끌어와 줘야 하더라구요!

안 했다가 컬럼값이 아무 것도 안 떠서 우왕좌왕했답니다 ㅜ.ㅜ

 

 

여기에서 결측값을 채울 값을 직접 고를 수 있어요!

저는 Mean(평균)으로 골라주고 돌려 볼게요 ㅎ.ㅎ

 

 

5번째 데이터의 age가 바뀐 거 발견하셨나요 ?!

초큼 더럽지만,, Brightics가 똑부러지게 평균을 구해서 결측값을 대체했습니다

그런데,, 여기까지 30초도 안 걸린 거 실화?

Brightics 대다내 . . .

 


여기까지 개인미션 part.01 데이터 전처리 단계였습니다!

사실 혼자 해 보는 첫 번째 데이터 분석이라 걱정이 많았는데, Brightics Studio가 워낙 직관적으로 구성되어 있다 보니

튜토리얼을 참고하기도 쉽고, 혼자서 찾아 가기도 어렵지 않았어요!

여러분들도 Try this 해 보셔라~ 이 말임니다 *^^*

다음 포스팅은 데이터를 활용한 다양한 시각화 도출을 보여 드릴게요

벌써부터 기대가 되는데요,, ! 77ㅑ악

앞으로의 데이터 분석도 함께해 주실 거조 ?

그럼 안농~!

 

 

 

본 포스팅은 삼성 SDS Brightics 서포터즈 활동의 일환으로 작성되었습니다.