본문 바로가기
dataVisualization

데이터와 차트 매핑하기 (1): 비교할 때

by holaf 2021. 9. 17.
반응형

Fundamentals of Data Visualizations를 공부한 내용입니다.

 

Why 메시지 + How 차트

내가 데이터로 말하려는 바가 무엇인지 Message에 따라 차트 형태가 결정된다. a가 b보다 많다는 것을 보여주려는 것인가? a와 b가 비슷하다는 것을 보여주는 것인가?

무엇보다 먼저, Why 메세지를 명확히 해야한다. 그 다음에는 How. 이 차트가 베스트인가? 하고 계속 질문해야 한다.

 

보통 메세지 타입 4가지:

  1. Comparision
  2. Relationship
  3. Distribution
  4. Composition

각 카테고리에 따라 적합한 차트들이 수두룩하니 그 중에 무엇이 베스트인지 계속 실험하고 질문하자.

참고로 Chart=Graph=Plot 용어는 혼용한다.

 

Visualizing Amounts 뭐가 더 큼? 뭐가 더 많음?

  1. Bar Chart
    -vertical
    -hortizontal
  2. Grouped Bar Chart
  3. Stacked Bar Chart
  4. Dot Plot
  5. Heat Map

 

Bar Chart

  • horizontal bar graph는 언제 쓰나? tick label이 너무 길 때 쓴다. Tick label을 비틀수도 있지만 보통 가독성을 떨어뜨리기 때문에 그냥 차트를 뒤집는게 낫다. 그 외에도 전체적으로 봤을때 vertical bar graph만 반복된다면 변화를 주기위해서 써도 좋을 듯하다.
  • Order of factors? Ordered factor인 경우, natural ordering으로 자연스럽게 순서가 정해진다 ex 나이대. 하지만 unordered factor ex. 영화이름 같은 경우에는 순서를 정해줘야한다. 그 순서는 특별한 케이스가 아닌 경우, 데이터 값 ascending or descending data values에 따라 배치한다.

 

Grouped Bar Chart

Order of Factors? Ordered factor인 경우, natural ordering으로 자연스럽게 순서가 정해진다 ex 나이대. 하지만 unordered factor ex. 영화이름 같은 경우에는 순서를 정해줘야한다. 그 순서는 특별한 케이스가 아닌 경우, 데이터 값 ascending or descending data values에 따라 배치한다.

따라서 Grouped Bar Graph가 그냥 A set of Individual Bar Graphs로 각 데이터를 그리고, 그래프 자체를 서로 비교하는게 나을 수 있다.

 

Stacked Bar Chart

Stacking is useful when the sum of the amounts (represented by the individual stack)is in itself a meaningful amount. 즉 Stacked Bar Graph는 Stack했을 때 의미있으면 하는 것이다. 디자인이란 참, 이유없이 하는 건 없나보다. For example, stacking is useful when the individual bars represetn counts. ex. 사람 같은 경우, 사람으로 합쳐 셀 수 도 있고 여성 남성으로 나눠 셀 수도 있다. 여성, 남성을 합치면, or Stack하면 '사람 수'가 된다는 의미가 있다.

맥주, 소주 박스를 stack해서 그날 총 술 박스를 세는 stacked bar graph는 어떨까?

 

Dot Plot

Dot Plot은 바 차트의 부작용을 해소시키기 위해 주로 쓰인다. 바 차트는 값이 0부터 시작해야 한다는 한계를 가진다. 부작용 하나: 데이터 값이 크면 너무 긴 bar들이 생긴다. 부작용 둘: 데이터 값들 차이가 근소할 때, bar의 끝이 아니라 중간으로 눈길이 가기 때문에 차이를 잘 나타내지 못한다. 그럴 필요 없을 때는 데이터 값 위치에 점을 찍는 Dot Plot을 쓴다.

 

Heat Map

bar chart, dot plot이 데이터를 position scale에 매핑했다면, 히트맵은 데이터를 color scale에 매핑하는 것이다. 히트맵 works with larger datasets. 히트맵 시각화는 정확히 데이터값 하나하나를 보여주진 않지만, 전체 데이터를 아우르는 트렌드를 보여주는 데 적합하다. 아래 차트에서 대충(트렌드) 어느 나라에서 인터넷이 가장 먼저 발달되었는지, 지금 인터넷 사용자 수가 많은 나라는 어딘지 알 수 있다. 어느 차트에서나 마찬가지로, ordering of factors/categories matter! 처음을 기준으로 하느냐, 끝을 기준으로 하느냐에 따라 강조되는 value가 달라지니 실험해보는 것이 좋다.

 

올랖

디자인을 좋아하고 더 잘하고 싶어 공부합니다.

쉬는 시간에는 책이나 영화를 보고 농구 슛 연습을 합니다.

반응형

댓글