Fundamentals of Data Visualizations를 공부한 내용입니다.
Why 메시지 + How 차트
내가 데이터로 말하려는 바가 무엇인지 Message에 따라 차트 형태가 결정된다. a가 b보다 많다는 것을 보여주려는 것인가? a와 b가 비슷하다는 것을 보여주는 것인가?
무엇보다 먼저, Why 메세지를 명확히 해야한다. 그 다음에는 How. 이 차트가 베스트인가? 하고 계속 질문해야 한다.
보통 메세지 타입 4가지:
- Comparision
- Relationship
- Distribution
- Composition
각 카테고리에 따라 적합한 차트들이 수두룩하니 그 중에 무엇이 베스트인지 계속 실험하고 질문하자.
Visualizing Amounts 뭐가 더 큼? 뭐가 더 많음?
- Bar Chart
-vertical
-hortizontal - Grouped Bar Chart
- Stacked Bar Chart
- Dot Plot
- Heat Map
Bar Chart
- horizontal bar graph는 언제 쓰나? tick label이 너무 길 때 쓴다. Tick label을 비틀수도 있지만 보통 가독성을 떨어뜨리기 때문에 그냥 차트를 뒤집는게 낫다. 그 외에도 전체적으로 봤을때 vertical bar graph만 반복된다면 변화를 주기위해서 써도 좋을 듯하다.
- Order of factors? Ordered factor인 경우, natural ordering으로 자연스럽게 순서가 정해진다 ex 나이대. 하지만 unordered factor ex. 영화이름 같은 경우에는 순서를 정해줘야한다. 그 순서는 특별한 케이스가 아닌 경우, 데이터 값 ascending or descending data values에 따라 배치한다.
Grouped Bar Chart
Order of Factors? Ordered factor인 경우, natural ordering으로 자연스럽게 순서가 정해진다 ex 나이대. 하지만 unordered factor ex. 영화이름 같은 경우에는 순서를 정해줘야한다. 그 순서는 특별한 케이스가 아닌 경우, 데이터 값 ascending or descending data values에 따라 배치한다.
따라서 Grouped Bar Graph가 그냥 A set of Individual Bar Graphs로 각 데이터를 그리고, 그래프 자체를 서로 비교하는게 나을 수 있다.
Stacked Bar Chart
Stacking is useful when the sum of the amounts (represented by the individual stack)is in itself a meaningful amount. 즉 Stacked Bar Graph는 Stack했을 때 의미있으면 하는 것이다. 디자인이란 참, 이유없이 하는 건 없나보다. For example, stacking is useful when the individual bars represetn counts. ex. 사람 같은 경우, 사람으로 합쳐 셀 수 도 있고 여성 남성으로 나눠 셀 수도 있다. 여성, 남성을 합치면, or Stack하면 '사람 수'가 된다는 의미가 있다.
Dot Plot
Dot Plot은 바 차트의 부작용을 해소시키기 위해 주로 쓰인다. 바 차트는 값이 0부터 시작해야 한다는 한계를 가진다. 부작용 하나: 데이터 값이 크면 너무 긴 bar들이 생긴다. 부작용 둘: 데이터 값들 차이가 근소할 때, bar의 끝이 아니라 중간으로 눈길이 가기 때문에 차이를 잘 나타내지 못한다. 그럴 필요 없을 때는 데이터 값 위치에 점을 찍는 Dot Plot을 쓴다.
Heat Map
bar chart, dot plot이 데이터를 position scale에 매핑했다면, 히트맵은 데이터를 color scale에 매핑하는 것이다. 히트맵 works with larger datasets. 히트맵 시각화는 정확히 데이터값 하나하나를 보여주진 않지만, 전체 데이터를 아우르는 트렌드를 보여주는 데 적합하다. 아래 차트에서 대충(트렌드) 어느 나라에서 인터넷이 가장 먼저 발달되었는지, 지금 인터넷 사용자 수가 많은 나라는 어딘지 알 수 있다. 어느 차트에서나 마찬가지로, ordering of factors/categories matter! 처음을 기준으로 하느냐, 끝을 기준으로 하느냐에 따라 강조되는 value가 달라지니 실험해보는 것이 좋다.
올랖
디자인을 좋아하고 더 잘하고 싶어 공부합니다.
쉬는 시간에는 책이나 영화를 보고 농구 슛 연습을 합니다.
'dataVisualization' 카테고리의 다른 글
책 '모두의 SQL' (0) | 2021.09.25 |
---|---|
viz to dataframe 9월 3째주 (0) | 2021.09.24 |
이유있는 데이터 색칠 (0) | 2021.09.16 |
데이터 시각화를 연마하는 두가지 방법 (0) | 2021.09.16 |
[데이터모델링] PK와 UK의 차이 (Primary Key vs. Unique Key) (0) | 2021.09.12 |
댓글