피해야 할 잘못된 데이터 시각화 사례

게시 됨: 2022-07-27

데이터 시각화는 복잡한 데이터 자료를 분석하고 전달 하는 데 필수적인 도구입니다. 그래도 조심해야 합니다. 잘못된 방식으로 수행하면 정보가 왜곡되거나 잘못 전달됩니다.

안타깝게도 일부는 데이터 시각화를 사용 하여 의도적으로 데이터를 잘못 표현합니다 . 그들은 의제가 있거나 자신의 의견을 알리고 싶어합니다. 다른 오해의 소지가 있는 데이터 시각화는 실수의 결과이거나 데이터를 표시하는 방법에 대한 이해 부족입니다. 디자인은 아름답고 매력적일 수 있지만 명확한 정보 전달에는 적합하지 않습니다.

때로는 오해의 소지가 있는 데이터 시각화가 명백합니다. 때로는 더 미묘합니다. 좋은 데이터 시각화가 무엇인지 그리고 데이터를 표현하는 가장 좋은 방법은 무엇인지 아는 것이 유용합니다.

이 기사에서는 중요한 교훈을 줄 수 있는 잘못된 데이터 시각화 사례 를 보여줍니다.

스케일 잘림

막대 차트는 가장 널리 사용되는 데이터 시각화 예제입니다. 막대 높이를 비교하여 상대적 크기를 빠르게 파악할 수 있습니다. 만들기 쉽고 모두가 이해합니다 .

이 예의 막대 차트는 지난 몇 년간 Coca-Cola의 순 수익을 비교합니다. 수직 규모는 0에서 480억입니다. 그것은 논리적이고 올바른 것입니다. 다음 예에서 Y축은 280억에서 시작하여 다음 해의 매출 성장이 성층권으로 부풀어 오른 것처럼 보입니다.

wpDataTables로 만든 차트

세로축의 일부를 잘라내면 막대의 크기 차이가 강조됩니다. 어떤 사람들은 이 트릭을 사용 하여 데이터의 차이가 실제보다 더 크다고 가정하도록 사람들을 속입니다.

wpDataTables로 만든 차트

여기 또 다른 예가 있습니다. 2017년부터 2018년까지 애플의 지역별 매출을 비교한 것이다. 얼핏 보면 애플이 유럽보다 일본에서 훨씬 더 잘한 것 같다.

그것이 사실입니까, 아니면 이것이 잘못된 데이터 시각화의 예입니까? 자세히 보면 Y축이 잘린 것을 볼 수 있습니다. 이로 인해 데이터가 잘못 표시됩니다.

실제로 다음과 같이 표시되어야 합니다.

wpDataTables로 만든 차트

Y축 조작

y축을 추가로 조작하면 더 많은 데이터 시각화 실수가 발생합니다. 전체 세로 축을 표시하고 모든 의미를 잃는 방식으로 변경할 수 있습니다. 한 가지 방법은 데이터 차이를 지나치게 강조 하도록 척도를 변경하는 것입니다.

이 축 변경은 잘못된 데이터 시각화의 매우 일반적인 예입니다. 소셜 미디어는 이러한 허위 진술로 가득 차 있습니다. 그것은 거짓된 이야기를 밀어붙입니다.

예를 들어 누군가가 작은 온도 변화를 그래프로 나타낼 수 있습니다. 곡선을 가능한 한 중요하지 않게 만들기 위해 -10°C에서 100°C 범위의 수직 눈금을 사용합니다. 그것은 지구 온난화의 영향을 부정하는 일반적인 속임수입니다.

작은 변화가 큰 영향을 미치고 데이터 세트의 배경을 바꿀 수 있습니다. 이 예를 보십시오. 신용 점수 700점 만점에 634점

신용점수가 850점 만점에 634점과 같지 않습니다.

상관관계와 인과관계

데이터 간의 상관 관계를 표시하는 것은 청중이 주제를 더 잘 이해하도록 돕는 좋은 방법입니다. 하나의 그래프에서 데이터세트의 오버레이를 만들어 이를 수행할 수 있습니다. 구두 및 시각적 설명의 조합은 시청자가 특정 중요한 연결을 만드는 데 도움이 될 수 있습니다. 경고도 뜬다. 오버레이가 너무 많으면 연결을 강조 표시하기보다는 정보 를 가립니다.

wpDataTables로 만든 차트

잘못된 방식으로 사용되는 경우 오버레이는 존재하지 않는 인과 관계를 암시할 수 있습니다. 다음은 잘 알려진 예입니다. 아이스크림 소비와 강력범죄의 관계를 시사한다. 실제로, 그들은 모두 따뜻한 날씨의 결과입니다.

인과 관계는 데이터의 상관 관계와 동일하지 않습니다 . 이제 데이터 세트가 점점 더 커지면서 상관 관계가 훨씬 더 강조됩니다. 두 현상 사이에 진정한 인과관계를 설정하는 것보다 상관관계를 탐지하는 것이 더 쉽습니다.

인과관계가 상관관계와 동일하지 않은 중요한 이유가 있습니다. 두 변수를 비교하면 세 번째 교란 변수의 존재를 가릴 수 있습니다.

알 수 없는 세 번째 변수는 다른 두 변수에 영향을 줄 수 있습니다. 그것은 둘 사이에 인과 관계의 존재를 암시할 수 있습니다. 아무도 그 세 번째 변수의 존재를 인식할 수 없으며 인과 관계를 설정하는 것이 불가능합니다.

체리 따기

체리 따기는 알려진 많은 오해의 소지가 있는 데이터 시각화 예 중 하나입니다. 이 데이터 시각화 양식 은 특정 출처나 정보를 생략합니다 .

목적은 더 명확하거나 예측 가능한 결과 집합을 표시하고 존재하지 않는 추세 또는 패턴을 추출하는 것입니다. 부정직하고 객관적이지 않습니다. 결과는 부정확하고 불완전하며 실제 지식을 전달하지 않습니다.

체리 따기는 제약 산업에서 흔히 볼 수 있는 잘못된 데이터 시각화의 한 형태입니다. 신중한 검토는 임상 시험 결과 발표에서 이를 보여줄 수 있습니다. 그 예로 항우울제를 들 수 있습니다. 같은 약물에 대한 정부 지원 조사 결과와 데이터를 비교하면 명확해집니다.

위의 예는 데이터 체리 피킹이 얼마나 위험한지를 보여줍니다. 임상 시험은 특정한 미묘한 복잡성을 드러낼 수 있습니다. 이들은 순수한 데이터를 고려하여 추출할 수 있습니다.

불분명한 로그 스케일링

선형 축의 두 점 사이의 값은 항상 동일합니다. 로그 스케일의 경우. 두 점 사이의 값은 특정 패턴에 따라 다릅니다. 이것이 선형 스케일과 로그 스케일의 차이를 확인하는 가장 쉬운 방법입니다.

그렇다고 해서 로그 표현이 오해의 소지가 있는 데이터 시각화의 한 형태라는 의미는 아닙니다. 데이터 세트에서 중요한 관계를 추출하는 매우 효과적인 방법이 될 수 있습니다. 물론 그래프가 로그 척도를 사용한다는 것을 보여주는 것이 중요합니다. 그렇지 않은 경우 데이터 중요성이 손실될 수 있습니다.

아래 두 그래프는 동일한 데이터를 표시하는 두 가지 방법을 보여줍니다. 하나는 선형 척도를 사용하고,

다른 하나는 로그 스케일을 사용합니다. 두 표현 모두 본질적으로 정확하지만 다르게 보입니다.

교훈은 로그 스케일을 사용할 수 있지만 어떻게 든 뷰어에게 명확하게 해야 한다는 것입니다 .

틀에 얽매이지 않는 시각화

데이터 시각화 요소는 인간 심리에 영향을 미칩니다 . 색상, 글꼴 및 아이콘에는 모두 더 깊은 의미가 있습니다. 시청자가 정보를 인식하는 방식에 영향을 줍니다. 이러한 사실을 무시하거나 남용하는 것은 잘못된 데이터 시각화 사례입니다.

데이터 시각화의 중요성을 과소평가해서는 안 됩니다. 뇌가 새로운 정보를 받아들이면 특정 디자인 요소의 의미를 분석하는 데 시간이 걸립니다.

창의적이라는 것은 좋은 일이며 데이터 시각화에 의미를 더할 수 있습니다. 그러나 이 예에서와 같이 일반적인 시각적 연관성을 비정상적으로 적용하여 청중을 산만하게 하지 마십시오.

또는 총기 사망에 관한 것입니다.

두 번째 예는 제작자가 표면 아래에서 말하려는 것이 분명하기 때문에 최악의 예 중 하나입니다. 그것은 틀에 박힌 거꾸로 된 표현입니다. 플로리다에서는 그 반대가 사실일 때 총기 사망자가 감소하고 있다는 인상을 줍니다.

여기 또 다른 예가 있습니다. 주별 바이러스 감염률이 표시된 미국 지도를 보여줍니다.

다양한 색상으로 비율을 보여줍니다. 유사한 지도에서 같은 색상의 다른 음영은 농도를 나타냅니다. 색이 진할수록 감염률이 높아집니다. 이 지도는 이 규칙을 따르지 않습니다. 결과는 매우 혼란스럽고 오해의 소지가 있습니다.

오해의 소지가 있는 원형 차트

오해의 소지가 있는 데이터 시각화 예제와 관련하여 가장 일반적인 것 중 하나는 파이 차트입니다. 정의에 따르면 완전한 원형 차트 는 항상 총 100%를 나타냅니다 . 둘 이상의 답변이 포함된 설문조사 결과를 표시하기 위해 원형 차트를 사용할 때 혼란스럽거나 오해의 소지가 있습니다.

이 차트의 예가 맞습니다.

wpDataTables로 만든 차트

원형 차트의 백분율을 합하면 100%가 됩니다. 이제 질문 중 하나가 후보자에게 둘 이상의 답변을 허용하는 설문 조사를 상상해보십시오. 예를 들어, "경제 상황이 나아지려면 어디로 이사하시겠습니까?" 일부는 예를 들어 호주와 유럽과 같이 두 가지 답변을 제공할 수 있습니다. 그러면 원형 차트가 더 이상 작동하지 않습니다.

누군가가 이 차트 유형을 사용하면 정보가 왜곡되고 부정확해집니다. 이 경우 벤 다이어그램이 더 나은 선택입니다.

누적 데이터 대 연간 데이터

누적 표현은 연속 입력을 추가합니다. 이 경우 그래프는 각 데이터 포인트와 함께 올라갑니다.

연간 데이터는 특정 연도에 대한 절대 데이터 결과를 보여줍니다. 그래프는 위아래로 움직일 수 있습니다. 어떤 경우에는 이것이 결과를 더 정직하게 나타낼 수 있습니다.

Worldometer COVID-19 그래프는 이 점을 설명하는 역할을 합니다.

그리고 실제로 누적 그래프는 전염병 기간 동안 매우 인기가 있었습니다.

또한 많은 회사에서 누적 그래프를 사용하여 결과를 과시합니다. 판매 결과가 실제보다 더 좋아 보이도록 만들지만 속지 마십시오.

2013년 애플의 CEO인 팀 쿡은 아이패드 판매량을 보여주기 위해 누적 데이터 시각화를 사용했다는 이유로 많은 비판을 받았다. 많은 사람들은 Apple이 제품 판매 감소를 은폐하려고 한다고 느꼈습니다.

올바른 방법으로 수행하면 누적 데이터 표현을 표시하는 데 아무런 문제가 없습니다. 예를 들어 성장의 변화를 강조합니다. 사용하기 전에 무엇을 보여주고 싶은지, 어떤 인상을 주고 싶은지 생각해보세요 .

너무 많은 변수

시각적 데이터 표현을 위한 디자인을 할 때는 큰 결정을 내려야 합니다. 무엇을 포함하고 무엇을 제외합니까? 당신은 정직 하고 싶어 , 그러나 프레젠테이션도 명확 해야 합니다. 더 많은 데이터와 더 흥미로운 세부 사항이 있을수록 결정은 더 어려워집니다.

이것은 하지 않는 방법의 예입니다.

그래프에 너무 많은 정보가 포함되어 있고 선으로 인해 데이터 포인트를 구별하기 어렵습니다. 디자이너가 일부 데이터를 가리려고 했는지 궁금할 수도 있습니다. 그것이 목적이었다면, 그들은 충분히 성공했을 것입니다. 어쨌든 결과는 쓸모가 없습니다.

자세히 살펴보면 그래프가 장기간에 걸친 시험 응시생의 수와 범위를 나타내는 것으로 나타났습니다. 요점은 대학이 소수 집단과 저소득층의 학생을 더 많이 받아들였다는 것입니다. 검사 결과 이 그룹 내에서 평균 점수가 증가한 것으로 나타났습니다.

데이터 시각화 작업을 시작할 때 먼저 표시하려는 내용과 이를 달성하기 위해 필요한 데이터를 생각하세요. 데이터 변수의 수는 사용할 데이터 시각화의 종류를 결정합니다. 내 요점을 명확하게 전달하는 데 가장 효과적인 데이터 형식은 무엇입니까?

3D 그래픽의 잘못된 사용

청중이 3D 그래프를 좋아할 것이라는 데는 의심의 여지가 없습니다. 그러나 3차원 데이터 시각화를 사용할 때는 주의해야 합니다. 여기에 이유가 있습니다.

이 예를 살펴보십시오.

왼쪽에서 볼 수 있듯이 3D 그래프는 차트의 다른 부분을 차단하여 데이터를 가릴 수 있습니다. 3D 그래프가 자연 공간을 모방하기 때문입니다. 이것은 중요한 데이터 포인트에 대한 시각적 액세스를 허용하지 않을 때 문제입니다. 이것은 잘못된 계층 구조를 만들고 특정 정보를 강조할 수 있습니다.

왜곡 은 3차원 데이터 시각화와 관련된 또 다른 문제입니다. 단축의 결과입니다. 이것은 우리에게 가까운 물체가 멀리 있는 물체보다 크게 보이기 때문에 사진에서 일반적입니다. 그러나 데이터 시각화에서는 이것이 문제입니다. 존재하지 않는 계층 구조의 인상을 주고 데이터 관계를 왜곡합니다.

잘못된 차트 유형 사용

파이 차트는 항목이 2~3개 있을 때 가장 잘 작동합니다. 그것은 인간의 눈이 구별하기에 좋은 숫자입니다. 대부분의 사람들은 항목이 4개 이상인 원형 차트를 이해하는 데 어려움을 겪을 것입니다. 이 파이 차트는 요점을 보여줍니다.

wpDataTables로 만든 차트

중국과 기타 중 어느 것이 더 큽니까?

특정 데이터 유형은 특정 차트 유형을 요구합니다. 특정 차트 유형은 다른 종류의 데이터를 표시하는 데 유용합니다. 잘못된 시각화 접근 방식을 사용하려고 하면 큰 문제에 부딪힐 수 있습니다.

대부분의 경우 보유하고 있는 데이터의 종류에 따라 시각화 방법이 결정됩니다. 우선, 데이터가 정성적(기술적)인지 정량적(측정값)인지 고려하십시오. 질적 정보는 원형 및 막대 차트에 적합합니다. 정량적 데이터에는 히스토그램과 차트를 사용하는 것이 가장 좋습니다.

이 예를 살펴보십시오.

파이 차트와 막대 차트에 동일한 데이터를 표시합니다. 원형 차트는 최고의 데이터 시각화 옵션이 아닙니다. 막대 차트는 보다 정확한 방법으로 숫자를 나타냅니다. 파이의 데이터는 항상 100%까지 합산되지만 여기서는 그렇지 않습니다.

주석을 사용하지 않음

주석을 사용할지 여부는 사용자에게 달려 있습니다. 의무 사항 은 아니지만 좋은 습관 입니다. 차트를 만들 때마다 하는 습관을 들이십시오.

다양한 배경을 가진 사람들이 데이터 시각화를 볼 것입니다. 일부는 시각 자료만 보고, 다른 일부는 더 많은 정보를 원할 것입니다. 그들이 가지고 있는 의심을 명확히 하기 위해 텍스트와 숫자가 필요할 수 있습니다.

다음은 요점을 보여주는 예입니다.

wpDataTables로 만든 차트

모든 것이 좋아 보이고 데이터가 올바르게 표시됩니다. 그러나 데이터 자체를 보면 2019년에 왜 그렇게 급증했는지 의아할 수 있습니다. 주석은 문제를 명확히 하는 데 도움이 될 수 있습니다.

이러한 오해의 소지가 있는 데이터 시각화 예제 이후의 결론

사람들이 데이터를 조작하고 잘못 표현하려고 하는 방법은 여러 가지가 있습니다. 위의 13가지 오해의 소지가 있는 데이터 시각화 예가 가장 일반적인 예입니다.

다른 사람들이 저지른 실수로부터 교훈을 배우십시오. 동일한 것을 만들지 않기로 결정하면 대시보드와 프레젠테이션에 오류가 없습니다. 청중을 염두에 두고 그들에게 무엇을 말하고 싶은지 생각하는 것을 잊지 마십시오.

이러한 지식을 바탕으로 올바른 방식으로 데이터를 표현하고 다른 사람들이 더 나은 정보에 입각한 선택을 하도록 할 수 있습니다.

오해의 소지가 있는 데이터 시각화 예제에 대한 이 기사를 재미있게 읽었다면 다음도 읽어야 합니다.

알아야 할 데이터 시각화 모범 사례
사용할 훌륭한 데이터 시각화 색상표 예
확인해야 할 인상적인 데이터 시각화 예제

피해야 할 잘못된 데이터 시각화 사례

스케일 잘림

Y축 조작

관련 데이터 숨기기

당신의 아름다운 데이터는 온라인에 있을 가치가 있습니다

상관관계와 인과관계

체리 따기

불분명한 로그 스케일링

틀에 얽매이지 않는 시각화

오해의 소지가 있는 원형 차트

누적 데이터 대 연간 데이터

너무 많은 변수

3D 그래픽의 잘못된 사용

잘못된 차트 유형 사용

주석을 사용하지 않음

이러한 오해의 소지가 있는 데이터 시각화 예제 이후의 결론