오해의 소지가 있는 통계는 위험할 수 있습니다(일부 예).

게시 됨: 2022-12-06

사람들은 중요한 정보를 얻기 위해 통계에 의존합니다. 비즈니스 세계에서 통계는 추세를 추적하고 생산성을 극대화하는 데 유용할 수 있습니다. 그러나 때로는 통계가 오해의 소지가 있는 방식으로 제시될 수 있습니다 . 예를 들어, 2007년에 영국의 광고 표준 기관(ADA)은 Colgate 광고에 대한 불만을 접수했습니다.

이 광고는 치과 의사의 80%가 Colgate 치약 사용을 권장한다고 유명하게 주장합니다. ADA가 접수한 불만 사항은 이것이 영국의 광고 규칙 위반이라고 주장했습니다. 문제를 조사한 후 ADA는 광고가 잘못된 통계를 사용하고 있음을 발견했습니다.

많은 치과의사들이 콜게이트 치약을 추천하는 것은 사실입니다. 그러나 그들 모두가 Colgate를 첫 번째 권장 사항으로 언급한 것은 아닙니다. 대부분의 치과의사들은 다른 종류의 치약도 추천했고 콜게이트는 보통 나중에 어느 시점에 등장했습니다.

이것은 오해의 소지가 있는 통계가 사용되는 방법의 한 예일 뿐입니다. 사람들은 삶의 다양한 영역에서 오해의 소지가 있는 통계 사례를 접하게 됩니다. 뉴스, 광고, 정치, 심지어 과학에서도 예를 찾을 수 있습니다.

이 게시물은 오해의 소지가 있는 통계 및 기타 오해의 소지가 있는 데이터를 인식하는 방법을 배우는 데 도움이 됩니다 . 이 데이터가 어떻게 사람들을 오도하는지 논의할 것입니다. 또한 중요한 결정을 내릴 때 데이터를 사용하는 시기와 방법을 배우게 됩니다.

오해의 소지가 있는 통계란 무엇입니까?

통계는 수치 데이터를 수집하고 이를 신중하게 분석한 다음 해석한 결과 입니다. 많은 양의 데이터를 다루는 경우 통계를 갖는 것이 특히 유용하지만 측정할 수 있는 모든 것이 통계가 될 수 있습니다. 통계는 종종 세상과 그것이 작동하는 방식에 대해 많은 것을 드러냅니다.

그러나 그 정보가 우연히라도 오용되면 오해의 소지가 있는 통계가 됩니다. 오해의 소지가 있는 통계는 사람들에게 알리기보다는 사람들을 속이는 잘못된 정보를 제공합니다 .

사람들이 통계를 맥락에서 벗어나면 가치를 잃고 잘못된 결론을 내릴 수 있습니다. "오해의 소지가 있는 통계"라는 용어는 데이터를 잘못 나타내는 모든 통계 방법을 설명합니다. 의도적이든 아니든 여전히 잘못된 통계로 간주됩니다.

통계용 데이터를 수집할 때 염두에 두어야 할 세 가지 원칙이 있습니다. 이러한 시점에서 데이터 분석 문제가 발생할 수 있습니다.

  • 수집: 데이터를 수집하는 동안
  • 처리: 데이터와 그 의미를 분석할 때
  • 프레젠테이션: 발견한 내용을 다른 사람과 공유할 때

작은 표본 크기

표본 크기 설문조사는 오해의 소지가 있는 통계를 생성하는 한 가지 예입니다. 표본 크기의 청중을 대상으로 수행된 설문 조사 또는 연구는 종종 사용할 수 없을 정도로 오해의 소지가 있는 결과를 생성합니다.

예를 들어, 한 설문 조사에서 20명에게 예 또는 아니오 질문을 합니다. 19명 중 19명이 설문에 예라고 응답했습니다. 결과는 95%의 사람들이 그 질문에 예라고 대답할 것임을 보여줍니다. 그러나 이것은 정보가 제한되어 있기 때문에 좋은 조사가 아닙니다.

이 통계는 실제 가치가 없습니다. 이제 1,000명에게 같은 질문을 했을 때 950명이 그렇다고 답했다면 95%의 사람들이 그렇다고 답할 것이라는 훨씬 더 신뢰할 수 있는 통계입니다.

신뢰할 수 있는 표본 크기 연구를 수행하려면 다음 세 가지를 고려해야 합니다.

  • One : 어떤 종류의 질문입니까?
  • 2 : 찾으려는 통계의 의미는 무엇입니까?
  • 세 번째 : 어떤 통계 기법을 사용할 것인가?

신뢰할 수 있는 결과를 얻으려면 샘플 크기 정량 분석에 최소 200명이 포함되어야 합니다.

로드된 질문

중립적인 출처에서 데이터를 찾는 것이 중요합니다. 그렇지 않으면 정보가 기울어집니다. 로드된 질문은 응답을 조작하기 위해 논쟁의 여지가 있거나 정당하지 않은 가정을 사용합니다. 이에 대한 한 가지 예는 "무엇을 좋아합니까?"로 시작하는 질문을 하는 것입니다. 이 질문은 긍정적인 피드백을 수집하는 데 큰 도움이 되지만 유용한 정보를 알려주지는 못합니다. 그것은 그 사람이 자신의 정직한 생각과 의견을 말할 기회를 제공하지 않습니다.

다음 두 질문의 차이점을 고려하십시오.

  • 더 높은 세금을 내포하는 세제 개혁을 지지하십니까?
  • 사회 재분배에 도움이 되는 세제 개혁을 지지하십니까?

질문은 본질적으로 동일한 주제와 관련이 있지만 이러한 각 질문의 결과는 상당히 다를 것입니다. 여론조사는 공정하고 편향되지 않은 방식으로 수행되어야 합니다. 당신은 사람들의 정직한 의견과 사람들이 생각하는 것에 대한 전체적인 그림을 얻고 싶어합니다. 이를 달성하려면 질문이 답을 암시하거나 감정적인 반응을 유발해서는 안 됩니다.

오해의 소지가 있는 "평균" 인용

어떤 사람들은 "평균"이라는 용어를 사용하여 진실을 가리거나 정보를 더 좋게 보이도록 거짓말을 합니다.

이 기술은 숫자를 실제보다 더 크게 또는 더 좋게 표시하려는 경우에 특히 유용합니다. 예를 들어, 신입생을 유치하려는 대학은 해당 학교 졸업생에게 "평균" 연봉을 제공할 수 있습니다. 그러나 실제로 높은 급여를 받는 학생은 소수에 불과할 수 있습니다. 그러나 그들의 급여는 모든 학생들의 평균 소득을 더 높게 만듭니다. 전체 평균에 대해 더 좋아 보입니다.

평균은 불평등을 숨기는 데에도 유용합니다. 또 다른 예로, 한 회사가 직원 90명에게 연간 $20,000를 지급한다고 가정합니다. 하지만 그들의 상사는 1년에 $200,000를 받습니다. 상사의 급여와 직원의 급여를 합하면 회사 구성원의 평균 수입은 $21,978입니다.

서류상으로는 멋져 보입니다. 그러나 직원 중 한 명(상사)이 다른 직원보다 훨씬 더 많은 돈을 벌고 있기 때문에 그 숫자는 전체 이야기를 설명하지 못합니다. 따라서 이러한 종류의 결과는 오해의 소지가 있는 통계로 간주됩니다.

누적 데이터와 연간 데이터

누적 데이터는 시간 경과에 따라 그래프의 정보를 추적합니다. 차트에 데이터를 입력할 때마다 그래프가 올라갑니다.

연간 데이터는 특정 연도의 모든 데이터를 나타냅니다.

각 연도에 대한 추적 정보는 일반적인 추세에 대한 더 정확한 그림을 제공합니다.

누적 그래프의 한 예는 Worldometer COVID-19 그래프입니다. COVID-19 대유행 동안 누적 그래프의 많은 예가 나타났습니다. 그들은 종종 특정 지역의 누적 COVID 사례 수를 반영합니다.

일부 회사는 이와 같은 그래프를 사용하여 매출을 실제보다 크게 표시합니다. 2013년 애플의 CEO 팀 쿡은 아이폰 누적 판매량만 보여주는 프레젠테이션을 사용해 비판을 받았다. 당시 많은 사람들은 그가 iPhone 판매가 줄어들고 있다는 사실을 숨기기 위해 의도적으로 이렇게 했다고 느꼈습니다.

누적 데이터가 모두 나쁘거나 거짓이라는 의미는 아닙니다. 실제로 변경 사항이나 성장 및 다양한 총계를 추적하는 데 유용할 수 있습니다. 그러나 중요한 것은 데이터의 변화에 ​​주의를 기울이는 것입니다. 그런 다음 모든 것을 알려주는 차트에 의존하기보다는 원인을 더 깊이 살펴보십시오.

과도한 일반화 및 편향된 샘플

과잉 일반화는 누군가가 한 사람에게 사실인 것이 다른 사람에게도 사실이어야 한다고 가정할 때 발생합니다. 일반적으로 이 오류는 누군가가 특정 그룹의 사람들과 연구를 수행할 때 발생합니다. 그런 다음 결과가 관련 없는 다른 그룹의 사람들에게도 해당될 것이라고 가정합니다.

대표성이 없는 표본 또는 편향된 표본 은 일반 모집단을 정확하게 나타내지 않는 설문조사입니다.

편향된 표본의 한 예는 1936년 미국 대통령 선거에서 발생했습니다.

당시 유명 잡지인 Literary Digest는 선거에서 누가 이길지 예측하기 위해 설문 조사를 실시했습니다. 결과는 Alfred Landon이 산사태로 이길 것이라고 예측했습니다.

이 잡지는 선거 결과를 정확하게 예측하는 것으로 유명했습니다. 그러나 올해는 완전히 틀렸다. Franklin Roosevelt는 상대보다 거의 두 배의 표를 얻어 승리했습니다.

더 많은 연구를 통해 결과를 왜곡하는 두 가지 변수가 작용한 것으로 나타났습니다.

첫째 , 설문조사에 참여한 대부분의 사람들은 전화번호부와 자동 등록 목록에 있는 사람들이었습니다. 그래서 특정 사회경제적 지위에 있는 사람들만을 대상으로 설문조사를 진행했다.

두 번째 요인 은 Landon에 투표한 사람들이 Roosevelt에 투표하기로 선택한 사람들보다 설문 조사에 더 기꺼이 응답했다는 것입니다. 결과는 그 편향을 반영했습니다.

축 자르기

그래프에서 축을 자르는 것은 잘못된 통계의 또 다른 예입니다. 대부분의 통계 그래프에서 x축과 y축은 아마도 0에서 시작합니다. 그러나 축을 자르는 것은 그래프가 실제로 다른 값에서 축을 시작한다는 것을 의미합니다. 이것은 그래프가 보이는 방식에 영향을 미치고 사람이 그리는 결론에 영향을 미칩니다.

다음은 이를 설명하는 한 가지 예입니다.

이미지 출처

이에 대한 또 다른 예는 최근 2021년 9월에 발생했습니다. 한 Fox News 방송에서 앵커는 기독교인이라고 주장하는 미국인의 수를 보여주는 차트를 사용했습니다. 차트는 자신을 기독교인이라고 밝힌 미국인의 수가 지난 10년 동안 급격하게 감소했음을 보여줍니다.

다음 그래프에서 2009년에 미국인의 77%가 기독교인임을 알 수 있습니다.

이미지 출처

2019년에는 그 수가 65%로 감소했습니다. 실제로는 큰 감소가 아닙니다. 하지만 이 차트의 축은 58%에서 시작하여 78%에서 멈춥니다. 따라서 2009년부터 2019년까지의 12% 감소는 실제보다 훨씬 더 급격하게 나타납니다.

인과관계

연결된 것처럼 보이는 두 데이터 포인트 사이의 연결을 쉽게 가정할 수 있습니다. 그러나 상관관계가 인과관계를 의미하지는 않는다고 합니다. 왜 이렇게이다?

이 그래프는 상관관계가 인과관계와 같지 않은 이유를 보여줍니다.

이미지 출처

연구자들은 종종 새롭고 유용한 데이터를 발견해야 한다는 압박을 많이 받습니다. 따라서 섣부른 결론을 내리려는 유혹은 항상 존재합니다. 그렇기 때문에 각각 상황에서 실제 원인과 결과를 찾는 것이 중요합니다 .

백분율을 사용하여 숫자 및 계산 숨기기

백분율은 정확한 수치를 숨기고 실제보다 더 평판이 좋고 신뢰할 수 있는 결과를 표시할 수 있습니다.

예를 들어 3명 중 2명이 특정 청소 제품을 선호한다면 66.667%의 사람들이 해당 제품을 선호한다고 말할 수 있습니다. 이렇게 하면 특히 소수점 뒤의 숫자가 포함되어 있어 숫자가 더 공식적으로 보입니다.

다음은 소수점과 백분율이 진실을 가릴 수 있는 몇 가지 다른 방법입니다.

  • 원시 숫자와 작은 샘플 크기 숨기기 . 백분율은 원시 숫자의 절대값을 모호하게 합니다. 따라서 부자연스러운 숫자나 작은 샘플 크기 결과를 숨기려는 사람들에게 유용합니다.
  • 다른 기반을 사용합니다. 백분율은 기반이 되는 원래 숫자를 제공하지 않기 때문에 결과를 쉽게 왜곡할 수 있습니다. 누군가 하나의 숫자를 더 보기 좋게 만들고 싶다면 다른 밑수를 사용하여 해당 숫자를 계산할 수 있습니다.

이것은 New York Times가 노조원에 대해 발표 한 보고서에서 한 번 일어났습니다. 노동자들은 1년에 20%의 급여를 삭감했고, 다음 해 타임즈는 노조원들이 5% 인상을 받았다고 보도했습니다. 그래서 삭감된 급여의 4분의 1을 돌려받았다고 주장했습니다.

그러나 근로자들은 감봉 이전 임금이 아닌 현재 임금을 기준으로 5% 인상된 임금을 받았다. 따라서 서류상으로는 괜찮아 보였지만 20%의 임금 삭감과 5%의 인상은 서로 다른 기준으로 계산되었습니다. 두 숫자는 실제로 전혀 비교되지 않았습니다.

불리한 데이터 선별/폐기

"체리 따기"라는 용어는 나무에서 가장 좋은 열매만 따는 아이디어에 기반을 두고 있습니다. 그 열매를 본 사람은 그 나무의 모든 열매가 똑같이 건강하다고 생각할 수밖에 없습니다. 분명히, 반드시 그런 것은 아닙니다.

이와 동일한 원칙이 기후 변화의 경우에도 적용됩니다. 많은 차트는 데이터 프레임을 2000년부터 2013년까지의 기후 변화만 표시하도록 제한합니다.

결과적으로 온도 변화와 이상 현상이 일관되고 크게 변하지 않는 것으로 나타납니다. 하지만 한 걸음 물러서서 큰 그림을 보면 변화와 이상 현상이 어디에 있는지 명확해집니다.

이것은 수의학 분야에서도 발생합니다. 수의사에게 새로운 시험 약의 결과를 제시하도록 요청하면 최상의 결과를 제시하는 경향이 있습니다. 특히 제약 회사가 임상시험을 지원하는 경우 최상의 결과만 보고 싶어합니다.

당신의 아름다운 데이터는 온라인에 있을 자격이 있습니다

wpDataTables 는 그렇게 할 수 있습니다. 응답성이 뛰어난 표와 차트를 생성하기 위한 최고의 WordPress 플러그인인 데에는 그만한 이유가 있습니다.

야생에서 wpDataTables의 실제 예

그리고 다음과 같이 하는 것은 정말 쉽습니다.

  1. 당신은 테이블 데이터를 제공합니다
  2. 구성 및 사용자 지정
  3. 게시물 또는 페이지에 게시

예쁘기만 한 것이 아니라 실용적이기도 합니다. 최대 수백만 개의 행이 있는 대형 테이블을 만들거나 고급 필터 및 검색을 사용하거나 편집 가능하게 만들 수 있습니다.

"예, 하지만 저는 Excel을 너무 좋아하고 웹사이트에는 그런 것이 없습니다." 네, 있습니다. Excel 또는 Google 스프레드시트와 같은 조건부 서식을 사용할 수 있습니다.

데이터로 차트도 만들 수 있다고 말씀드렸나요? 그리고 그것은 단지 작은 부분입니다. 다른 많은 기능이 있습니다.

데이터 낚시

데이터 준설이라고도 하는 데이터 피싱은 상관관계를 찾기 위해 대량의 데이터를 분석하는 것입니다. 그러나 이 게시물의 앞부분에서 설명한 것처럼 상관관계가 인과관계를 의미하지는 않습니다. 오해의 소지가 있는 통계만 나올 뿐이라고 주장합니다.

산업 현장에서 데이터 피싱 사례를 매일 볼 수 있습니다. 일주일 후 데이터 마이닝에 대한 스캔들이 공개되고 일주일 후 훨씬 더 터무니없는 보고서로 반박됩니다.

이러한 종류의 데이터 분석의 또 다른 문제는 사람들이 자신의 견해를 뒷받침하는 데이터만 선택하고 나머지는 무시한다는 것입니다. 모순되는 정보를 생략함으로써 결과가 더 설득력 있게 보입니다 .

혼란스러운 그래프 및 차트 레이블

COVID-19 대유행이 시작되었을 때 그 어느 때보다 더 많은 사람들이 바이러스 확산의 데이터 시각화에 눈을 돌렸습니다. 통계의 시각적 표현으로 작업할 필요가 없었던 사람들이 갑자기 통계 데이터의 깊은 끝에서 내던져졌습니다.

게다가 조직은 종종 사람들의 정보를 빨리 얻으려고 노력했습니다. 때때로 그것은 정확한 통계를 희생하는 것을 의미했습니다. 이로 인해 잘못된 통계와 데이터의 잘못된 해석이 급증했습니다.

COVID-19가 확산되기 시작한 지 약 5개월 후, 미국 조지아 공중 보건부는 다음 차트를 발표했습니다.

차트의 목적은 지난 15일 동안 COVID 사례가 가장 많은 5개국과 일정 기간 동안의 사례 수를 표시하는 것이었습니다.

이 차트에는 오해하기 쉬운 몇 가지 오류가 있습니다. 예를 들어 x축에는 시간 경과에 따른 사례의 진행을 나타내는 레이블이 없습니다.

설상가상으로 차트의 날짜가 연대순으로 구성되어 있지 않습니다. 4월과 5월의 날짜가 차트 전체에 흩어져 있어 사례 수가 꾸준히 감소하고 있는 것처럼 보입니다. 또한 각 국가는 사례가 감소하고 있는 것처럼 보이도록 나열됩니다.

나중에 그들은 더 잘 조직된 날짜와 카운티로 차트를 다시 게시했습니다.

부정확한 숫자

오해의 소지가 있는 통계의 또 다른 예는 부정확한 숫자의 형태입니다. 오래된 Reebok 캠페인에서 이 문구를 주목하십시오.

광고는 이 신발이 다른 운동화보다 사람의 햄스트링과 종아리를 11% 더 단단 하게 만들고 사람의 엉덩이 를 최대 28% 더 탄탄하게 할 수 있다고 주장합니다. 그 사람이 해야 할 일은 운동화를 신고 걷는 것뿐입니다.

이러한 수치는 Reebok이 신발의 이점에 대해 광범위한 연구를 수행한 것으로 보입니다.

현실은 그 숫자가 완전히 조작되었다는 것입니다. 브랜드는 이러한 오해의 소지가 있는 통계를 사용한 것에 대해 페널티를 받았습니다. 그들은 또한 진술을 변경하고 가짜 번호를 제거해야 했습니다.

통계의 오용을 피하고 식별하는 방법

통계는 매우 유용할 가능성이 있습니다. 그러나 오해의 소지가 있는 통계는 사람들을 혼란스럽게 하고 속일 가능성도 있습니다. 통계는 진술에 권위를 부여하고 사람들이 특정 주장을 신뢰하도록 설득합니다.

견고하고 정확한 통계는 사람들에게 통찰력을 제공하고 결정을 내리는 데 도움이 됩니다. 그러나 잘못된 통계는 위험 합니다. 그들은 사람들이 함정과 움푹 들어간 곳을 피하도록 돕는 대신 사람들을 그들이 피하고 싶은 상황으로 바로 인도합니다.

그러나 잘못된 통계 및 데이터를 식별하는 것은 가능합니다. 통계를 발견하면 멈추고 다음 질문을 하십시오.

  • 이 데이터의 출처는 어디입니까?
  • 소스가 제어됩니까? 아니면 표본 크기의 실험입니까?
  • 이 결과에 영향을 미칠 수 있는 다른 요인은 무엇입니까?
  • 정보가 나에게 정보를 제공하려고 하는가, 아니면 미리 결정된 결론으로 ​​나를 인도하는가?

데이터를 수집하든 다른 사람의 연구 결과를 보든 데이터가 정확한지 확인하십시오. 그렇게 하면 오해의 소지가 있는 통계가 확산되지 않습니다 .

오해의 소지가 있는 통계에 대한 이 기사를 재미있게 읽었다면 다음 내용도 읽어야 합니다.

  • 온라인에서 찾을 수 있는 가장 인상적인 대화형 데이터 시각화
  • 찾을 수 있는 최고의 WordPress 데이터 시각화 도구
  • 최고의 데이터 시각화 도구 및 플랫폼