萍 - 계류지 ㄱ ~ ㄹ/과학 이야기

13 빅데이터에 대한 환상은 금물

浮萍草 2014. 5. 23. 09:44
    ▲ 사회의 통계적 특성을 분석한 윌리엄 페티의‘정치 산술'.
    터넷을 기반으로 하는 빅데이터가 우리 사회의 미래를 완전히 바꿔놓을 모양이다. 빅데이터를 기반으로 하는 새로운 산업도 들불처럼 생겨나고 그 규모도 빠르게 확대될 것이라고 한다. 빅데이터를 통해 기업은 고객 맞춤형 상품이나 서비스를 제공할 수 있게 되고 소비자도 새로운 가능성과 기회를 제공받게 될 것이라고 한다. 미래의 삶을 완전히 바꿔놓을 빅데이터를 외면하는 기업은 시장에서 절대 살아남지 못할 것이라는 섬뜩한 경고도 들린다. 공공 부문에서도 빅데이터의 활용이 크게 늘어날 전망이다. 빅데이터는 국민의 정책 수요를 신속하고 정확하게 파악하여 국민이 원하는 맞춤형 정책 개발의 가장 중요한 수단으로 활용될 수 있기 때문이다.
    ㆍ개인과 사회의 통계적 특성
    인간은 본래부터 유별난 존재다. 외부의 자극이나 생리적 요구에 반응하는 단순한 동물적 본능에 따라 생각하고 움직이는 것을 거부 한다는 점에서 그렇다. 인간은 누구나 자신만의 독특한 개성과 취향을 가지고 철저하게 독립적인 자유의지에 따라 선택하고 행동한다. 본격적인 산업화가 시작되면서 인간이라면 누구나 자유로운 삶을 누릴 수 있는 천부적인 인권을 가지고 있는 평등한 존재라는 인식이 일반화되고 삶의 질이 개선되면서 개인의 선택과 행동을 예측하는 일은 불가능에 가까울 정도로 어려워져 버렸다. 그럼에도 불구하고 많은 사람들로 구성된 집단의 경우에는 통계적 경향성이 나타나기도 한다. 통계학의 핵심인 ‘큰 수의 법칙’이 적용된다는 뜻이다. 대규모 집단에서 나타나는 통계적 특성을 기반으로 하는 통계학은 근대 과학 혁명이 진행되던 17세기 말 영국에서 처음 등장하기 시작했다. 출생과 사망은 아무도 예측할 수 없는 일이지만,한 해 동안 특정한 도시에서 탄생하고 사망하는 사람의 수는 크게 변화하지 않는다는 사실이 밝혀졌다. 영국의 의무대장이었던 윌리엄 페티는 1699년에 저술한 ‘정치 산술’에서 그런 통계적 사실을 국가 통치에 활용할 수 있다고 주장했다.
    ▲ 첨단 정보통신 기술에 의해 가능해진 빅데이터.

    ㆍ국가와 기업의 유용한 정책 결정 수단
    오늘날 통계는 사회의 선택과 특성을 분석하는 사회과학의 가장 중요한 수단으로 자리를 잡았다. 단순한 수준의 인구통계 뿐만 아니라 교육,산업,보건,복지를 포함한 국가의 거의 모든 정책이 통계적 자료를 기반으로 수립되고 집행된다. 거의 모든 국가가 정확한 통계 자료를 확보하기 위해 통계청과 같은 행정기관을 독립적으로 운영하고 있다. 물론 정확한 통계 자료를 확보해서 유용한 통계적 경향을 파악하는 일이 쉬운 것은 아니다. 적지 않은 노력과 예산이 필요하고 통계에 대한 고도의 전문성이 필요한 일이다. 정확한 통계 자료를 수집하고 활용할 수 있는 능력이 국가의 수준을 평가하는 근거가 되기도 한다. 통계는 기업에게도 중요한 정책 결정 수단으로 활용된다. 기업은 자신들이 제공하는 제품과 서비스에 대한 소비자의 반응에 민감할 수밖에 없다. 그렇다고 수많은 소비자들을 추적하는 것은 현실적으로 가능하지 않다. 기업주나 경영자의 개인적인 판단에 따라 투자의 방향을 결정하고 마케팅 전략을 마련하는 시대는 오래 전에 막을 내렸다. 결국 기업도 시장의 변화와 소비자 집단 반응에서 나타나는 통계적 경향성에 의존할 수밖에 없다. 기업이 많은 비용을 투입해서 소비자의 반응에 대한 통계적 분석을 시도하는 것도 그런 이유 때문이다.
    ㆍ표본의 크기가 통계의 질을 결정한다
    통계는 기본적으로 규모가 큰 집단에서 나타나는 특성이다. 통계 자료를 제공하는 집단의 규모가 클수록 통계의 질이 좋아진다는 뜻이다. 그렇다고 통계 자료 수집을 위한 표본을 무한정 확대할 수는 없다. 정확한 통계 자료의 수집에는 상당한 노력과 시간, 그리고 비용이 필요하기 때문이다. 전 국민을 대상으로 하는 인구 통계의 경우에는 기본적인 자료 수집에만 상당한 시간이 걸린다. 인구가 10억이 넘는 중국이나 인도와 같은 국가에서는 현실적으로 정확한 인구 통계가 불가능한 것도 그런 이유 때문이다. 빅데이터는 인터넷을 비롯한 첨단 정보통신 기술을 이용한다. 인터넷 사용자에 대한 개인 정보, 인터넷에서의 활동,휴대폰이나 신용카드의 사용 현황,지하철과 같은 대중교통을 이용한 이동 현황,고속도로의 소통 정보 등에 대해 정확한 자료를 실시간으로 수집하고 분석하는 일이 가능하다. 고성능 컴퓨터와 고속 인터넷을 이용하면 자료의 수집에서 분석에 이르는 모든 과정을 자동화시킬 수도 있다. 일정한 시간 간격마다 반복적으로 같은 내용의 통계 자료를 수집해서 시간의 흐름에 따른 통계적 특성의 변화까지 읽어낼 수 있고 필요한 경우에는 실시간의 대응도 가능하다. 고전적인 통계 분석에서는 감히 상상조차 하기 어려운 일이 현실화될 수 있다는 뜻이다.
    ▲ 통계의 기본이 되는 정상 분포.

    ㆍ빅데이터에도 그늘이 있다
    미래 사회에서 빅데이터는 사회적으로 매우 중요한 의사결정 수단으로 자리를 잡을 것이 분명하다. 그러나 우리가 개발한 모든 기술이 그렇듯이 빅데이터에도 어려움이 있다. 인터넷과 같은 첨단 정보통신 기술을 통해 수집되는 방대한 정보의 품질을 관리하는 일이 쉽지 않다. ‘엉터리 정보가 들어가면, 엉터리 통계가 나온다’(Junk in, junk out)는 지적은 통계에서도 절대 외면할 수 없는 중요한 교훈이다. 방대한 통계 자료의 분석도 쉬운 일이 아니다. 모든 통계가 그렇듯이 분명한 의도를 가진 분석에서 얻은 통계적 결론은 믿을 것이 아니다. 빅데이터의 내용에 대한 고민도 필요하다. 엄밀한 의미에서 통계적 특성은 표본의 겉모습이 시간에 따라 변화하지 않는 ‘평형’(平衡, equilibrium) 상태에서만 기대할 수 있는 것이다. 수많은 분자로 구성되어 열역학적 평형 상태에 있는 화학적 시스템의 경우가 그렇다. 물론 시스템을 이루고 있는 분자 수준에서의 변화는 허용된다. 현대 물리학과 화학에서 사용하는 통계열역학에서는 그런 평형 상태를 특별히 ‘동적’(動的, dynamic) 평형 상태라고 부른다. 동적 평형 상태를 확인하기도 어렵고 표본의 규모도 제한적일 수밖에 없는 사회 통계의 경우에는 아무리 규모가 큰 빅데이터에서 얻은 결론이라고 하더라도 인과성 (因果性)까지 주장하기는 어려운 경우도 충분히 가능하다. 빅데이터가 유용한 것은 사실이지만, 과도한 환상은 금물이라는 뜻이다.
    Premium Chosun         이덕환 서강대 교수 duckhwan@sogang.ac

     草浮
    印萍