본문 바로가기

IT 트렌드

빅데이터(BigData) 8부 - 빅데이터의 장, 단점은 무엇일까?

반응형

지금까지는 빅데이터가 나온 이유와 개념 등에 대해 알아보았다.

 

 

앞 선 글 내용을 다 보았다면 빅데이터라는 것을 단순히 큰 데이터, 많은 데이터만을 뜻하는 것이 아니라는 것을 알게 되었을 것이다.

 

빅데이터 분석이라고도 많이 말하지만 빅데이터라는 단어 내에는 결국 많은 데이터를 기반으로 특정 결과를 이끌어내는 프로세스라는 의미를 내포하고 있다. 이 특정 결과를 위해서는 적절한 기준과 분석 기법이 주어져야하는 것은 당연하다.

 

적절한 기준과 분석 기법은 누가 정할까...? 바로 사람이다.

오늘은 빅데이터라는 것도 결국 다루는 사람이 중요하다는 것을 빅데이터가 가지는 장단점을 통해 알아보려고 한다.

빅데이터의 장점

* 미래 예측

여러분에게 특정 데이터가 많으면 무엇부터 할 것인가? 필자는 통계를 내고 그 통계를 기반으로 한 예측을 할 것이다. 정말 단순하지만 인간은 기본적으로 자신이 쌓은 경험이나 지식들을 바탕으로 예측한다.

 

출처 : http://www.ecumenian.com/news/articleView.html?idxno=18703

 

'물 묻은 손으로는 전자제품을 만지지 않는다.', '여자친구의 나 살찐 것 같지 않아?'라는 대답에는 끝까지 '아니다'라고 대답한다. 등 이런 행동들은 결코 그냥 나온 것이 아니라 여러분의 경험과 지식에서 나온 것들이다.

 

즉, 빅데이터는 미래를 예측할 수 있다.

* 환경 개선

빅데이터를 이용하면 예측도 할 수 있지만 문제도 파악할 수 있다.

필자가 이렇게 블로그를 사용하고 있지만 방문객 수가 많지 않다. 왜 그런지 파악하기 위해 수 많은 웹 페이지를 돌아다니던 중 '태그'의 중요성을 알게 되었다.

 

블랙위키 : 키워드 통계 및 분석 사이트

 

즉, 인기있는 태그를 사용해야 블로그의 노출률을 높일 수 있다는 것을 깨달은 것이다. 그래서 태그를 쓸 때 고민하게 되었고 지금은 전보다는 훨씬 많은 방문자 수를 보유하게 되었다.

 

이렇게 필자의 블로그 관련 자료를 찾다보니 태그의 사용률을 분석해 주는 사이트들도 많이 있다는 것을 알게 되었다.

 

이처럼 빅데이터는 문제를 발견하고 그 문제를 해결해하는데 아주 유용하게 사용된다.

빅데이터의 단점

* 개인정보

이 빅데이터 붐으로 인해 무분별하게 개인정보를 수집하는 상황이 발생하게 되었다. 극단적인 예로 2020년 12월에 오픈한 '이루다'라는 서비스가 있다. 챗봇으로 큰 인기를 끌었지만 사생활 침해 등의 문제로 현재 서비스가 중단된 상태이다.

 

이루다 챗봇 / 출처 : https://biz.chosun.com/site/data/html_dir/2021/01/08/2021010801256.html

* 미래 예측

정말 빅데이터의 예측을 믿을 수 있을까? 당연히 믿을 수 없다.

기상 데이터만을 다루는 기상청만 봐도 100% 정확도를 보장하지 못한다.

 

출처 : https://www.hankookilbo.com/News/Read/A2020072214140001639

 

하물며 현실, 인터넷 상에 떠도는 데이터를 모아서 분석한다면 그 정확도는 훨씬 떨어질 수밖에 없다.

* 수집한 데이터의 신뢰도

 

출처 : http://www.yes24.com/Product/Goods/61188198

 

'모두 거짓말을 한다.'라는 책을 보면 현장에서 실시한 설문조사의 데이터는 신뢰도가 매우 낮다는 내용이 나온다. 사람은 누구나 다른 사람에 잘 보이고 싶어 하는 심리가 있기 때문에 무의식적으로 좋게 설문은 한다고 한다.

* 분석 결과의 상관관계와 인과관계

빅데이터를 통해 결과를 도출했다고 하자. 그러면 이 결과는 과연 우리는 상관관계와 인과관계의 구분을 정확히 할 수 있을까?

 

아래는 나무위키에서 가져온 예시이다. 한 번 읽어보자.

 

출처 : https://bit.ly/2Tlx4s5

 

한 연구자가 아이스크림 판매량의 연중 증감 추이를 확인했다. 그리고 연중 익사 사망자의 증감 추이를 함께 놓고 두 변인 간의 상관분석을 시행해 보았다. 결과는 놀라웠다. 무서울 정도로 명백한 상관관계가 나타나고 있었다. 아이스크림 판매량이 급증하는 동안, 익사 사망자 수도 함께 증가하고 있었으며, 판매량이 감소하는 동안 익사 사망자 수도 감소하고 있었던 것이었다.

연구자는 몸서리를 치면서 다음과 같은 결론을 내렸다. "익사 사망자의 증감은 아이스크림이 그 원인이다."

폭력적인 영상을 본 어린이는 폭력적인 사람으로 변하게 될까? 물론 그럴 수도 있겠지만, 폭력적인 것을 원래 좋아하기 때문에 폭력적인 영상을 보는 건 아닐까? 자살을 부추기는 음악을 반복해서 듣게 되면 멀쩡한 사람도 자살하게 될까? 그렇다고 섣불리 판단하기 전에, 애초에 우울증과 스트레스, 약물 남용으로 고통받던 사람이 자살을 부추기는 음악에 빠져드는 건 아니었을까? 종교적 교리가 멀쩡한 사람을 반지성적, 반 계몽적으로 만들까? 아니면 거꾸로, 종교 의례나 공동체적 결속이 무지한 사람들에게 더 호소력을 갖고 있는 건 아닐까? 

 

위 예시를 읽었다면 꼭 나무위키 상관관계와 인과관계를 보고 오자.

* 원인의 부재

데이터 분석을 통해 나온 데이터로 원인을 파악하기는 힘들다. 예를 들어 '카페 고객들이 점심시간에는 아이스 아메리카노를 많이 주문한다.'는 결과를 얻었다고 하자. 과연 그 이유는 무엇일까? 여러분은 알 수 있는가?

 

출처 : https://www.cuinsight.com/big-dataanalytics-the-curse-of-the-black-box.html

 

결과만 중요할 때도 있지만 반드시 그 원인을 알아야 할 때도 있다.

단순한 예로 기업에서 빅데이터를 활용 결과 직원들의 회사 만족도가 낮았으며 '쉼터 개설', '어린이집 개설' 등의 요구가 많았다고 하자. 그래서 회사에서는  쉼터와 어린이집 개설 등 많은 돈을 투자했다. 하지만 직원들의 만족도는 전혀 높아지지 않았다.

 

위와 같은 경우 직원들의 만족도가 변하지 않은 원인을 정확히 파악해야 한다. 하지만 통계로는 그 원인을 알 수 없다.

* 결과 수치에 치중하게 된다.

숫자와 결과에만 현혹되어 제대로된 판단을 하지 못할 수 있다.

'일을 잘한다는 것', '뉴타입의 시대' 라는 책에는 아래와 같이 설명한다.

 

출처 : http://www.yes24.com/

 

현재 시대는 변했다. 과거에는 많은 문제, 적은 해결 방법으로 인해 문제 해결에만 집중했지만 지금은 한 문제에 대한 해결법이 너무 많이 존재한다. 그래서 문제의 발견이 중요하다. 이런 문제 발견에서는 단순 수치를 통한 미래 예측이 중요한 것이 아니라 미래 구상이 중요하다.

필자의 사견

빅데이터는 우리에게 큰 편의를 줄 수 있지만 완벽한 것은 아니다. 이 역시 단점이 확실하다는 것을 잊어서는 안 된다. 위와 같은 빅데이터의 장단점을 보면 우리에게 사람이 중요하다는 것을 말해주고 있는 것 같다는 생각이 든다. 빅데이터에서 가장 중요한 것은 이를 다루는 사람이다. 상상해 보자. 빅데이터를 다루는 사람이 잘못된 기준을 가졌다면...? 잘못된 분석 기법을 사용했다면...? 예측된 그 미래는 어떨지.

반응형