앞선 글에서는 빅데이터의 간단한 개념과 갑자기 이 개념이 뜨기 시작했는지 알아보았다. 궁금하면 아래 링크를 보고 오자.
빅데이터(BigData) 1부 - 빅데이터? 그래서 그게 뭔데?!
빅데이터(BigData) 2부 - 빅데이터? 왜 갑자기 떡상...?
그러면 도대체 이 빅데이터라는 녀석에 포함되는 데이터는 일반적으로 사용하는 데이터와 무엇이 다르길래 특수한 툴이나 개념이 필요한 것일까? 이를 알기 위해서는 먼저 일반적인 데이터는 어떤 형태를 가지는지 확인해 보도록 하자.
일반 데이터
사실 데이터라는 개념은 광범위하기 때문에 무엇이든 될 수 있다. 그렇기 때문에 여기서의 일반 데이터라고 하는 것은 실제로 활용이 가능한 데이터로 그 개념을 제한할 것이다. 무슨 말인지 어려우니 차근차근 살펴보자.
먼저 가계부를 떠올려보자. 가계부라는 것을 단순히 표현하면 나의 수입과 지출을 기록하는 것을 뜻한다.
A 씨는 처음에는 한 달에 한 번 가계부를 작성했다.
1월 : 수입 : 100만 원 / 지출 : 50만 원 / 잔고 : 50만 원
2월 : 수입 : 100만 원 / 지출 : 40만 원 / 잔고 : 50만 원 + 60만 원
...
그런데 A 씨는 평일과 주말의 지출 정도를 알고 싶다는 생각을 한다.
1월 1주 평일 : 수입 25만 원 / 지출 8만 원 / 잔고 : 17만 원
1월 1주 주말 : 수입 0원 / 지출 7만 원 / 잔고 : 10만 원
...
이제 A 씨는 내가 어디에 어디 분야에 지출을 많이 하는지 알고 싶어 졌다.
그래서 매일 수입, 지출을 기록했으며 지출 내역을 세분화시켜서 작성했다. 그 결과는 아래와 같다.
지금까지 우리는 일반 데이터를 보았다. 어떤가? 느낌이 조금 오는가? 아직 느낌이 안 온다면 이 일반 데이터의 특징을 살펴보자.
- 필요한 자료가 정해져 있다. (수입, 지출, 지출한 곳)
- 수입, 지출 모두 숫자 형태로 동일하다.
- (통계) 표현이 쉽다. 그냥 다 더하고 비율만 구하면 된다.
- 활용도가 정해져 있다. 크게 변할 일이 없다.
즉, 우리가 일반적으로 활용하는 데이터들은 모두 우리가 규칙을 먼저 정해놓고 거기에 맞는 값을 넣게 된다. 그래서 IT 하는 사람들은 알겠지만 항상 어떤 서비스를 만들 때 데이터베이스 구조(데이터들의 관계나 들어오고 나가는 형태에 대한 틀)를 반드시 설계한다. 그럼 빅데이터는 어떨까?
빅데이터의 데이터
일단 어떻게 활용될지는 모르지만 빅데이터를 활용하는 기업들은 거의 모든 데이터를 수집한다. 사용자가 무엇을 클릭했고, 무엇을 좋아요 누르고 바로 취소했는지, 위치는 어디인지, 각 영상들을 몇 초동안 보았는지, 무슨 글이 올라왔고, 무슨 영상이 올라왔는지 등...
이런 데이터들이 일반 데이터와 다른 점은 무엇일까? 가계부 데이터의 특징과 비교해보자.
- 어디에 활용될 데이터인지 명확하게 분류할 수 없다.
앞서 본 가계부 데이터와 비교해 보자. 가계부에 입력될 데이터는 그 목적과 활용 방안이 명확하다고 할 수 있다. 하지만 사용자가 클릭한 것, 좋아요 누른 것, 현재 위치, 올린 글 등은 목적에 따라 활용 방법이 무수히 많다. - 들어오는 데이터 형태가 다양하다.
가계부에 들어오는 데이터는 숫자로 확실히 정해져 있다. 하지만 이 빅데이터에 활용되는 정보는 영상, 텍스트, 위치, 숫자 등 너무 다양한 형태로 데이터가 수집된다. - 결과 표현이 어렵다.
예를 들어 어떤 사용자가 좋아하는 영상 종류를 알아낸다고 하자. 단순히 사용자가 클릭한 영상의 데이터만 분석하면 될까? 좋아요를 누른 영상과 안 누른 영상의 차이는? 클릭한 영상을 10초만 보고 껐다면? 무수히 많은 변수가 존재하기 때문에 결과로 도출하기 어렵다. - 활용 방법이 셀 수 없이 많다.
사용자들의 위치를 이용하여 유동인구 파악도 가능하고 해당 위치에서 올라온 글을 파악하여 어디가 맛집인지, 어디가 유명한 장소인지 등 다양하게 활용할 수 있다. 즉, 데이터 조합을 조금만 바꿔도 새로운 활용 방법을 찾아낼 수 있다.
결론
사실 쉽게 표현한다고 정확한 명칭을 사용하진 않았지만 위에서 나누 두 데이터 형태를 각각 정형 데이터, 비정형 데이터라고 부른다. 정형 데이터는 복잡도도 낮기 때문에 그렇게 큰 성능을 필요로 하진 않지만(당연히 데이터 양이 엄청나게 많으면 고성능을 필요로 한다.) 비정형 데이터는 복잡도가 높아 기존에 사용하던 성능이나 기술로는 처리가 힘들다는 것을 체감상 알 수 있다. 그래서 하둡(Hadoop)과 NoSQL과 같은 툴, 개념이 나온 것이다.
필자의 사견
IT업계에 종사하는 사람들은 다 알겠지만 빅데이터라는 개념이 떠오르면서 NoSQL의 개념도 함께 떠오르기 시작했다. 그 당시 이 NoSQL은 기존의 관계형 데이터베이스(RDB)의 근간을 흔들 정도였다고 필자는 생각한다. 하지만 두 개념이 장, 단점이 확실하고 사용될 분야도 확실히 이제는 자리 잡았다고 생각한다. 그러면 과연 이
다음 편에서 알아보자.
'IT 트렌드' 카테고리의 다른 글
빅데이터(BigData) 5부 - NoSQL(Not only SQL) 왜 너가 선택되었니? (0) | 2021.07.12 |
---|---|
빅데이터(BigData) 4부 - 기존 기술(관계형 데이터베이스)로는 힘들어요! - 관계형 데이터베이스 먼저 파악하기 (0) | 2021.07.09 |
빅데이터(BigData) 2부 - 빅데이터? 왜 갑자기 떡상...? (0) | 2021.07.05 |
빅데이터(BigData) 1부 - 빅데이터? 그래서 그게 뭔데?! (0) | 2021.07.03 |
DT(Digital Transformation) 7부. - 디지털 전환, 그 끝은 어디인가? (0) | 2021.06.30 |