회사에서 빅데이터 추진 팀을 맡게 되었는데, 빅데이터를 실제 실무에 도입하는 입장에서 이런 저런 고민들을 정리하고 공유하면 좋을 것 같아서 부족하지만 포스팅을 시작해 봅니다.


빅데이터를 설명할 때 많이 사용하는 3V(Volume,Variety,Velocity)가 Veracity(정확성)나 Value(가치)를 추가해서 4V가 되고Veracity와 Value 둘다 포함하는 5V로 진화를 하고 있는 것을 볼 때, 3V가 빅데이터에 대한 단순한 특징을 얘기했다면 4V와 5V로 넘어 가면서 빅데이터의 활용과 효과에 대한 고민이 생겨났다고 볼 수 있습니다. 어쩌면 그동안 빅데이터에 대한 모호한 목표 설정으로 거대한 자원과 리소스등을 투입했지만 투자 대비 효과를 만들어 내지 못하고 실패 사례가 되어버리는 걸 경험한 기업들의 빅데이터를 바라보는 기준이 많이 달라졌기 때문이기도 할텐데요. 그럼 빅데이터가 구체적으로 뭘까요?

빅데이터는 일반적으로 다음의 특징(3V)을 가진다고 합니다. 


Volume : 적재된 데이터의 양

Velocity : 데이터 처리 속도 

Variety : 데이터의 다양성


하지만 곰곰히 생각해보면 가장 중요한 기준이 빠져 있는데요. 양이 얼마 이상이 되어야 빅데이터고, 속도의 기준은 무엇이며, 얼마나 다양한 것이 빅데이터 인가? 이런 모호한 기준에 대한 좀 구체적인 방식으로 정의해 봤습니다. 일단 멋진 버전은 아래와 같습니다.


"빅데이터란 기업이 필요한 분석이나 서비스를 함에 있어서,

 기존의 시스템으로 필요한 시간내에 처리하지 못하는 다양한 종류의 많은 양의 데이터 뜻하며,

 그것을 처리하는 기술을 빅데이터 테크놀러지라고 한다."


다른 말로 바꿔보면 다음과 같습니다. 


"지금 구축되어 있는 시스템이나 기술로 처리할 수 없는 다양하고 큰 데이터"


이런 기준에서 본다면, 예를 들어, 100억 건의 데이터를 적재하고 분석해야하는 것도 빅데이터이지만, 객관적으로는 그리 크지 않은 데이터지만 현재 구축된 시스템으로 한달이 걸리는 작업을 빅데이터 기술을 통해 하루나 매시간 추출이 가능해져서 실제 서비스나 실무에 적용할 수 있다면 그것도 상대적인 의미에서는 빅데이터라고 할 수 있지 않을까? 합니다.


아직 좀 피부에 와닿지는 않지만 빅데이터를 어떻게 기업에 도입하는 것이 좋을지에 대해서 얘기해 보면 좀 더 구체적으로 이해가 되지 않을까 싶은데요. 다음에는 기업에서 빅데이터를 도입하는 방법과 사례에 대해서 얘기해 보도록 하겠습니다.








+ Recent posts