2018. 5. 10. 20:34

빅데이터 분석 플랫폼, `아파치 스파크`

아파치 스파크(Apache Spark)는 2009년 버클리대학교의 AMPLab에서 소소하게 시작된 이후, 발전을 거듭해 세계에서 가장 중요한 빅데이터 분산 처리 프레임워크 가운데 하나로 부상했습니다. 스파크는 다양한 방법으로 배포가 가능하고 자바, 스칼라, 파이썬, R 프로그래밍 언어를 위한 네이티브 바인딩을 제공하며 SQL, 스트리밍 데이터, 머신러닝 및 그래프 처리를 지원합니다.

은행, 통신업체, 게임업체, 정부를 비롯해 애플, 페이스북, IBM, 마이크로소프트와 같은 모든 주요 IT 기업들이 아파치 스파크를 사용하는데 스파크는 기본 상태에서 클러스터의 각 머신에 아파치 스파크 프레임워크와 JVM만 있으면 되는 독립형 클러스터 모드로 실행이 가능하지만 리소스 또는 클러스터 관리 시스템을 활용해 수요에 따라 작업자를 할당하고자 하는 경우가 더 많습니다.

기업에서 이는 일반적으로 하둡 얀(YARN)에서 실행하는 것을 의미하지만 아파치 스파크는 아파치 메소스에서도 실행됩니다. 현재 쿠버네티스(Kubernetes)에 대한 네이티브 지원을 추가하기 위한 작업이 진행 중입니다. 매니지드 솔루션을 찾는다면 아마존 EMR, 구글 클라우드 데이터프록(Google Cloud Dataproc) 및 마이크로소프트 애저 HD인사이트(HDInsight)에서 아파치 스파크를 찾을 수 있습니다.

아파치 스파크 창립자들을 채용한 업체 데이터브릭스(Databricks)는 아파치 스파크 클러스터, 스트리밍 지원, 통합 웹 기반 노트북 개발, 표준 아파치 스파크 배포판에 비해 최적화된 클라우드 I/O 성능을 갖춘 포괄적인 매니지드 서비스인 데이터브릭스 유니파이드 애널리틱스 플랫폼(Databricks Unified Analytics Platform)을 제공합니다.