사이드 프로젝트[001]. 시작
1. 개 요 : 삼성멀티캠퍼스 데이터엔지니어링 과정 사이드 프로젝트(10. 5 ~ 10.20.)
2. 목 표 : Spark(Standalone) 구축 및 Jupyter notebook, MongoDB(NoSQL) 연동
3. 시스템 구성
- 시스템 환경 : unbuntu20.04, 40G, 2G RAM
- spark 3.0.3, MongoDB 4.4.8
- jupyter notebook
4. 시스템 구축 목표
- Spark ML이나 SQL에서 MongoDB에 저장된 데이터를 Jupyter notebook에서
활용할 수 있도록 구축
5. NoSQL을 사용한 이유..
실은 과정중에 몽고디비 얘기를 너무 많이 들어서.. 귀에 박혀버린 바람에 ..
그냥 연동해보고 싶었다.. 그래도.. 좀 그럴 듯한 이유가 있으면 좋을거 같아
검색을 좀 해봤다..
Spark도 제대로 못배운 마당에.. 개인적으로 검색하고 고민하는게 참 어렵다.
그래도 MongoDB를 연동한 그럴 듯한 이유를 끄적여 본다.
1. 온라인 쇼핑과 여행 예약을 하면서 발생하는 다양한 데이터들 구매취소, 사기,
구매중 구매자와 판매자 간의 대화, 장바구니에 담았다가 삭제한 이력들 등
디테일하게 보면 정말 많은 다양한 유형의 데이터들이 생성된다.
그런데 실시간으로 발생하는 다양한 유형의 데이터들을 RDBMS 유형의
DB에 저장/처리하기에는 개발에 입문한 사람의 생각으로서는 정말 DB계의
고수가 아닌이상에야 힘들거같아 보인다.
여러 소스의 데이터를 결합하고 제공하는데는 NoSQL만한게 없지않나...
(데이터 중복이 많이 발생할거 같긴하지만.. 뭐.. 시간이 중요하니까.. 그냥하자..)
물론 나는 이런 분야를 배운지 얼마 안됐다.. 단순한 나의 생각에 이해를..