Hadoop

우분투(Ubuntu) 하둡(Hadoop) 버추얼 박스 네트워크 설정 (Virtual Box Network)

minwoohi 2019. 6. 5. 22:54

하둡은 분산 컴퓨팅을 통해 빅데이터를 처리할 수 있도록 돕는 프레임워크(?)이다. 실제 실습때 애먹었던 부분들 기록해두고자 포스팅. 우분투 기준으로 작성했고 버추얼박스, 우분투 ios 파일설치과정은 생략. 

하둡은 리눅스 운영체제에서 사용하는 것이 특화되어 있다. 리눅스 관련 명령어, VI에 익숙하면 유리하다.

하둡은 다음 3가지 모드로 구성돼 있다.

 Local (Standalone) Mode 로컬(독립)모드
  로컬 머신에서만 실행되는 모드.
  다른 노드와 통신할 필요가 없기 때문에 HDFS(HaDoop File System)를 사용하지 않으며 다른 데몬들   도 실행시키지 않음
  독립적으로 MapReduce 프로그램의 로직을 개발하고 디버깅하는데 주로 사용


 Pseudo-Distributed Mode [가상분산 모드]
  한대의 컴퓨터로 클러스터를 구성하고, 모든 데몬을 실행함.
  독립실행(standalone) 모드 기능 보완
  – HDFS, 데몬들을 수행시킬 수 있어 완전분산모드에 근접한 환경 제공. 버추얼 박스 통해 여러 개의 노드들이 통신하도록 한다.
 


 Fully-Distributed Mode [완전분산 모드]
  분산 저장과 분산 연산의 모든 기능이 갖추어진 클러스터를 구성
  master - 클러스터의 master 노드로, NameNode와 JobTracker 데몬을 제공
  backup - SNN(Secondary NameNode 데몬)을 제공하는 서버
  slaves - DataNode와 TaskTracker 데몬을 실행하는 slaves 들 

하둡은 n개의 마스터(master) 노드와 n개의 슬레이브(slave) 노드로 구성될 수 있다.(NameNode, DataNode라고도 칭함) 마스터 노드에서 yarn 데몬을 통해 ResourceManager, NodeManger를 동작시켜 슬레이브 노드들의 작업 및 자원을 관리한다. 노드들은 각각 다른 ip를 갖는 서버이며 통신을 할 수 있다는 것이 전제 조건이다. 하나의 컴퓨터에서는 이를 구성할 수 없기 때문에 가상머신과 네트워크 설정을 통해 가상 머신을 통해 수행한 노드들이 통신하도록 한다. 완전 분산 모드와 최대한 가까운 환경을 만드는 것이다. 이것이 가상 분산 모드이다. 이를 위해 각각의 노드들이 다른 IP를 가지고 PING 을 통해 통신되는 것을 확인해야 한다. 

VirtualBox에서 파일 - 환경설정 클릭
네트워크 - 호스트 전용 네트워크 탭에 호스트 전용(Host Only) 네트워크 있는지 확인. 없으면 + 버튼 눌러 기본값으로 추가
이후 우분투 이미지 파일 만들어 생성한 노드에 호스트 전용 네트워크 설정을 해준다. 노드 클릭 후 설정 버튼 클릭 (노란 톱니바퀴) 네트워크 탭 - 어댑터 1 NAT 확인한다. (기본 설정 되어 있을 것이다)
어댑터 2부터는 사용하지 않은 상태일 것이다. 다음과 에 연결됨 : 호스트 전용 어댑터 선택 후 이름에 생성해둔 호스트 전용 네트워크 등록.  다음 설정은 마스터, 노드 동일하게 설정해야 한다.  이후 vm을 켜게 되면 각기 다른 ip가 할당 되는 것을 확인할 수 있을 것이다. ping 명령어를 통해 노드 간 통신을 확인하면 된다.