본문 바로가기

Hadoop

(4)
Hadoop - HDFS 명령어 = HDFS 명령어 구조 # HDFS 명령어 구조 $ hdfs dfs -cmd # cmd: 지정한 파일 명령어 # : 각 명령에 따른 인자들 = HDFS 아키텍처 및 커맨드 환경 = 주요 명령어 : 전반적으로, linux 명령어와 유사함 hdfs dfs -ls / : HDFS의 루트 디렉토리 안에 있는 파일 나열하기 (리스트) hdfs dfs -mkdir /test : /test 디렉토리 만들기 hdfs dfs -put test /test : 로컬 디렉토리에 있는 파일(첫번째 arg)을 HDFS(두번쨰 arg)로 복사 hdfs dfs -cat /test/test : HDFS 파일 내용 확인 hdfs dfs -get /test/test testlocal : HDFS로 복사했던 test 파일(첫번째 arg)..
Hadoop - MapReduce 프로그래밍 MapReduce 프로그래밍은 개발자가 직접 해야한다. =자바(Java) MapReduce 프로그램을 가장 완벽하게 작성 가능 객체 지향 언어 많은 개발 경험 필요 가장 많은 코드량 발생 = 하이브(Hive) SQL로 하둡 데이터를 분석하려는 SNS 엔지니어들의 요구로 SNS 내부에서 개발되었다가 오픈 소스로 공개됨 데이터 요약, 쿼리 및 분석을 제공하기 위해 하둡 위에 구축된 데이터웨어 하우스 소프트웨어 프로젝트 = 피그 (Pig) 하둡의 복잡한 추출, 변환, 적재 작업을 손쉽게 함 다수의 중간 결과물이 필요한 복잡한 분석 쿼리에도 적합 대량의 조인 연산이나 중간 테이블이 필요한 경우에 주로 사용 관계형 기본 함수 및 사용자 정의 함수로 기능 확장 가능 = MapReduce Java 프로그래밍 예제 :..
Hadoop - ubuntu에 하둡 설치하기 1] ubuntu에 open-jdk 설치하기 hadoop 2.x 대 사용시, jdk 7version 설치 필수! (8은 hadoop 3.0 이상부터 지원) $ sudo apt update # 상황에따라 다른 open jdk를 사용할 수도 있음 (ex) julu-openjdk-8 등..) $ sudo apt install openjdk-8-jdk -y # Java 설치확인 $ java -version $ javac -version 2] 계정 생성 (선택) => 클러스터를 효과적으로 관리할 수도 있고, 보안에도 좋기에 하둡만을 위한 계정을 생성. (상황에따라 다른 계정도 사용) # localhost랑 ssh통신을 위한 openssh-server openssh-client 설치 # window os에서 ubu..
Hadoop - 하둡이란?? 빅데이터의 정의 디지털 환경에서 발생하는 대량의 모든 데이터 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 비정형 데이터 용량은 수십 TB에서부터 수십 PB까지도 존재할 수 있다. 즉, 기존 데이터베이스 시스템에서 처리할 수 없는 방대한 양의 데이터이다. => 조직은 내/외부에 존재하는 다양한 형태의 데이터를 수집하고 처리하고 분석해서 데이터에서 의미있는 가치를 추출해 조직에 전략적 의사결정에 활용하고, 비즈니스에 적용하는 행위를 한다. = 빅데이터의 처리단계 : 수집 → 정제 → 적재 → 분석 → 시각화 하둡이란? 간단한 프로그래밍 모델을 사용하여 여러 대의 컴퓨터 클러스터에서 대규모 대용량 데이터를 분산 처리할 수 있는 빅데이터의 처리가 목표인 자바 기반의 오픈 소스 ..