본문 바로가기
빅데이터 분석기사,ADsP와 ADP

GFS(구글 파일 시스템, Google File System)

by 귀주대 2023. 12. 4.

 


GFS(구글 파일 시스템, Google File System)는 구글에서 개발된 분산 파일 시스템으로, 대규모 데이터를 안정적으로 저장하고 처리하는 데 사용됩니다. GFS는 고성능, 확장성, 내고장성 등을 갖춘 분산 파일 시스템으로서 대량의 데이터를 효율적으로 관리하는 데 특화되어 있습니다.

GFS의 주요 특징

1. 분산 파일 시스템: GFS는 대규모의 데이터를 여러 머신에 분산하여 저장하는 시스템으로, 파일을 블록 단위로 분할하여 여러 서버에 분산 저장합니다.

2. 높은 내고장성: 데이터의 안정성과 가용성을 보장하기 위해 데이터를 여러 곳에 복제하고, 고장 발생 시 자동으로 복구하는 기능을 갖추고 있습니다.

3. 높은 확장성: 새로운 서버를 추가하거나 데이터를 분산하여 저장할 수 있어서 시스템의 용량을 쉽게 확장할 수 있습니다.

4. 간단한 인터페이스: 간결하고 사용하기 쉬운 인터페이스를 제공하여 사용자가 파일을 쉽게 읽고 쓸 수 있도록 합니다.

 

GFS의 구성 요소

1. 마스터 서버(Master Server): 클러스터 내의 모든 데이터 노드(Data Node)들을 관리하고, 파일의 메타데이터(metadata)를 유지합니다. 파일 위치, 블록 복제, 데이터 노드 간의 데이터 이동 등을 조정합니다.

2. 데이터 노드(Data Node): 실제 데이터가 저장되는 곳으로, 블록 단위로 데이터를 저장하고 유지합니다. 데이터 노드는 마스터 서버와 통신하여 파일 블록을 읽고 쓰며, 필요에 따라 블록을 다른 노드로 복제합니다.

3. 클라이언트(Client): 파일을 읽고 쓰는 요청을 보내는 사용자나 응용 프로그램을 나타냅니다. 클라이언트는 마스터 서버를 통해 데이터 노드를 찾아서 파일을 읽고 쓰는 작업을 수행합니다.

4. 체크포인트와 로그: GFS는 마스터 서버의 메타데이터 변경사항을 로그에 기록하고, 일정 시점마다 체크포인트를 생성하여 데이터 불일치 문제를 최소화합니다.

GFS는 대규모 데이터 처리를 위한 환경에서 사용되며, 데이터의 안정성, 확장성, 높은 성능을 제공하여 구글과 같은 대규모 서비스에서 사용됩니다. 이러한 특성으로 GFS는 대용량 데이터를 효율적으로 관리하고 분석하는 데 필수적인 요소로 자리 잡고 있습니다.

 

 

댓글