본문 바로가기

전체 글212

데이터 분석에서의 로그(log)란? 로그(Log)는 컴퓨터 시스템과 네트워크에서 발생하는 활동과 사건에 대한 기록으로, 정보 기술(IT) 환경에서 중요한 역할을 합니다. 로그는 시스템의 작동 상태, 사용자의 행동, 오류, 경고, 보안 사건 등을 기록하여 이를 추적하고 분석하는 데 사용됩니다. 1. 이벤트 로그(Event Logs) : 운영 체제(OS), 응용 프로그램에서 발생하는 이벤트와 관련된 정보를 기록합니다. 이벤트 로그는 시스템 시작/종료, 로그인 시도, 프로그램 실행, 시스템 오류 등을 기록하여 시스템의 상태를 모니터링하고 문제를 해결하는 데 사용됩니다. 2. 액세스 로그(Access Logs) : 서버나 네트워크 장비에서 발생하는 사용자의 접속 정보를 기록합니다. IP 주소, 요청한 자원, 접속 시간 등을 포함하여 웹 트래픽 모.. 2023. 12. 3.
분산 파일 시스템(Distributed File System, DFS) 분산 파일 시스템(Distributed File System, DFS)은 여러 개의 서버에 저장된 파일들을 하나의 파일 시스템으로 관리하는 기술입니다. 이러한 시스템은 대용량 데이터를 효과적으로 관리하고 저장하기 위해 설계되었습니다. 주요한 DFS 시스템 중에는 Hadoop Distributed File System (HDFS), Google File System (GFS), Amazon S3 등이 있습니다. DFS의 주요 특징은 다음과 같습니다: 1. 분산 데이터 저장: DFS는 파일을 여러 서버에 분산하여 저장합니다. 이는 단일 서버에 저장된 데이터보다 안정성과 확장성을 높여줍니다. 2. 데이터 레플리케이션: DFS는 데이터를 여러 노드에 복제하여 데이터의 안정성을 보장합니다. 하나의 노드에 장애가 .. 2023. 12. 2.
대용량 질의 기술들의 종류 대용량 데이터를 효과적으로 처리하기 위한 질의 기술들은 다양한 방식으로 데이터에 접근하고 조작하는 기술들을 포함합니다. 이러한 기술들은 대규모 데이터를 다룰 때 효율성과 성능을 높이기 위해 사용됩니다. 주요 대용량 질의 기술들은 다음과 같습니다: 1. MapReduce: MapReduce는 대규모 데이터 집합을 병렬 및 분산 처리하기 위한 프로그래밍 모델 및 알고리즘입니다. 데이터를 여러 개의 블록으로 분할하고, Map 단계에서 각 블록에 대해 작업을 수행한 후, Reduce 단계에서 결과를 집계하여 처리하는 방식입니다. 하둡에서 많이 사용되는 방식 중 하나입니다. 2. Spark: Spark는 대용량 데이터를 처리하는 데 사용되는 오픈 소스 클러스터 컴퓨팅 프레임워크로, 메모리 기반의 빠른 데이터 처리.. 2023. 12. 1.
Sqoop(스쿱) - 데이터 연동 기술 Apache Sqoop(Structured Query Language for Hadoop)은 하둡과 관계형 데이터베이스(RDBMS) 간 데이터 전송을 위한 오픈 소스 도구입니다. 이 도구를 사용하면 RDBMS(예: MySQL, Oracle, PostgreSQL 등)와 하둡(예: HDFS) 간에 데이터를 손쉽게 이동할 수 있습니다. Sqoop을 사용하면 데이터 엔지니어나 데이터 과학자가 관계형 데이터베이스의 테이블을 하둡 클러스터로 가져오거나, 하둡 클러스터의 데이터를 관계형 데이터베이스로 내보내는 등의 작업을 간편하게 수행할 수 있습니다. Sqoop의 주요 기능과 특징은 다음과 같습니다: 1. 데이터 전송: Sqoop은 RDBMS와 하둡 사이에서 테이블이나 쿼리 결과를 복사, 이동 및 변환할 수 있습니다.. 2023. 11. 30.