본문 바로가기

[DE] DAN24 - CQUERYHUB : FLINK와 ICEBERG를 곁들인 DATA WAREHOUSE 구경하기 지난 24년도 11월에 열렸던 DAN 24에서 가장 인상깊게 들었던 세션인 "CQUERYHUB : DATA WAREHOUSE입니다. 근데 이제 FLINK와 ICEBERG를 곁들인" 에 대해 자세히 살펴보고자 한다. DAN 24팀네이버 컨퍼런스 DAN 24는 네이버의 비즈니스 전략과 기술, 크리에이티브, 그리고 다양한 경험의 전문성을 유기적으로 연결하여 네이버가 앞으로 만들어나갈 비즈니스, 서비스의 변화 방향을dan.naver.com CQueryHub 는 사내 로그 데이터를 저장하기 위한 data warehouse 명칭으로,왜 로그 데이터를 저장하기 위한 data warehouse 구조를 변경하게 됐는지와 그 작업의 여정을 함께할 수 있는 세션이었다.변경하면서 어떤 라이브러리를 선택하셨는지와 여러 트러블슈..
[Hadoop] HDFS Quota 살펴보기 (HDFS에 파일 개수 제한이 존재하는 이유) Hadoop 을 통해 데이터 생성 파이프라인 단계별로 저장하던 중, HDFS 가 quota 기준치를 초과했다는 알림을 받게 되었다.처음에 당연히 파일 디스크 크기가 문제일줄 알았는데, 알고보니 데이터 파일 개수가 과도하게 많아서 문제였다.왜 Hadoop에서는 HDFS 파일 개수를 제한하고 있을까?이번 글에서는 HDFS에서 어떤 기준의 할당량을 가지고 있는지와, 해당 할당량 기준을 가지고 있는 이유를 HDFS 내부 아키텍쳐를 통해 살펴보고자 한다. HDFS quota 종류Hadoop 분산 파일 시스템(HDFS)을 사용하면 관리자가 설정할 수 있는 quota는 다음과 같다.각 quota 할당량은 독립적이지만, 내부적으로는 유사한 방식으로 관리 및 구현이 이루어진다.space quota: 디스크 공간 관련 할..
[Hadoop] Hive란? (Hive 아키텍쳐 및 데이터모델 / HiveQL / SQL on Hadoop) 최근 약 5억건의 데이터를 저장하고 빠르게 다루기 위한 방법을 찾아보던 중, 말로만 들어보던 Hive를 한번 시도해보게 되었다.HDFS에 데이터를 올려두기만 하면 다른 데이터베이스에 적재시키는 것보다 훨씬 빠르게 처리되는걸 볼 수 있었는데..!Hive는 어떻게 동작하길래 이렇게 빠르게 처리될 수 있는지 내부 구조를 알아보고자 한다. Hive란?Hive 공식 페이지에 따르면, Hive는 '대규모 분석을 지원하는 분산형 내결함성 데이터 웨어하우스 시스템 (a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale)'이라고 한다.Hadoop에서는 기본적으로 데이터를 HDFS라는 파일 분산 시스템을 통해..
[Hadoop] Spark RDD와 DataFrame, 그리고 Dataset 최근 업무에서 테이블 형식의 데이터를 정제하는 과정에서 spark를 활용해보기 시작했다. 예전에 한창 데이터 분석을 배울 때 많이 사용하던 pandas와 유사하게 접근할 수 있는 dataframe으로 많이 작업을 진행하게 됐는데, 특정 열의 목록을 list 형식으로 추출하는 등의 작업에서는 RDD로만 작업이 가능한 케이스가 존재했다.그래서 이번 글에서는 RDD와 DataFrame, 그리고 DataFrame과 같이 종종 등장하는 개념인 DataSet은 각각 무엇인지 어떨 때 활용하면 좋은 것인지 살펴본 뒤, DataFrame을 많이 활용하는 추세임에도 불구하고 여전히 RDD를 같이 활용되고 있는 이유에 대해 알아보고자 한다. RDD(Resilient Distributed Datasets)RDD를 용어 그대..
[회고] 다채로웠던 2024년 돌아보기 (더 나은 2025년을 위하여) 어느덧 정신없이 시간을 보내다보니 2025년 새해의 1월도 열흘 정도밖에 남지 않았다..!!원래 미래지향적인 사람이라 회고보다는 계획하는 것을 좋아했는데, 최근 들어 미래를 생각하며 계획만 세우고 그 계획을 제대로 실현시키지 못한 채로 또 다른 계획을 세우는 스스로를 보게 되었다.과거를 제대로 돌아보고 알고 있어야 더 잘 나아갈 수 있겠다는 생각에 뒤늦게나마 2024년을 돌아보고자 한다.2024년 돌아보기우선 2024년에 있었던 일들을 학창시절 수학시간에 많이 보던 좌표(😅)를 변형해서 정리해보았다.위쪽은 업무 관련, 아래쪽은 업무 외적 관련된 일들로 + 오른쪽은 좋았던 부분과 왼쪽은 아쉬웠던 부분으로 나눠보았다.적은 내용 중 핵심이라고 생각되었던 일들에 대한 생각을 정리해보고자 한다.(사용한 툴은 2..
[KG] 지식그래프를 담기 위한 데이터베이스 (+RDF / SPARQL) 최근 지식그래프를 다루면서 어떤 데이터베이스에 담는 것이 효율적일지 알아보게 되었다.탐색 중 지인 분을 통해 한 서베이 논문에서 지식그래프 스토리지에 대해 상세하게 분석해 놓은 것을 알게 되었다.따라서 이번 글에서는 논문 A Survey of RDF Stores & SPARQL Engines for Querying Knowledge Graphs (2021) 을 기반으로 각 RDF와 SPARQL 개념과 기술은 어떤 것인지, 그리고 이를 기반으로 한 데이터베이스에는 어떤 종류가 있는지 살펴보고자 한다. RDF란?Resource Description Framework (RDF) 는 웹 상의 데이터를 시맨틱하게 표현하기 위한 W3C 표준이다. (정의 자체가 좀 어렵게 느껴질 수도 있지만..) 데이터를 구조적으로..
[KG] 온톨로지는 어떻게 만들고 평가할 수 있을까? 지난 주말 감사한 기회를 통해 제 6회 GUG 세미나에 연사자로서 참여하게 되었다.GUG 세미나는 Graph User Group이라는 그래프 기술 지식교류 모임에서 주최하는 세미나로,이번 세미나는 '온톨로지와 GraphRAG'라는 주제로 다뤄지게 되었다. GUG 6번째 세미나 - 온톨로지와 GraphRAG · Luma환영합니다! 이벤트에 참여하려면 아래에 등록해 주세요.lu.ma온톨로지와 관련된 여러 주제 중 '온톨로지 구축 및 평가'를 주제로 발표하게 되었는데,업무에서 지식그래프를 처음 접하게 되었던 시기에 어떻게 온톨로지를 만들게 되었는지와그 이후에 정량적인 지표를 통해 온톨로지를 평가 방식에 대하여 이야기를 나누게 되었다.이번 글에서도 해당 세미나 내용을 중심으로 조금 더 깊이 있게 다뤄보고자 한다..
[KG] GraphRAG: RAG에 지식그래프 더하기 (논문 Review - From Local to Global: A GraphRAG Approach to Query-Focused Summarization) 최근(이라기에는 꽤 오래 전부터) RAG라는 용어가 빈번하게 들려오기 시작했는데,알고 보니 업무에서 진행하고 있던 지식그래프 검색과 어느 정도 연관되어 있었다 👀LLM이 더 대답을 잘 하기 위하여 문서로부터 정보를 검색하는 RAG에서,더 나아가 지식그래프와 결합하여 더욱 정확한 정보를 얻는 GraphRAG가 화두되고 있다.Microsoft에서 올해 초(2024년 4월) 이와 연관된 논문 및 python 패키지를 공개하여 이에 대해 살펴보고자 한다. RAG(Retrieval Augmented Generation)란?LLM을 사용하다 보면 종종 잘못된 정보를 진실처럼 답변하는 환각 현상을 경험해봤을 것이다.이러한 hallucination 문제를 해결하고자 제기된 RAG는 외부 지식 출처로부터 정보를 가져와..