'DATA SCIENCE' 카테고리의 글 목록

본문 바로가기

[DE] DAN24 - CQUERYHUB : FLINK와 ICEBERG를 곁들인 DATA WAREHOUSE 구경하기 지난 24년도 11월에 열렸던 DAN 24에서 가장 인상깊게 들었던 세션인 "CQUERYHUB : DATA WAREHOUSE입니다. 근데 이제 FLINK와 ICEBERG를 곁들인" 에 대해 자세히 살펴보고자 한다. DAN 24팀네이버 컨퍼런스 DAN 24는 네이버의 비즈니스 전략과 기술, 크리에이티브, 그리고 다양한 경험의 전문성을 유기적으로 연결하여 네이버가 앞으로 만들어나갈 비즈니스, 서비스의 변화 방향을dan.naver.com CQueryHub 는 사내 로그 데이터를 저장하기 위한 data warehouse 명칭으로,왜 로그 데이터를 저장하기 위한 data warehouse 구조를 변경하게 됐는지와 그 작업의 여정을 함께할 수 있는 세션이었다.변경하면서 어떤 라이브러리를 선택하셨는지와 여러 트러블슈..

[Hadoop] HDFS Quota 살펴보기 (HDFS에 파일 개수 제한이 존재하는 이유) Hadoop 을 통해 데이터 생성 파이프라인 단계별로 저장하던 중, HDFS 가 quota 기준치를 초과했다는 알림을 받게 되었다.처음에 당연히 파일 디스크 크기가 문제일줄 알았는데, 알고보니 데이터 파일 개수가 과도하게 많아서 문제였다.왜 Hadoop에서는 HDFS 파일 개수를 제한하고 있을까?이번 글에서는 HDFS에서 어떤 기준의 할당량을 가지고 있는지와, 해당 할당량 기준을 가지고 있는 이유를 HDFS 내부 아키텍쳐를 통해 살펴보고자 한다. HDFS quota 종류Hadoop 분산 파일 시스템(HDFS)을 사용하면 관리자가 설정할 수 있는 quota는 다음과 같다.각 quota 할당량은 독립적이지만, 내부적으로는 유사한 방식으로 관리 및 구현이 이루어진다.space quota: 디스크 공간 관련 할..

[Hadoop] Hive란? (Hive 아키텍쳐 및 데이터모델 / HiveQL / SQL on Hadoop) 최근 약 5억건의 데이터를 저장하고 빠르게 다루기 위한 방법을 찾아보던 중, 말로만 들어보던 Hive를 한번 시도해보게 되었다.HDFS에 데이터를 올려두기만 하면 다른 데이터베이스에 적재시키는 것보다 훨씬 빠르게 처리되는걸 볼 수 있었는데..!Hive는 어떻게 동작하길래 이렇게 빠르게 처리될 수 있는지 내부 구조를 알아보고자 한다. Hive란?Hive 공식 페이지에 따르면, Hive는 '대규모 분석을 지원하는 분산형 내결함성 데이터 웨어하우스 시스템 (a distributed, fault-tolerant data warehouse system that enables analytics at a massive scale)'이라고 한다.Hadoop에서는 기본적으로 데이터를 HDFS라는 파일 분산 시스템을 통해..

[Hadoop] Spark RDD와 DataFrame, 그리고 Dataset 최근 업무에서 테이블 형식의 데이터를 정제하는 과정에서 spark를 활용해보기 시작했다. 예전에 한창 데이터 분석을 배울 때 많이 사용하던 pandas와 유사하게 접근할 수 있는 dataframe으로 많이 작업을 진행하게 됐는데, 특정 열의 목록을 list 형식으로 추출하는 등의 작업에서는 RDD로만 작업이 가능한 케이스가 존재했다.그래서 이번 글에서는 RDD와 DataFrame, 그리고 DataFrame과 같이 종종 등장하는 개념인 DataSet은 각각 무엇인지 어떨 때 활용하면 좋은 것인지 살펴본 뒤, DataFrame을 많이 활용하는 추세임에도 불구하고 여전히 RDD를 같이 활용되고 있는 이유에 대해 알아보고자 한다. RDD(Resilient Distributed Datasets)RDD를 용어 그대..

[KG] 온톨로지는 어떻게 만들고 평가할 수 있을까? 지난 주말 감사한 기회를 통해 제 6회 GUG 세미나에 연사자로서 참여하게 되었다.GUG 세미나는 Graph User Group이라는 그래프 기술 지식교류 모임에서 주최하는 세미나로,이번 세미나는 '온톨로지와 GraphRAG'라는 주제로 다뤄지게 되었다. GUG 6번째 세미나 - 온톨로지와 GraphRAG · Luma환영합니다! 이벤트에 참여하려면 아래에 등록해 주세요.lu.ma온톨로지와 관련된 여러 주제 중 '온톨로지 구축 및 평가'를 주제로 발표하게 되었는데,업무에서 지식그래프를 처음 접하게 되었던 시기에 어떻게 온톨로지를 만들게 되었는지와그 이후에 정량적인 지표를 통해 온톨로지를 평가 방식에 대하여 이야기를 나누게 되었다.이번 글에서도 해당 세미나 내용을 중심으로 조금 더 깊이 있게 다뤄보고자 한다..

[KG] GraphRAG: RAG에 지식그래프 더하기 (논문 Review - From Local to Global: A GraphRAG Approach to Query-Focused Summarization) 최근(이라기에는 꽤 오래 전부터) RAG라는 용어가 빈번하게 들려오기 시작했는데,알고 보니 업무에서 진행하고 있던 지식그래프 검색과 어느 정도 연관되어 있었다 👀LLM이 더 대답을 잘 하기 위하여 문서로부터 정보를 검색하는 RAG에서,더 나아가 지식그래프와 결합하여 더욱 정확한 정보를 얻는 GraphRAG가 화두되고 있다.Microsoft에서 올해 초(2024년 4월) 이와 연관된 논문 및 python 패키지를 공개하여 이에 대해 살펴보고자 한다. RAG(Retrieval Augmented Generation)란?LLM을 사용하다 보면 종종 잘못된 정보를 진실처럼 답변하는 환각 현상을 경험해봤을 것이다.이러한 hallucination 문제를 해결하고자 제기된 RAG는 외부 지식 출처로부터 정보를 가져와..

[udemy - Apache Spark와 Python으로 빅데이터 다루기] Spark란? 해당 글은 글또 커뮤니티를 통해 제공 받은 udemy 강의 를 기반으로 작성되었습니다. 데이터 엔지니어라면 한번쯤은 들어보고 다뤄 봤을 기술인 Spark 💫 하지만 정작 Spark에 대한 정의를 설명해보라고 하면 익숙한 만큼 표현하기 어렵게 느껴진다. 이번 글에서는 Spark란 무엇인지, 어떤 식으로 구성되어 있는지 기초적인 부분을 다뤄보고자 한다. Spark란 무엇인가? Spark의 공식 이름은 Apache Spark로, 아파치 소프트웨어 재단에서 운영하고 있다. 공식 사이트(https://spark.apache.org)에 들어가 보면 아래와 같이 Spark를 정의하고 있다. Apache Spark™ is a multi-language engine for executing data engineering..

[KG] LLM에 날개를 달아줄 지식그래프 (Unifying Large Lanuage Models and Knowledge Graphs 논문) 지식그래프 관련 업무를 한다고 하면, "지식그래프 그게 뭔데?" "지식그래프 그걸로 뭘 할 수 있는데?"라는 질문을 단골로 받았다. 마침 chatGPT로 핫해진 LLM과 지식그래프를 연관지은 서베이 논문(https://arxiv.org/abs/2306.08302)을 발견해서 소개해보고자 한다. Unifying Large Language Models and Knowledge Graphs: A RoadmapLarge language models (LLMs), such as ChatGPT and GPT4, are making new waves in the field of natural language processing and artificial intelligence, due to their emergent..

이전 1 2 3 4 ··· 11 다음

티스토리툴바