[KG] 온톨로지는 어떻게 만들고 평가할 수 있을까? 지난 주말 감사한 기회를 통해 제 6회 GUG 세미나에 연사자로서 참여하게 되었다.GUG 세미나는 Graph User Group이라는 그래프 기술 지식교류 모임에서 주최하는 세미나로,이번 세미나는 '온톨로지와 GraphRAG'라는 주제로 다뤄지게 되었다. GUG 6번째 세미나 - 온톨로지와 GraphRAG · Luma환영합니다! 이벤트에 참여하려면 아래에 등록해 주세요.lu.ma온톨로지와 관련된 여러 주제 중 '온톨로지 구축 및 평가'를 주제로 발표하게 되었는데,업무에서 지식그래프를 처음 접하게 되었던 시기에 어떻게 온톨로지를 만들게 되었는지와그 이후에 정량적인 지표를 통해 온톨로지를 평가 방식에 대하여 이야기를 나누게 되었다.이번 글에서도 해당 세미나 내용을 중심으로 조금 더 깊이 있게 다뤄보고자 한다.. [KG] GraphRAG: RAG에 지식그래프 더하기 (논문 Review - From Local to Global: A GraphRAG Approach to Query-Focused Summarization) 최근(이라기에는 꽤 오래 전부터) RAG라는 용어가 빈번하게 들려오기 시작했는데,알고 보니 업무에서 진행하고 있던 지식그래프 검색과 어느 정도 연관되어 있었다 👀LLM이 더 대답을 잘 하기 위하여 문서로부터 정보를 검색하는 RAG에서,더 나아가 지식그래프와 결합하여 더욱 정확한 정보를 얻는 GraphRAG가 화두되고 있다.Microsoft에서 올해 초(2024년 4월) 이와 연관된 논문 및 python 패키지를 공개하여 이에 대해 살펴보고자 한다. RAG(Retrieval Augmented Generation)란?LLM을 사용하다 보면 종종 잘못된 정보를 진실처럼 답변하는 환각 현상을 경험해봤을 것이다.이러한 hallucination 문제를 해결하고자 제기된 RAG는 외부 지식 출처로부터 정보를 가져와.. [udemy - Apache Spark와 Python으로 빅데이터 다루기] Spark란? 해당 글은 글또 커뮤니티를 통해 제공 받은 udemy 강의 를 기반으로 작성되었습니다. 데이터 엔지니어라면 한번쯤은 들어보고 다뤄 봤을 기술인 Spark 💫 하지만 정작 Spark에 대한 정의를 설명해보라고 하면 익숙한 만큼 표현하기 어렵게 느껴진다. 이번 글에서는 Spark란 무엇인지, 어떤 식으로 구성되어 있는지 기초적인 부분을 다뤄보고자 한다. Spark란 무엇인가? Spark의 공식 이름은 Apache Spark로, 아파치 소프트웨어 재단에서 운영하고 있다. 공식 사이트(https://spark.apache.org)에 들어가 보면 아래와 같이 Spark를 정의하고 있다. Apache Spark™ is a multi-language engine for executing data engineering.. [KG] LLM에 날개를 달아줄 지식그래프 (Unifying Large Lanuage Models and Knowledge Graphs 논문) 지식그래프 관련 업무를 한다고 하면, "지식그래프 그게 뭔데?" "지식그래프 그걸로 뭘 할 수 있는데?"라는 질문을 단골로 받았다. 마침 chatGPT로 핫해진 LLM과 지식그래프를 연관지은 서베이 논문(https://arxiv.org/abs/2306.08302)을 발견해서 소개해보고자 한다. Unifying Large Language Models and Knowledge Graphs: A RoadmapLarge language models (LLMs), such as ChatGPT and GPT4, are making new waves in the field of natural language processing and artificial intelligence, due to their emergent.. [DE] 하둡 없이 맵리듀스를?! Local MapReduce 오픈소스 파헤치기 비록 Spark, Tez 등 데이터를 빠르게 처리하는 프레임워크가 등장하면서 MapReduce가 과거의 기술로 여겨지고 있지만, 여전히 큰 데이터를 다루는 데에 있어서 기초가 되는 부분 중 하나이다. MapReduce는 하둡 프레임워크로 일반적으로는 하둡 환경에서 진행할 수 있지만, 분산 환경 없이 로컬 환경에서도 이용할 수 있는 오픈소스 Local MapReduce가 존재했다. (https://github.com/d2207197/local-mapreduce/tree/master) 해당 오픈소스를 알려주신 분이 내부가 그렇게 복잡하지 않다고 말씀주셔서 한번 내부를 구경해봤더니 정말 100줄도 되지 않는 하나의 스크립트로 구현되어 있었다. 어떻게 구현해놨길래 100줄도 안되는 스크립트로 이렇게 유용하게 이.. [DE] 2023 DEVIEW - SCDF로 하루 N만곡 이상 VIBE 메타 데이터 실시간으로 적재하기 (스트림 처리 레거시 극복일지 엿보기) 지난 2월에 있었던 DEVIEW 2023에서 가장 인상 깊게 들었던 세션 "SCDF로 하루 N만곡 이상 VIBE 메타 데이터 실시간으로 적재하기" 세션의 주 목적은 "SCDF를 사용해보세요!" 였겠지만, 실시간 데이터를 직접 다루지는 않는 입장에서는 조금 다른 관점에서 세션을 들을 수 있었다. 우선 서비스 데이터를 직접 다뤄보지 못하는 아쉬움을 세션을 통해 해소할 수 있었고, 기존 작업에서 어떻게 문제점을 찾고 극복해 나갔는지 그 여정을 듣고 배울 수 있어서 많은 도움을 받을 수 있었다. 첫 입사 때부터 지금까지도(ㅠㅠ) 얼굴도 모르는 분들이 만들어 놓고 떠나신 레거시 작업을 해결해보려다 실패한 적이 많았는데, 이 세션을 듣고 어떤 방향으로 다가가면 좋을지 조금이나마 가이드라인을 잡을 수 있게 되었다. .. [DE] 개발자들은 어떤 데이터베이스를 많이 사용할까? 데이터베이스의 종류에 대해 공부하다보니 문득 다른 개발자들은 어떤 데이터베이스를 많이 사용할지, 또 어떤 데이터베이스가 트렌드일지 궁금해졌다. chatGPT와 이런 저런 대화를 하다 보니, 오류를 맞이할 때마다 단골손님으로 방문하게 되는 사이트 stackoverflow에서 개발자 대상으로 매년 진행하는 설문조사 "StackOverflow Developer Survey"를 2011년부터 진행하고 있다는 걸 알게 됐다. (이후 Stack Overflow 설문조사에 대해 질문한 결과) 기존에는 테이블 형식의 데이터가 많이 다뤄지다보니 RDBMS를 많이 사용하다가, 저장해야 하는 데이터 형식이 다양해지면서 NoSQL이 등장하게 되고 점차 사용하게 됐다고 하는데 실제 많은 개발자들이 그렇게 사용하고 있는지 궁금해.. [DE] 쿠버네티스(kubernetes): 컨테이너도 자동화가 필요해! 해당 글은 https://kubernetes.io/docs 에 기반하여 작성되었습니다. django로 데이터를 확인하고 검색하는 api를 개발하는 업무를 하고 있던 중, "접속량이 많아도 안정적으로 만들어서 사람들이 믿고 쓸 수 있게 하라"는 이야기를 들었다. 어떻게 보면 당연히 해야하는 부분이었지만, 기능 추가에만 집중하고 있었기에 방법을 몰라 너무 막막했었는데.. 말로만 듣던 쿠버네티스를 알고 난 뒤 해결의 실마리 일부를 찾을 수 있었다. 이번 글에서는 쿠버네티스가 도대체 무엇이길래 실마리를 줄 수 있었는지 정리하고자 한다. 먼저 쿠버네티스에 대해 다루기 전에 미리 알아야 할 한가지 개념이 있다. 컨테이너 오케스트레이션 (Container Orchestration)docker 관련 글에서 다루었던 컨.. 이전 1 2 3 4 ··· 10 다음