본문 바로가기

[ADsP] 1-1. 데이터의 이해 (2) 데이터베이스 기초 1. 용어 변화 과정 1950년대 : 미군 군비상황 관리 위한 컴퓨터 도서관 설립 - 데이터(data)의 기지(base)라는 뜻으로 데이터베이스 탄생 1963년 6월 : 미국 SDC 개최 심포지엄에서 공식 사용 - 대량의 데이터를 축적하는 기지라는 뜻으로 데이터베이스 사용 1963년 : GE의 C.바크만이 IDS(DB 관리 시스템) 개발 1965년 : 2차 심포지엄에서 DB 시스템(시스템 통한 체계적 관리와 저장) 용어 등장 1970년대 초반 : 유럽에서 DB 용어 일반화 1980년 : KORSTIC이 해외 전문 DB 확충 - TECHNOLINE(온라인 정보 검색 서비스) 개시 2. 데이터베이스 정의 체계적, 조직적으로 정리하고 전자식 등으로 개별적 접근 가능한 독립 저작물, 데이터 등의 수집물 (EU)..
[ADsP] 1-1. 데이터의 이해 (1) 데이터 기초 1. 데이터의 정의 및 특성 정의 - 라틴어 dare(주다)에서 유래된 것으로, 1646년 영국 문헌에 처음 등장 - 1940년대 이후 관념, 추상적 개념에서 기술, 사실적 의미로 변화 - 추론과 추정의 근거를 이루는 사실로, 다른 객체와 상호관계를 통해 가치를 지님 특성 - 존재적 특성 : 객관적 사실 - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 (가치 창출 과정의 근본) 유형 - 정성적(qualitative) 데이터 : 형식이 정해져 있지 않은 데이터 (언어, 문자 등) - 정량적(quantitive) 데이터 : 형식이 정해진 데이터, 저장 및 분석 용이 (수치, 도형, 기호 등) 지식경영의 핵심 이슈, 데이터 지식경영 핵심 이슈로 꼽히는 암묵지와 형식지, 이 둘의 상호작용에서 데이터는..
[Python] list 모양의 string을 list로 변환 >>> import ast >>> x = u'[ "A","B","C" , " D"]' >>> x = ast.literal_eval(x) >>> x ['A', 'B', 'C', ' D'] >>> x = [n.strip() for n in x] >>> x ['A', 'B', 'C', 'D'] 출처 : https://stackoverflow.com/questions/1894269/convert-string-representation-of-list-to-list
[NLP] Doc2Vec 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. Doc2Vec이란 이름에서 유추할 수 있듯이, Word2Vec을 문장 단위로 확장한 문서 임베딩 기법이다. (논문 pdf : https://cs.stanford.edu/~quocle/paragraph_vector.pdf) Doc2Vec 기법은 문장 전체에 대해 단어 k개씩 슬라이딩해가며 단어 k개가 주어졌을 때 다음 단어를 맞추는 과정을 학습한다. 예를 들어, 'The cat sat on the mat'라는 문장에서 k=3일 때 아래 알고리즘 그림처럼 the, cat, sat으로 on을 예측한다. 이 과정을 한 단어씩 sliding하며 문장 내..
[NLP] 가중 임베딩 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. word2vec, fast text 등 이전까지는 워드 임베딩에 대해 다뤄보았다. 그렇다면 문장을 기준으로는 어떻게 할까? 이러한 단어 임베딩을 문장으로 확장시키는 방법 중에 가중 임베딩이 있다. (pdf 링크 : https://openreview.net/pdf?id=SyK00v5xx) 가중 임베딩 방식에는 '문서 안의 단어는 글쓴이가 생각한 주제에 의존한다'는 내용이 기반되어 있다. 즉, 주제에 따라 단어 사용 양상이 달라진다는 것이다. 주제 벡터 c_s가 있을 때, 임의의 단어 w가 나타날 확률은 다음과 같다. P(w) : 주제와 상관없이 ..
[Linux] bash shell 변수 이용 bash 명령어를 변수로 받아오기 : 변수명=`명령어` 변수 길이 : ${#변수명} for문 : for 변수 in ${변수명} do echo ${변수} done if문 : if [ 조건문 ]; then bash ~~~ fi
[NLP] Swivel (Submatrix-Wise Vector Embedding Leamer) 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. Swivel (Submatrix-Wise Vector Embedding Leamer)이란 2016년 구글에서 발표한 행렬 분해 기반 단어 임베딩 기법이다. (논문 pdf : https://arxiv.org/pdf/1602.02215.pdf) GloVe가 단어-문맥 행렬을 분해하는 반면, Swivel은 PMI 행렬을 분해하여 PMI의 단점을 커버할 수 있도록 설계되었다. 점별 상호 정보량 (PMI : Pointwise Mutual Information) 두 확률변수 사이 상관성을 수치화할 때 사용하는 단위로, 여기에서는 두 단어가 같이 등장하는 ..
[NLP] GloVe (Global Word Vectors) 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. GloVe (Global Word Vectors)는 2014년 미국 스탠포드대에서 개발된 워드 임베딩 기법이다. (논문 pdf : https://www-nlp.stanford.edu/pubs/glove.pdf) 기존의 임베딩 기법인 Word2Vec은 단어 간 유사도 측정은 잘 할 수 있었으나, 사용자가 지정한 window size 내 문맥만 학습하기 때문에 말뭉치 전체에 대해 학습하기에는 어려웠다. 또한, LSA는 말뭉치 전반적인 통계량은 잘 파악되었지만 단어간 유사도 측정은 잘 하지 못한다는 단점이 있었다. GloVe는 이러한 Word2Vec..