heehehe.log

본문 바로가기

[ADsP] 1-2. 데이터의 가치와 미래 (2) 빅데이터 가치와 영향 1. 빅데이터의 가치 가치선정이 어려운 이유 데이터 활용 방식 변경 : 재사용, 재조합(mashup), 다목적용 데이터 개발이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음 새로운 가치 창출 : 기존에 없던 가치를 창출하여 가치 측정이 어려움 분석 기술 발전 : 현재 가치 없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성 있음 2. 빅데이터의 영향 빅데이터가 가치를 만들어내는 5가지 방식 (by 맥킨지) 투명성 제고로 연구개발 및 관리 효율성 제고 시뮬레이션으로 수요 포착 및 주요 변수 탐색으로 경쟁력 강화 고객 세분화 및 맞춤 서비스 제공 알고리즘 활용한 의사결정 보조 및 대체 비즈니스 모델, 제품, 서비스 혁신 빅데이터 가치 창출 방식의 영향 기업 : 소비자 행동 분석,..

[ADsP] 1-2. 데이터의 가치와 미래 (1) 빅데이터의 이해 1. 빅데이터의 정의 일반적 DB 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 (맥킨지, 2011) 다양한 대규모 데이터로부터 저렴한 비용으로 가치 추출, 수집, 발굴, 분석 지원하도록 고안된 차세대 기술 및 아키텍쳐 (IDC, 2011) 대용량 데이터로 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일 (메이어-쇤베르거와쿠키어, 2013) 빅데이터의 3V : Volume(양 - 규모 측면), Variety(다양성 - 유형 측면), Velocity(속도 - 수집 및 처리 측면) 3가지 관점에 따른 빅데이터의 정의 좁은 범위 : 데이터 특성 변화 초점 (3V) 중간 범위 : 처리, 분석 기술적 변화 포함 (새로운 데이터 처리, 저장, 분석 기술 및 아키텍쳐,..

[ADsP] 1-1. 데이터의 이해 (3) 데이터베이스 활용 1. 기업 내부 데이터베이스 OLTP (On-Line Transaction Processing) - 여러 단말에서 보낸 메시지에 대해 호스트 컴퓨터가 DB 접근 및 처리 결과 반환함 - 데이터 갱신을 위주로 진행하는 Processing OLAP (On-Line Analytical Processing) - 정보 위주의 분석 처리 - 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 제공해주는 기술 - 데이터 조회를 위주로 진행하는 Processing CRM (Customer Relationship Management) : 고객관계관리 - 기업이 고객과 관련된 내외부 자료 분석, 통합해 고객 중심 자원 극대화 - 고객 특성에 맞게 마케팅 활동 계획, 지원, 평..

[ADsP] 1-1. 데이터의 이해 (2) 데이터베이스 기초 1. 용어 변화 과정 1950년대 : 미군 군비상황 관리 위한 컴퓨터 도서관 설립 - 데이터(data)의 기지(base)라는 뜻으로 데이터베이스 탄생 1963년 6월 : 미국 SDC 개최 심포지엄에서 공식 사용 - 대량의 데이터를 축적하는 기지라는 뜻으로 데이터베이스 사용 1963년 : GE의 C.바크만이 IDS(DB 관리 시스템) 개발 1965년 : 2차 심포지엄에서 DB 시스템(시스템 통한 체계적 관리와 저장) 용어 등장 1970년대 초반 : 유럽에서 DB 용어 일반화 1980년 : KORSTIC이 해외 전문 DB 확충 - TECHNOLINE(온라인 정보 검색 서비스) 개시 2. 데이터베이스 정의 체계적, 조직적으로 정리하고 전자식 등으로 개별적 접근 가능한 독립 저작물, 데이터 등의 수집물 (EU)..

[ADsP] 1-1. 데이터의 이해 (1) 데이터 기초 1. 데이터의 정의 및 특성 정의 - 라틴어 dare(주다)에서 유래된 것으로, 1646년 영국 문헌에 처음 등장 - 1940년대 이후 관념, 추상적 개념에서 기술, 사실적 의미로 변화 - 추론과 추정의 근거를 이루는 사실로, 다른 객체와 상호관계를 통해 가치를 지님 특성 - 존재적 특성 : 객관적 사실 - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 (가치 창출 과정의 근본) 유형 - 정성적(qualitative) 데이터 : 형식이 정해져 있지 않은 데이터 (언어, 문자 등) - 정량적(quantitive) 데이터 : 형식이 정해진 데이터, 저장 및 분석 용이 (수치, 도형, 기호 등) 지식경영의 핵심 이슈, 데이터 지식경영 핵심 이슈로 꼽히는 암묵지와 형식지, 이 둘의 상호작용에서 데이터는..

[Python] list 모양의 string을 list로 변환 >>> import ast >>> x = u'[ "A","B","C" , " D"]' >>> x = ast.literal_eval(x) >>> x ['A', 'B', 'C', ' D'] >>> x = [n.strip() for n in x] >>> x ['A', 'B', 'C', 'D'] 출처 : https://stackoverflow.com/questions/1894269/convert-string-representation-of-list-to-list

[NLP] Doc2Vec 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. Doc2Vec이란 이름에서 유추할 수 있듯이, Word2Vec을 문장 단위로 확장한 문서 임베딩 기법이다. (논문 pdf : https://cs.stanford.edu/~quocle/paragraph_vector.pdf) Doc2Vec 기법은 문장 전체에 대해 단어 k개씩 슬라이딩해가며 단어 k개가 주어졌을 때 다음 단어를 맞추는 과정을 학습한다. 예를 들어, 'The cat sat on the mat'라는 문장에서 k=3일 때 아래 알고리즘 그림처럼 the, cat, sat으로 on을 예측한다. 이 과정을 한 단어씩 sliding하며 문장 내..

[NLP] 가중 임베딩 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. word2vec, fast text 등 이전까지는 워드 임베딩에 대해 다뤄보았다. 그렇다면 문장을 기준으로는 어떻게 할까? 이러한 단어 임베딩을 문장으로 확장시키는 방법 중에 가중 임베딩이 있다. (pdf 링크 : https://openreview.net/pdf?id=SyK00v5xx) 가중 임베딩 방식에는 '문서 안의 단어는 글쓴이가 생각한 주제에 의존한다'는 내용이 기반되어 있다. 즉, 주제에 따라 단어 사용 양상이 달라진다는 것이다. 주제 벡터 c_s가 있을 때, 임의의 단어 w가 나타날 확률은 다음과 같다. P(w) : 주제와 상관없이 ..

이전 1 ··· 10 11 12 13 14 15 16 ··· 26 다음

티스토리툴바