본문 바로가기

[INTERVIEW] 네이버 NLP 직군 인턴 면접 후기 보호되어 있는 글입니다.
[R] 색상 이름 https://www.r-graph-gallery.com/42-colors-names.html
[Python] kmeans clustering 인턴하는 중 새로운 아이디어를 제안해주셔서 급하게 하게 된 군집분석. 까먹기 전에 기록해두기 위해 적어둔다. 우선 필요한 패키지를 불러온다. # 항상 불러와주는 기본 패키지들 import pandas as pd import numpy as np # plotting 용 패키지들 import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline # KMeans 알고리즘 from sklearn.cluster import KMeans 데이터를 정리하고 (보안상 생략) 모델링에 들어간다. inertia = [] for i in range(1,11): kmeans = KMeans(n_clusters=i) kmeans.fit(Xs) inertia.app..
[R] Clustering Algorithms (kmeans, PAM, CLARA) 1) kmeans 가장 통상적으로 알려진 클러스터링 기법이다. k개 클러스터 중심(centeroid)를 데이터 내에서 랜덤하게 잡은 뒤, 거리 기반으로 분류를 진행한다. 그리고 각 클러스터에 속한 데이터 평균을 클러스터 중심(centeroid)로 재설정한다. 이러한 알고리즘을 기반으로 진행되는 것이 kmeans 알고리즘이다. 하지만 데이터 '평균'을 이용하므로 이상치에 민감하다는 단점이 있다. 코드) https://heehehe-ds.tistory.com/17 2) PAM(Partitioning Around Medoids) kmeans의 단점을 보완한 기법으로, 데이터 평균 대신 medoid를 이용한다. medoid란 클러스터 내에서 가장 중심에 위치한 데이터, 즉 중앙값으로 보면 된다. 이를 통해 클러..
[Python] pandas 열에 na 들어갈 때 float type 처리 방법 데이터 전처리를 하다 보면 어떤 열에 na 값을 넣어야 할 때 np.nan으로 넣으면 해당 열이 float 형으로 변환될 때가 있다. 이 때 해당 열이 카테고리형 변수라서 float 형으로 보기 원하지 않는다면 다음과 같이 처리하면 된다. data[col] = data[col].astype('Int64')
[NLP/Python] 정규표현식 (re) . 임의의 문자 1개 (\n 제외) a? a가 최소 0개 최대 1개 존재 a* a가 최소 0개 이상 존재 a+ a가 최소 1개 이상 존재 ^a a로 문자열 시작 a$ a로 문자열 종료 ex1) 단어 사이 띄어쓰기 상관 없이 찾아서 대체하기 import re sentence = re.sub('불편.?사항', '불편', sentence) ex2) 여러 단어 한꺼번에 find할 때 import re for word in re.finditer('없음|없다|없고', sentence): print(word.start(), word.end())
[Python] pandas_profiling : EDA를 더 쉽게 해보자! https://wikidocs.net/book/2155를 통해 NLP 공부를 하다가 발견하게 된 pandas_profiling 함수. 보자마자 이런 함수가 있다는걸 진작에 알았더라면 싶었다. (하지만 설치하는 과정은..... 음..... 🙄) 설치 설치가 프롬프트 창에서 pip로는 불러와지지 않았다. 그래서 해결한 방법! import sys !{sys.executable} -m pip install pandas-profiling 결과 (데이터는 한창 준비하고 있는 Kaggle의 Real or Not? NLP with Disaster Tweet 대회 데이터를 이용했다.) dataTrain = pd.read_csv('train.csv') pandas_profiling.ProfileReport(dataTrai..
[Python] Miniconda로 환경세팅 / Windows 환경에서 tensorflow 설치 평소 머신러닝 예측 모델만 주구장창 해보다가 NLP 직군에 지원하게 되면서 NLP 쪽 공부를 시작하게 되었다. 텍스트 전처리를 하는 도구로 유명한 nltk 말고도 keras로도 가능하다길래 도전해보기로 했다. 그런데 노트북에 tensorflow도 깔려있지 않은걸 보고 충격... 그렇게 tensorflow 깔기를 시도했으나.... 생각보다 쉬운 일이 아니었다. 내 예전에 쓰던 노트북은 anaconda는 도저히 설치 불.가.능.한 노트북이었기에 새로 산 노트북에도 아나콘다 없이 파이썬을 돌리고 있었다. 그런데 이번에 새출발 새마음으로 miniconda를 설치해서 해보려고 했더니 다시 애를 먹은 것이다ㅠㅠ 그렇게 하루종일 cmd 창과 anaconda prompt 창을 오가며 pip install tensorf..