본문 바로가기

[Python] pandas 열에 na 들어갈 때 float type 처리 방법 데이터 전처리를 하다 보면 어떤 열에 na 값을 넣어야 할 때 np.nan으로 넣으면 해당 열이 float 형으로 변환될 때가 있다. 이 때 해당 열이 카테고리형 변수라서 float 형으로 보기 원하지 않는다면 다음과 같이 처리하면 된다. data[col] = data[col].astype('Int64')
[NLP/Python] 정규표현식 (re) . 임의의 문자 1개 (\n 제외) a? a가 최소 0개 최대 1개 존재 a* a가 최소 0개 이상 존재 a+ a가 최소 1개 이상 존재 ^a a로 문자열 시작 a$ a로 문자열 종료 ex1) 단어 사이 띄어쓰기 상관 없이 찾아서 대체하기 import re sentence = re.sub('불편.?사항', '불편', sentence) ex2) 여러 단어 한꺼번에 find할 때 import re for word in re.finditer('없음|없다|없고', sentence): print(word.start(), word.end())
[Python] pandas_profiling : EDA를 더 쉽게 해보자! https://wikidocs.net/book/2155를 통해 NLP 공부를 하다가 발견하게 된 pandas_profiling 함수. 보자마자 이런 함수가 있다는걸 진작에 알았더라면 싶었다. (하지만 설치하는 과정은..... 음..... 🙄) 설치 설치가 프롬프트 창에서 pip로는 불러와지지 않았다. 그래서 해결한 방법! import sys !{sys.executable} -m pip install pandas-profiling 결과 (데이터는 한창 준비하고 있는 Kaggle의 Real or Not? NLP with Disaster Tweet 대회 데이터를 이용했다.) dataTrain = pd.read_csv('train.csv') pandas_profiling.ProfileReport(dataTrai..
[Python] Miniconda로 환경세팅 / Windows 환경에서 tensorflow 설치 평소 머신러닝 예측 모델만 주구장창 해보다가 NLP 직군에 지원하게 되면서 NLP 쪽 공부를 시작하게 되었다. 텍스트 전처리를 하는 도구로 유명한 nltk 말고도 keras로도 가능하다길래 도전해보기로 했다. 그런데 노트북에 tensorflow도 깔려있지 않은걸 보고 충격... 그렇게 tensorflow 깔기를 시도했으나.... 생각보다 쉬운 일이 아니었다. 내 예전에 쓰던 노트북은 anaconda는 도저히 설치 불.가.능.한 노트북이었기에 새로 산 노트북에도 아나콘다 없이 파이썬을 돌리고 있었다. 그런데 이번에 새출발 새마음으로 miniconda를 설치해서 해보려고 했더니 다시 애를 먹은 것이다ㅠㅠ 그렇게 하루종일 cmd 창과 anaconda prompt 창을 오가며 pip install tensorf..
[Python] kaggle bike 데이터를 이용한 pandas 전처리 / seaborn 시각화 trn : train data / tes : test data >> datetime 전처리 # datetime 열에서 시간, 요일, 월, 연도 열 추출 trn['hour'] = [t.hour for t in pd.DatetimeIndex(trn.datetime)] trn['month'] = [t.month for t in pd.DatetimeIndex(trn.datetime)] trn['year'] = [t.year for t in pd.DatetimeIndex(trn.datetime)] tes['hour'] = [t.hour for t in pd.DatetimeIndex(tes.datetime)] tes['month'] = [t.month for t in pd.DatetimeIndex(tes.datet..
[SQL] 4. SQL 4.2 SQL 개요 비절차적 언어(선언적 언어) - 자신이 원하는 바(what)만 명시 대화식 SQL / 내포된 SQL (C, 코볼) 구성요소 : 데이터 검색, 조작어(삽입, 삭제, 수정) , 정의어, 트랜잭션 제어, 제어어 4.3 데이터 정의어와 무결성 제약조건 데이터 정의어 종류 CREATE DOMAIN / TABLE / VIEW / INDEX ALTER TABLE DROP DOMAIN / TABLE / VIEW / INDEX 스키마 생성&제거 CREATE SCHEMA my_db AUTHORIZATION kim; // 권한부여 DROP SCHEMA my_db RESTRICT; // 제약조건 DROP SCHEMA my_db CASCADE; // 스키마 객체 삭제 릴레이션 정의 예시 CREATE TABL..
[SQL] 1. 데이터베이스 시스템 1.1 데이터베이스 시스템 개요 데이터베이스란, 조직체의 응용 시스템들이 공유해서 사용하는 운영 데이터들이 구조적으로 통합된 모임이다. 이 구조는 사용되는 데이터 모델에 의해 결정된다. 또한 여러 사용자 의해 동시 사용, 중복 최소화, 설명 포함(데이터베이스 스키마 or 메타데이터), 프로그램과의 독립성이 있다는 특징을 지닌다. 그리고 보조기억장치에 저장되기 때문에 원하는 정보를 찾으려면 주기억 장치로 읽어들여야 하며, 연산을 위해서는 CPU가 사용된다. 이는 저장된 데이터베이스의 스키마 정보를 유지하는 시스템 카탈로그(system catalog, 데이터 사전)와 저장된 데이터베이스로 구분할 수 있다. 데이터베이스 관리 시스템(DBMS, DataBase Management System) : 데이터베이스 ..
[Peebles] 2. 랜덤변수 (2) 가우시안 랜덤변수 및 이항·포아송·균일·지수·레일리 분포 랜덤변수 X의 밀도함수가 아래와 같은 식의 형태를 띄면, 이 랜덤변수는 가우시안(gaussian)이라고 한다. (여기에서 σX>0, -∞