환경 설정

conda create --name ch01 python=3.9

** 설치가 안되는 경우, 파이썬 버전을 다르게 해서 시도해보기

conda activate ch01

conda install jupyter notebook

conda install numpy

conda install pandas

conda install matplotlib

conda install seaborn

conda install scikit-learn

설치 진행

jupyter notebook (입력 시 크롬이나 웹브라우저로 안열릴 경우, 기본 실행 설정 변경해주기)

Pandas

- 데이터 처리와 분석을 위한 파이썬 라이브러리

- DataFrame 이라는 엑셀표와 비슷한 데이터 구조 제공

- 대용량 데이터를 효율적으로 다루는 것이 가능 -> 최소 1GB~100GB까지도 빠른 속도로 처리

- 파이썬의 문법을 그대로 가지고 옴, 직관적으로 함수가 구현되어 있어서 쉽게 읽을 수 있음

Matplotlib

- 대표적인 파이썬의 과학 계산용 그래프 라이브러리

- 선 그래프, 히스토그램 등을 지원

Seaborn

- matplotlib을 기반으로 만들어져 통계 데이터 시각화에 최적화된 라이브러리

- 데이터의 분포도 그리기

- 히트맵 그리기

- 박스 플롯 그리기

Scikit-learn(sklearn)

- 대부분의 머신러닝 알고리즘 제공

- 인기가 매우 높으며 독보적인 위치 점유

- 연습을 할 수 있는 다양한 데이터 셋과 예제코드 제공

- 공학용 라이브러리와의 연동이 훌륭함

pandas에서 csv파일 불러오기 : pd.read_csv("")

head() : 상위 5개 출력

특정 컬럼(여기서는 Unnamed: 0)을 index 로 가져오고 싶을 때 index_col="Unnamed: 0" 명령어를 쓰면 된다
dataframe = pd.read_csv("College.csv", index_col="Unnamed: 0")

원하는 column 정보만 불러오기

dataframe["Priavte"]

특정 column 여러개 가져오기

df_double = dataframe[["Private", "Apps" ,"Accept", "Enroll"]]

# row 를 slicing 할 때는 .loc 를 붙여 사용해야 한다.
# row 명을 그대로 가지고 와서 slicing 을 시켜준다.

# 0번 index 부터 4번 index 까지 출력
dataframe_0_4 = dataframe.loc["Abilene Christian University":"Agnes Scott College"]

# indexing
# 특점 컬럼에서 특정 값을 가지는 것만 가져오자

dataframe_private = dataframe[dataframe["Private"] == "No"].head(5)

# private 이 no 이면서 PhD column 의 값이 95 이상인 경우
dataframe_pri_phd = dataframe[(dataframe["Private"] == "No") & (dataframe["PhD"] > 95)]

# private 이 no 이면서 "Apps","Accept","Enroll","Top10perc" column을 가져올 경우

print(dataframe[dataframe["Private"] == "No"][["Apps","Accept","Enroll","Top10perc"]].shape)

dataframe_pri_col = dataframe[dataframe["Private"] == "No"][["Apps","Accept","Enroll","Top10perc"]]

# 데이터프레임[추가할컬럼] = 추가할 값 의 형식으로 column 을 추가
dataframe["master"] = 50

# 1. 컬럼을 새로 지정해주기
# List method 를 이용한다

print("variety 컬럼 삭제")
new_col = ['sepal.length', 'sepal.width', 'petal.length', 'petal.width']
new_iris = iris[new_col]

# 2. drop method 사용
# drop으로 컬럼을 제거할때는 언제나 axis=1이라는 옵션을 넣어주어야 한다 (axis =0 은 row 를 제거)

new_iris1 = iris.drop("sepal.length", axis=1)

728x90

저작자표시 비영리 동일조건

'Learning Space > Machine Learning, Deep Learning' 카테고리의 다른 글

[Machine Learning] TensorFlow를 시작하며 (0)	2023.06.14
[Machine Learning] 환경구축(TensorFlow) (1)	2023.06.14
KNN(K-Nearest Neighbor) (0)	2023.01.02
머신러닝의 이해 (0)	2023.01.01
Linear Models for Regression(선형회귀 모델) (0)	2022.12.21

'Learning Space > Machine Learning, Deep Learning' 카테고리의 다른 글

티스토리툴바