conda create --name ch01 python=3.9
** 설치가 안되는 경우, 파이썬 버전을 다르게 해서 시도해보기
conda activate ch01
conda install jupyter notebook
conda install numpy
conda install pandas
conda install matplotlib
conda install seaborn
conda install scikit-learn
설치 진행
jupyter notebook (입력 시 크롬이나 웹브라우저로 안열릴 경우, 기본 실행 설정 변경해주기)
Pandas
- 데이터 처리와 분석을 위한 파이썬 라이브러리
- DataFrame 이라는 엑셀표와 비슷한 데이터 구조 제공
- 대용량 데이터를 효율적으로 다루는 것이 가능 -> 최소 1GB~100GB까지도 빠른 속도로 처리
- 파이썬의 문법을 그대로 가지고 옴, 직관적으로 함수가 구현되어 있어서 쉽게 읽을 수 있음
Matplotlib
- 대표적인 파이썬의 과학 계산용 그래프 라이브러리
- 선 그래프, 히스토그램 등을 지원
Seaborn
- matplotlib을 기반으로 만들어져 통계 데이터 시각화에 최적화된 라이브러리
- 데이터의 분포도 그리기
- 히트맵 그리기
- 박스 플롯 그리기
Scikit-learn(sklearn)
- 대부분의 머신러닝 알고리즘 제공
- 인기가 매우 높으며 독보적인 위치 점유
- 연습을 할 수 있는 다양한 데이터 셋과 예제코드 제공
- 공학용 라이브러리와의 연동이 훌륭함
pandas에서 csv파일 불러오기 : pd.read_csv("")
head() : 상위 5개 출력
특정 컬럼(여기서는 Unnamed: 0)을 index 로 가져오고 싶을 때 index_col="Unnamed: 0" 명령어를 쓰면 된다
dataframe = pd.read_csv("College.csv", index_col="Unnamed: 0")
원하는 column 정보만 불러오기
dataframe["Priavte"]
특정 column 여러개 가져오기
df_double = dataframe[["Private", "Apps" ,"Accept", "Enroll"]]
# row 를 slicing 할 때는 .loc 를 붙여 사용해야 한다.
# row 명을 그대로 가지고 와서 slicing 을 시켜준다.
# 0번 index 부터 4번 index 까지 출력
dataframe_0_4 = dataframe.loc["Abilene Christian University":"Agnes Scott College"]
# indexing
# 특점 컬럼에서 특정 값을 가지는 것만 가져오자
dataframe_private = dataframe[dataframe["Private"] == "No"].head(5)
# private 이 no 이면서 PhD column 의 값이 95 이상인 경우
dataframe_pri_phd = dataframe[(dataframe["Private"] == "No") & (dataframe["PhD"] > 95)]
# private 이 no 이면서 "Apps","Accept","Enroll","Top10perc" column을 가져올 경우
print(dataframe[dataframe["Private"] == "No"][["Apps","Accept","Enroll","Top10perc"]].shape)
dataframe_pri_col = dataframe[dataframe["Private"] == "No"][["Apps","Accept","Enroll","Top10perc"]]
# 데이터프레임[추가할컬럼] = 추가할 값 의 형식으로 column 을 추가
dataframe["master"] = 50
# 1. 컬럼을 새로 지정해주기
# List method 를 이용한다
print("variety 컬럼 삭제")
new_col = ['sepal.length', 'sepal.width', 'petal.length', 'petal.width']
new_iris = iris[new_col]
# 2. drop method 사용
# drop으로 컬럼을 제거할때는 언제나 axis=1이라는 옵션을 넣어주어야 한다 (axis =0 은 row 를 제거)
new_iris1 = iris.drop("sepal.length", axis=1)
'Learning Space > Machine Learning, Deep Learning' 카테고리의 다른 글
[Machine Learning] TensorFlow를 시작하며 (0) | 2023.06.14 |
---|---|
[Machine Learning] 환경구축(TensorFlow) (1) | 2023.06.14 |
KNN(K-Nearest Neighbor) (0) | 2023.01.02 |
머신러닝의 이해 (0) | 2023.01.01 |
Linear Models for Regression(선형회귀 모델) (0) | 2022.12.21 |