상세 컨텐츠

본문 제목

Python으로 Data 분석하기 2편 - (Series , DataFrame)

프로그래밍

by 스터디올 2022. 7. 28. 20:55

본문

반응형

2022.07.27 - [프로그래밍] - Python으로 Data 분석 하기 - 1편 (Series, DataFrame)

 

Python으로 Data 분석 하기 - 1편 (Series, DataFrame)

Python을 사용하는 가장 큰 이유 중 하나는 방대한 data를 가공 처리 해서 내가 원하는 data로 보기 쉽게 정리하기 위함이다. 이번 글은 Python으로 Data를 분석하기 위한 문법을 정리해 보려 한다. Python

jun-study.tistory.com

이전 글에서 보았듯이 user guide 문서를 기초해 공부한 내용을 정리 해보려 한다. 

Series에는 몇가지 특성으로 정리해 두었다. 그 중에 내가 사용할만한 내용은 아래와 같다. 

 

1. Series is ndarray-like

이 뜻은 Series는  n -dimmension array(numpy에 있는) 같다. 다시 말하면 numpy 연산이 가능하다는 것이다. 

이전에 만들어 놓은 Series를 가져와 보자. 

Market_Cap = pd.Series([3000000000000,2330000000000,1860000000000,1850000000000,
					    1640000000000,1050000000000,936000000000,674000000000,303000000000],
index=["AAPL",'MSFT','GOOG','GOOGL','AMZN',"TSLA",'FB',"NVDA",'ASML'])

위에 코드는 Market_Cap이라는 Series이다. 해당 Series를 가지고 ndarray 같은 연산이 가능한지 보자. 

print(Market_Cap[0])
print("\n")
print(Market_Cap[:3])
print("\n")
print(Market_Cap[Market_Cap > Market_Cap.median() ])

위에 결과는 아래와 같다. 

2. Vectorized operations and label alignment with Series

나는 이게 Series를 사용하는 가장 중요한 이유라고 생각한다. 

2번 제목을 풀어보자면 행렬로 연산이 가능하다는 것이다. 연산을 할때 label alignment가 된다는 것이다. label alignment라고 하면 같은 index 끼리 연산을 진행한다는 뜻이다. 

위에 예시 코드의 Series의 index는 AAPL, MSFT 등등이다. 따라서 다른 Series와 연산을 할 떄 기본적으로 AAPL은 AAPL 끼리 연산을 한다는 뜻이다. 이 말은 내가 여러 data를 가져와서 연산을 해줄때 label만 제대로 되어 있다면 data가 저장된 순서는 신경을 안써도 된다는 뜻이다. 이는 큰 양의 data를 다룰때 필수적이다. 

 

 

반응형

관련글 더보기

댓글 영역