2022.07.27 - [프로그래밍] - Python으로 Data 분석 하기 - 1편 (Series, DataFrame)
이전 글에서 보았듯이 user guide 문서를 기초해 공부한 내용을 정리 해보려 한다.
Series에는 몇가지 특성으로 정리해 두었다. 그 중에 내가 사용할만한 내용은 아래와 같다.
1. Series is ndarray-like
이 뜻은 Series는 n -dimmension array(numpy에 있는) 같다. 다시 말하면 numpy 연산이 가능하다는 것이다.
이전에 만들어 놓은 Series를 가져와 보자.
Market_Cap = pd.Series([3000000000000,2330000000000,1860000000000,1850000000000,
1640000000000,1050000000000,936000000000,674000000000,303000000000],
index=["AAPL",'MSFT','GOOG','GOOGL','AMZN',"TSLA",'FB',"NVDA",'ASML'])
위에 코드는 Market_Cap이라는 Series이다. 해당 Series를 가지고 ndarray 같은 연산이 가능한지 보자.
print(Market_Cap[0])
print("\n")
print(Market_Cap[:3])
print("\n")
print(Market_Cap[Market_Cap > Market_Cap.median() ])
위에 결과는 아래와 같다.
2. Vectorized operations and label alignment with Series
나는 이게 Series를 사용하는 가장 중요한 이유라고 생각한다.
2번 제목을 풀어보자면 행렬로 연산이 가능하다는 것이다. 연산을 할때 label alignment가 된다는 것이다. label alignment라고 하면 같은 index 끼리 연산을 진행한다는 뜻이다.
위에 예시 코드의 Series의 index는 AAPL, MSFT 등등이다. 따라서 다른 Series와 연산을 할 떄 기본적으로 AAPL은 AAPL 끼리 연산을 한다는 뜻이다. 이 말은 내가 여러 data를 가져와서 연산을 해줄때 label만 제대로 되어 있다면 data가 저장된 순서는 신경을 안써도 된다는 뜻이다. 이는 큰 양의 data를 다룰때 필수적이다.
Python DataFrame format 자유롭게 이용하기(indexing , slicing) (0) | 2022.07.29 |
---|---|
Python txt, csv, excel 파일 읽기 총 정리 !!! (0) | 2022.07.28 |
Python으로 Data 분석 하기 - 1편 (Series, DataFrame) (0) | 2022.07.27 |
LFSR 원리와 C코드 만들기(3) (feat. Galoris LFSR) (0) | 2022.04.22 |
LFSR 원리와 C코드 만들어보기(2) (0) | 2022.04.21 |
댓글 영역