Python을 사용하는 가장 큰 이유 중 하나는 방대한 data를 가공 처리 해서 내가 원하는 data로 보기 쉽게 정리하기 위함이다. 이번 글은 Python으로 Data를 분석하기 위한 문법을 정리해 보려 한다.
Python의 장점은 많은 사람들이 만들어 놓은 Library를 사용할 수 있는 것이다. 오늘 글은 Pandas라는 Library의 Series와 DataFrame에 관해 다뤄보려 한다. (해당 Library는 많이 사용되는 Library이니 사용하는 방법을 외워둬도 좋을 것이다. 나도 외우기 위해 해당 내용을 정리하는 중이다. )
아래 글은 pandas의 user_guide를 정리해 작성한 글이다.
https://pandas.pydata.org/docs/user_guide/dsintro.html
0. import pandas as pd
위에서 언급했듯이 pandas라는 library이기 떄문에 import 해주는 부분이 필요하다. 따라서 위에 import pandas를 해줘야 한다.
1. Series
python에서 기본적으로 제공되는 list와 비슷하다. list 같은 경우는 첫번째 data 부터 index 0을 시작으로 갖는다. Series는 index를 지정해 줄 수 있다. 아래에 예시를 보자.
index로 apple, banan, car, deer로 설정을 했고 해당 index를 이용해 data를 접근 할 수 있다. Series를 보다 쉽게 이해하기 위해 하나의 data 표라고 생각하면 쉽다.
apple | 1 |
banana | 2 |
car | 3 |
deer | 4 |
2. DataFrame
DataFrame은 Series가 모인거라고 생각하면 된다. 실생활에서 예를 들어보자. 아래에 표가 DataFrame이라고 생각하자. 그렇다면 index는 AAPL, MSFT 등 주식 symbol이라고 생각하면 되고 Name과 Market Cap이라는 Series를 가지고 있다고 생각하자.
Name | Market Cap | |
AAPL | Apple Inc. Common Stock | 3000000000000 |
MSFT | Microsoft Corporation Common Stock | 2330000000000 |
GOOG | Alphabet Inc. Class C Capital Stock | 1860000000000 |
GOOGL | Alphabet Inc. Class A Common Stock | 1850000000000 |
AMZN | Amazon.com Inc. Common Stock | 1640000000000 |
TSLA | Tesla Inc. Common Stock | 1050000000000 |
FB | Meta Platforms Inc. Class A Common Stock | 936000000000 |
NVDA | NVIDIA Corporation Common Stock | 674000000000 |
ASML | ASML Holding N.V. New York Registry Shares | 303000000000 |
DataFrame은 아래와 같이 생성한다. Name과 Market_Cap은 Series이다.
nasdaq = pd.DataFrame({"Name" : Name, "Market Cap" : Market_Cap})
위에 표를 python DataFrame을 생성해보면 아래와 같다.
3. 행과 열의 data를 이용
행은 index로 열은 columns로 접근할 수 있다.
nasdaq.index , nasdaq.columns
Python txt, csv, excel 파일 읽기 총 정리 !!! (0) | 2022.07.28 |
---|---|
Python으로 Data 분석하기 2편 - (Series , DataFrame) (0) | 2022.07.28 |
LFSR 원리와 C코드 만들기(3) (feat. Galoris LFSR) (0) | 2022.04.22 |
LFSR 원리와 C코드 만들어보기(2) (0) | 2022.04.21 |
1. System Verilog 는 왜 사용되는가? (feat. Verilog와 다른점) (1) | 2022.04.19 |
댓글 영역