상세 컨텐츠

본문 제목

Python으로 Data 분석 하기 - 1편 (Series, DataFrame)

프로그래밍

by 스터디올 2022. 7. 27. 21:42

본문

반응형

Python을 사용하는 가장 큰 이유 중 하나는 방대한 data를 가공 처리 해서 내가 원하는 data로 보기 쉽게 정리하기 위함이다. 이번 글은 Python으로 Data를 분석하기 위한 문법을 정리해 보려 한다. 

 

Python의 장점은 많은 사람들이 만들어 놓은 Library를 사용할 수 있는 것이다. 오늘 글은 Pandas라는 Library의 Series와 DataFrame에 관해 다뤄보려 한다. (해당 Library는 많이 사용되는 Library이니 사용하는 방법을 외워둬도 좋을 것이다. 나도 외우기 위해 해당 내용을 정리하는 중이다. )

 

아래 글은 pandas의 user_guide를 정리해 작성한 글이다. 

https://pandas.pydata.org/docs/user_guide/dsintro.html

 

Intro to data structures — pandas 1.4.3 documentation

When working with raw NumPy arrays, looping through value-by-value is usually not necessary. The same is true when working with Series in pandas. Series can also be passed into most NumPy methods expecting an ndarray. A key difference between Series and nd

pandas.pydata.org

 

0. import pandas as pd

위에서 언급했듯이 pandas라는 library이기 떄문에 import 해주는 부분이 필요하다. 따라서 위에 import pandas를 해줘야 한다.  

 

1. Series 

python에서 기본적으로 제공되는 list와 비슷하다. list 같은 경우는 첫번째 data 부터 index 0을 시작으로 갖는다. Series는 index를 지정해 줄 수 있다.  아래에 예시를 보자. 

index로 apple, banan, car, deer로 설정을 했고 해당 index를 이용해 data를 접근 할 수 있다. Series를 보다 쉽게 이해하기 위해 하나의 data 표라고 생각하면 쉽다. 

apple 1
banana 2
car 3
deer 4

 

2. DataFrame

DataFrame은 Series가 모인거라고 생각하면 된다. 실생활에서 예를 들어보자.  아래에 표가 DataFrame이라고 생각하자. 그렇다면 index는 AAPL, MSFT 등 주식 symbol이라고 생각하면 되고 Name과 Market Cap이라는 Series를 가지고 있다고 생각하자. 

  Name Market Cap
AAPL Apple Inc. Common Stock 3000000000000
MSFT Microsoft Corporation Common Stock 2330000000000
GOOG Alphabet Inc. Class C Capital Stock 1860000000000
GOOGL Alphabet Inc. Class A Common Stock 1850000000000
AMZN Amazon.com Inc. Common Stock 1640000000000
TSLA Tesla Inc. Common Stock 1050000000000
FB Meta Platforms Inc. Class A Common Stock 936000000000
NVDA NVIDIA Corporation Common Stock 674000000000
ASML ASML Holding N.V. New York Registry Shares 303000000000

DataFrame은 아래와 같이 생성한다. Name과 Market_Cap은 Series이다. 

nasdaq = pd.DataFrame({"Name" : Name, "Market Cap" : Market_Cap})

위에 표를 python DataFrame을 생성해보면 아래와 같다. 

3. 행과 열의 data를 이용

행은 index로 열은 columns로 접근할 수 있다. 

nasdaq.index , nasdaq.columns 

 

 

반응형

관련글 더보기

댓글 영역