상세 컨텐츠

본문 제목

Python DataFrame format 자유롭게 이용하기(indexing , slicing)

프로그래밍

by 스터디올 2022. 7. 29. 21:50

본문

반응형

Python에서 DataFrame이라는 format은 data를 가공하는데 매우 유용하게 사용된다. 다만 그 형식이 list와 비교했을 때 생소한 부분이 있기에 방법에 대해 숙지하고 있어야 될 필요가 있다. 이번 글은 해당 내용을 정리해 보려 한다. 우선 예시가 필요하기에 nasdaq.com 에 있는 일부 excel data를 이용해서 다뤄보려 한다. 엑셀에는 아래와 같은 내용이 들어 있다. 

해당 data를 DataFrame 형식으로 읽어 다양한 방법으로 각각의 data의 접근하는 것을 정리해보려 한다. 

1. excel data를 DataFrame으로 읽어 온다. 

2. Column selection 

Data 중 특정 column (열) 의 data를 이용하고 싶은 경우가 있을 것이다. 그때는 

test["Last Sale"] 같이 열의 이름을 이용하면 data를 이용할 수 있다. 다음은 결과이다. 위에 표에서 확인할 수 있듯이 Last Sale에 해당하는 data가 출력된다. 

DataFrame의 data의 필터 조건을 걸 수 있다. 즉 Last Sale이 10보다 큰 주식의 Symbol을 알고 싶을 때 다음과 같이 이용할 수 있다. 

test["flag"] = test["Last Sale"] > 10

test[test["Last Sale"] > 10]["Symbol"]

첫번째 code는 test DataFrame에 flag라는 열을 만들어 Last Sale이 10보다 큰 경우 True 아닐 경우 False 인 값을 써준다. 

두번째 code는 Last Sale 이 10보다 큰 Symbol을 나타낸다. 해당 코드를 출력하면 아래와 같이 나온다. 

실제 두번째 code는 꽤 요긴하게 사용될 수 있으니 꼭 기억해둘 것. 

 

3. 행 / row data 다루기 

2번 column에서 DataFrame의 열을 마치 index로 다뤘다. row도 마찬가지로 index처럼 다룰 수 있다. 

test["Last Sale"][:2]

해당 코드는 Last Sale 열에 처음부터 2-1 index까지 나타내는 것으로 출력은 아래와 같다. 

 

반응형

관련글 더보기

댓글 영역