본문 바로가기

1. Python

[Python study] 데이터 분석 pandas pd 패키지

728x90
반응형

안녕하세요 날씨가 많이 따듯해졌네요 봄이 오는 것 같습니다 기분이 홀가분 하네요!

이번주는 출장이 잦아 글을 잘 못 쓰고있네요,, 또 드라마 "더 글로리"가 이번주에 나와서 게을러질까 걱정입니다.

 

오늘은 데이터분석 패키지 두번째 시간으로 pandas 패키지에 관해 알아 보도록해요😊

pandas 패키지는 numpy 패키지와 같이 사용되는 경우가 많아 numpy패키지를 먼저 공부하시는것을 추천합니다.

2023.02.28 - [1. Python] - [Python study] numpy np 패키지

 

[Python study] numpy np 패키지

안녕하세요 주말에 놀러갔다와서 아직도 머리가 아픈 저녁이네요ㅠ 오늘은 지난시간에 설치한 주피터노트북을 이용한 데이터분석 기본툴인 numpy 패키지에 관해 알아보도록 하겠습니다! 아나콘

bobby1001.tistory.com

 

1. pandas 패키지란?

 

pandas 패키지는 데이터 분석을 용이하게 하기위한 도구라고 생각 하시면 됩니다!

무수히 많은 데이터 들을 다루는데 있어정리를 해야하는 경우들이 있는데 pandas 패키지는 엑셀로 정리하는것과 동일하게 정리 할 수 있는 도구들을 제공합니다.

 

2. pandas 패키지 사용 방법

 

1) 패키지 불러오기

 

pandas 패키지는 우선 패키지 불러오기를 진행한 이후 사용 할 수 있습니다.

앞선 공부 내용 중 아나콘다를 설치하면 기본적인 패키지들을 제공하고있어 바로 불러오기만 진행하시면 됩니다! 

 

import pandas as pd

 

numpy 를 np로 약어를 지정해서 사용하는것과 유사하게 pandas 패키지는 흔히 pd 라고 약어를 써서 지정합니다.

 

2) pandas 패키지 자료 구조 (Series)

 

pandas 패키지는 대표적으로 Series라는 1차원 자료구조가 있습니다.

 

pd.Series( [x1,x2,x3...])         #Series 앞글자 대문자로 표기

 

Series 와 List를 비교해 볼까요? List,Series 모두 값들을 표시하나 Series 는 앞에 순서를 나타내는 Index 까지 같이 저장되는 것을 볼 수 있어요😮

 

pd.Series( [x1,x2,x3...], index = [y1,y2,y3,...] ) 

Index를 설정을 안했을 때는 Default로 순서를 나타내는 0 부터 데이터의 수 만큼 표시가 되는데, 사용자가 임의로 지정 할 수 도있습니다.

c,d라는 변수에 동일한 index를 부여하고 덧셈을 실행했을 때 같은 index 끼리 맞춰서 덧셈하는 것도 가능합니다!

 

3) pandas 패키지 자료 구조 (DataFrame)

 

자료구조의 두번째로 DataFrame이라는 자료 형태가 있습니다.

해당 자료 형태는 우리가 엑셀에서 볼 수 있는 행,열의 형태를 갖추고 있어요!

 

pd.DataFrame({'x1' : [y1,y2...], 'x2' : [z1,z2...], ...})      #D,F 대문자로 표기

 

데이터 프레임은 Dictionary 형태로 자료 변수를 지정한 이후 데이터프레임을 생성하면 Dictionary의 Key 값은 Column으로 들어가고 각 Key의 Value 데이터들은 같은 열에 나란히 표시됩니다!

이때 주의 할 점은 각 Key에 해당하는 Value값의 개수가 동일해야해요😯

 

pd.DataFrame({'x1' : [y1,y2...], 'x2' : [z1,z2...], ...}, index = [w1,w2,...] ) 

Series 자료 구조와 동일하게 index를 사용자 임의로 변경 할 수도 있어요!

다음과 같이 두개의 데이터프레임을 만들고 덧셈을 하게 되면 Series와 유사하게 같은 Index, 같은 Column끼리 매칭해서 연산도 가능합니다!

4. 마치며

 

오늘은 데이터 분석에 필요한 패키지 도구 중 하나로 pandas 패키지에 관해 알아보았는데요 !

자료 구조가 액셀과 유사하게 직관적으로 잘 보이고 연산도 액셀보다 더 다양하게 활용 할 수 있을 것 같습니다.

트랜드에 맞게 앞으로는 액셀을 안 쓸지도,,모르겠네요 pandas는 여러가지 함수들이 더 많지만 가장 중요한 내용 위주로 공부를 해보았습니다! 다른 함수들은 정말 찐으로 데이터 분석 시에 더 알아 보도록 해요🙂

오늘 하루도 고생하셨습니다.

728x90
반응형