Tidy Data 란?
- 깔끔한 데이터
- 변수가 열이고, 관측치가 행이 되도록 배열하고, 한 셀이 하나의 관측치를 의미하는 데이터
melt를 이용해 tidyData만들기
cheese = pd.DataFrame(
{
"first": ["John", "Mary"],
"last": ["Doe", "Bo"],
"height": [5.5, 6.0],
"weight": [130, 150],
}
)
cheese.melt(id_vars=["first", "last"])
cheese.melt(id_vars=["first", "last"], var_name="quantity")
LongForm
- 변수에따라 x, y, hue 등을 지정해서 사용하기 좋다.
WideForm
- Pandas plot 으로 막대의 색상을 다르게 지정하거나, 서브 플롯을 그리거나 시각화 하기 좋다.
파일로된 데이터와 DB에 있는 데이터는 어떻게 구분할까?
- DB에는 실시간으로 공유되어야 하는 데이터가 주로 저장되며 파일에는 보통 사용자의 행동정보 등 기록이 필요한 정보를 저장한다.
boxplot 의 장점
- bar, point 의 단점을 보완하여 만들어졌다.
- bar 와 point는 대표값(평균, 합계)만을 표기하는데, 대표값만으로는 데이터를 제대로 설명하기 어렵다. box 에는 여러가지 데이터의 표현이 들어가 있다.
heatmap과 background_gradient의 차이점?
- sns.heatmap() : 하나의 변수를 비교하고자 할 떄 적합하다.
- df.style.background_gradient() : 성질이 다른 각 변수를 각각 비교하고자 할 떄 적합하다.
트래픽을 줄이기 위해서는 어떻게 할까?
- 캐시를 어떻게 사용하느냐, 파일 입출력관리 데이터베이스 관리 등에 따라 트래픽 비용이 달라진다.
- 트래픽을 분석하거나 관리해주는 도구도 있다.
isin과 contains의 차이점?
- isin은 리스트형태에서 사용가능하며 정확히 일치하는 데이터만 찾는다.
- contains는 정규식으로 찾을 수 있다.
결측치를 0으로 채우면 안되는 데이터는?
- 나이, BMI지수, 체중, 키 => 현실 세계에서 0이 될 수 없는 데이터 (0이 되면 정확도가 상당히 떨어져 예측률이 떨어진다)
- 전일비를 구하는 데이터
- 평균값을 내야하는 데이터
- 게임 데이터 (예) 롤 에서 kda따질때 (킬+어시스트)/데쓰 인데 데쓰가 0이면 무한대가 나오므로, 0으로 하면 안됨 -> DB에서 설정할 때, 없는 값은 null 로 관리하는데 가끔 -1 등으로 표기하는 실수를 하기도 하는데, -1 값이 결측치 대신 들어갔을 때 평균을 계산하면 완전 잘못된 계산을 하게 되니 유의
버거지수
밐폭도 @Godtsune_miku
"한 도시의 발전 수준은 (버거킹의 개수+맥도날드의 개수+KFC의 개수)/롯데리아의 개수를 계산하여 높게 나올수록 더 발전된 도시라고 할 수 있다"
https://nbviewer.org/gist/hyeshik/cf9f3d7686e07eedbfda?revision=6
데이터 합치기
상관 계수
상관 분석(相關 分析, Correlation analysis) 또는 '상관관계' 또는 '상관'은 확률론과 통계학에서 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r 을 사용한다.
상관관계의 정도를 파악하는 상관 계수(相關係數, Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.
* 출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D
피어슨 상관계수`
- r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다.
- 결정계수(coefficient of determination)는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.
일반적으로
r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
'WIL' 카테고리의 다른 글
[WIL] Matplotlib (0) | 2023.02.02 |
---|---|
[WIL] Jupyter Notebook 사용하기, Pandas (0) | 2023.01.19 |
[WIL] Pandas 기초, 데이터 수집하기 (1) | 2023.01.12 |