데이터분석

[Pandas] 네이버 증권 사이트의 종목토론실 데이터 수집하기
수업시간에 배운내용을 토대로 Pandas를 이용하여 네이버 증권사이트 내 종목토론실의 데이터를 수집한다 나는 LG에너지솔루션 종목의 종목토론실을 수집하겠다! 일단 필요한 모듈들을 import 한다. import pandas as pd from bs4 import BeautifulSoup as bs import requests import time 일단 첫페이지의 데이터 부터 수집해보자 item_code = 373220 page_no = 1 list_url = f'https://finance.naver.com/item/board.naver?code={item_code}&page={page_no}' headers = {"user-agent": "Mozilla/5.0"} # requests로 요청한다 resp..

Correlation Coefficient : 상관계수
상관계수 (Correlation Coefficient) - numpy를 이용하여 데이터의 상관계수를 구하기 - python으로 직접구현하여 데이터의 상관계수를 구하기 물론 numpy를 사용하는 것이 퍼포먼스적으로 월등하게 좋지만, 연습겸 공부겸 하여 구현해보려고 한다. data1 = [80, 85, 100, 90, 95] data2 = [70, 80, 100, 95, 95] data3 = [100, 90, 70, 90, 80] 분산(variance) - 1개의 이산정도를 나타낸다. - 편차(평균과의 차이) 제곱의 평균 - 표준편차 = 분산의 제곱근 python으로 직접 구현 def variance(data): var = 0 x_ = sum(data) / len(data) for xi in data: va..
Conditional Probability : 조건부 확률
Conditional Probability : 조건부 확률 - 사건 A가 발생했다는 조건하에 사건 B가 발생할 확률 - 사건 A가 발생했을 때 사건 B의 조건부 확률 P(B|A) = P(A∩B) / P(A) 특징 - P(B|A) ≠ P(A|B) - P(A∩B) = P(B)P(A|B) = P(A)P(B|A) - 사건 B가 발생했을때 사건 A가 발생할 확률을 사건 A가 발생했을떄 사건 B가 발생할 확률로 알아 낼 수 있다. - P(A|B) = P(A∩B) / P(B) = P(A)P(B|A) / P(B)