반응형

빅분기 후기

빅데이터분석기사 후기(필기, 실기 공부방법, 합격률, 공부기간, 난이도체감 등)(1) :: 공기업 전산직을 위한 도서관

빅분기 실기 1유형 코드정리

빅데이터분석기사 실기 1유형 코드정리 (2) :: 공기업 전산직을 위한 도서관  

빅분기 실기 2유형 코드정리

빅데이터분석기사 실기 2유형 코드정리 (3) :: 공기업 전산직을 위한 도서관 

 

 

 

개인적으로 가장 중요한건 .summary() 

이것만 외워도 최소 1~2문제 이상은 맞출 수 있을거라고 생각하니깐

 .summary() 함수는 꼭 외워가시길 바람..

 

summary 함수 사용시 볼 수 있는 정보

 

주요 항목으로는 아래처럼 확인할 수 있다

 

coef: 각 독립 변수의 회귀 계수

std err: 각 계수의 표준 오차로, 계수 추정의 불확실성을 나타냄

z: 계수의 z-통계량으로, 계수가 0인지 테스트하는 데 사용

P>|z|: z-통계량에 대한 p-값으로, p-값이 0.05보다 작으면 해당 변수가 통계적으로 유의미하다고 판단

[0.025, 0.975]:  계수의 95% 신뢰 구간

 

 

 

 

그 외에는 정석으로 공부한 내용

3유형은 깊게 공부하지않아서 자주빈출했었던 핵심적인 내용만 작성합니다

해당 내용은 실기 체험문제를 기반으로 작성했습니다

 

 

 

import pandas as pd
import numpy as np

 


카이제곱 
from scipy.stats import chi2_contingency
table = pd.crosstab(df['Gender'], df['Survived'])
chi2, p_value, ddof, exp = chi2_contingency(table)
print(chi2)

로지스틱회귀 (Survived를 종속 변수로 하고, Gender, SibSp, Parch, Fare를 독립 변수)
from statsmodels.formula.api import logit  
result = logit('Survived ~ Gender+SibSp+Parch+Fare', data =df ).fit().summary()
print(result)

 

선형 회귀분석 (Survived를 종속 변수로 하고, Gender, SibSp, Parch, Fare를 독립 변수)

import statsmodels.api as sm import statsmodels.formula.api as smf

linear_model = smf.ols('Survived ~ Gender + SibSp + Parch + Fare', data=df).fit()

print(linear_model.summary())


오즈비
from statsmodels.formula.api import logit
result2 = logit('Survived ~ Gender+SibSp+Parch+Fare', data =df ).fit().params
print(np.exp(result2))

검정통계랑
from scipy import stats
result = stats.ttest_rel(df['SibSp'], df['Survived'], alternative = 'greater')
print(result)

 

상관분석 ( 'Fare'와 'Age' 변수 간의 상관분석)

from scipy.stats import pearsonr  

corr, p_value = pearsonr(df['Fare'], df['Age'])

print(f'피어슨 상관계수: {corr}, p-값: {p_value}')

 

정규성 검정 ('Fare' 변수의 정규성 검정)

from scipy.stats import shapiro

stat, p_value = shapiro(df['Fare'])

print(f'검정 통계량: {stat}, p-값: {p_value}')

 

일원분산분석 (  'Pclass'에 따른 'Fare'의 차이 검정)

from scipy.stats import f_oneway 

group1 = df[df['Pclass'] == 1]['Fare']

group2 = df[df['Pclass'] == 2]['Fare']

group3 = df[df['Pclass'] == 3]['Fare']

stat, p_value = f_oneway(group1, group2, group3)

print(f'F-통계량: {stat}, p-값: {p_value}')

 

독립표본 t-검정 ( 'Gender'에 따른 'Age'의 차이 검정)

from scipy.stats import ttest_ind

male_age = df[df['Gender'] == 'male']['Age']

female_age = df[df['Gender'] == 'female']['Age']

stat, p_value = ttest_ind(male_age, female_age, alternative='two-sided')

print(f't-통계량: {stat}, p-값: {p_value}')

 

 

 

 

아래는 공부하면서 자주 나왔거나 중점적으로 공부했으면 좋을 내용입니다(1,6,7,8번 중요도up★)

 

 

1 상관관계 분석: 데이터의 변수들 간 상관관계를 분석하여 상관계수를 계산하는 문제

2 정규성 검정: 데이터가 정규분포를 따르는지 확인하는 문제로, 주로 Shapiro-Wilk 검정을 사용.

3 일원분산분석 (ANOVA): 여러 집단 간 평균의 차이를 검정하는 문제

4 이원분산분석: 두 개의 요인에 대한 평균 차이를 검정하는 문제로, 상호작용 효과도 고려

5 t-검정:

  - 단일표본 t-검정: 단일 표본의 평균이 특정 값과 다른지 검정

  - 독립표본 t-검정:두 독립된 집단의 평균 차이를 검정

6 점추정과 구간추정: 표본을 통해 모집단의 모수를 추정하고, 신뢰구간을 계산하는 문제

7 카이제곱 독립성 검정: 두 범주형 변수 간의 독립성을 검정하는 문제

8 회귀 분석:

 - 다중선형 회귀: 여러 독립 변수를 사용하여 종속 변수와의 관계를 모델링

 - 로지스틱 회귀: 이진 종속 변수와 독립 변수들 간의 관계를 모델링

 

 

 

해당 링크는 빅분기 실기를 공부하면서 많은 도움이 됐던 영상입니다 참고하시면 좋습니다

https://www.youtube.com/watch?v=-mYXKWBmwZM 

 

 

그 외로 필기에서 공부했듯이 귀무가설, 독립가설 등 기본적인 용어 숙지를 한다면 더욱 좋습니다

반응형

+ Recent posts

// 기업1 D-Day