빅데이터분석기사 실기 3유형 코드정리(4)

be-traineeit 2025. 1. 15. 23:43

2025. 1. 15. 23:43

개인적으로 가장 중요한건 .summary()

이것만 외워도 최소 1~2문제 이상은 맞출 수 있을거라고 생각하니깐

.summary() 함수는 꼭 외워가시길 바람..

주요 항목으로는 아래처럼 확인할 수 있다

coef: 각 독립 변수의 회귀 계수

std err: 각 계수의 표준 오차로, 계수 추정의 불확실성을 나타냄

z: 계수의 z-통계량으로, 계수가 0인지 테스트하는 데 사용

P>|z|: z-통계량에 대한 p-값으로, p-값이 0.05보다 작으면 해당 변수가 통계적으로 유의미하다고 판단

[0.025, 0.975]: 계수의 95% 신뢰 구간

그 외에는 정석으로 공부한 내용

3유형은 깊게 공부하지않아서 자주빈출했었던 핵심적인 내용만 작성합니다

해당 내용은 실기 체험문제를 기반으로 작성했습니다

import pandas as pd
import numpy as np

카이제곱
from scipy.stats import chi2_contingency
table = pd.crosstab(df['Gender'], df['Survived'])
chi2, p_value, ddof, exp = chi2_contingency(table)
print(chi2)

로지스틱회귀 (Survived를 종속 변수로 하고, Gender, SibSp, Parch, Fare를 독립 변수)
from statsmodels.formula.api import logit
result = logit('Survived ~ Gender+SibSp+Parch+Fare', data =df ).fit().summary()
print(result)

선형 회귀분석 (Survived를 종속 변수로 하고, Gender, SibSp, Parch, Fare를 독립 변수)

import statsmodels.api as sm import statsmodels.formula.api as smf

linear_model = smf.ols('Survived ~ Gender + SibSp + Parch + Fare', data=df).fit()

print(linear_model.summary())

오즈비
from statsmodels.formula.api import logit
result2 = logit('Survived ~ Gender+SibSp+Parch+Fare', data =df ).fit().params
print(np.exp(result2))

검정통계랑
from scipy import stats
result = stats.ttest_rel(df['SibSp'], df['Survived'], alternative = 'greater')
print(result)

상관분석 ( 'Fare'와 'Age' 변수 간의 상관분석)

from scipy.stats import pearsonr

corr, p_value = pearsonr(df['Fare'], df['Age'])

print(f'피어슨 상관계수: {corr}, p-값: {p_value}')

정규성 검정 ('Fare' 변수의 정규성 검정)

from scipy.stats import shapiro

stat, p_value = shapiro(df['Fare'])

print(f'검정 통계량: {stat}, p-값: {p_value}')

일원분산분석 ( 'Pclass'에 따른 'Fare'의 차이 검정)

from scipy.stats import f_oneway

group1 = df[df['Pclass'] == 1]['Fare']

group2 = df[df['Pclass'] == 2]['Fare']

group3 = df[df['Pclass'] == 3]['Fare']

stat, p_value = f_oneway(group1, group2, group3)

print(f'F-통계량: {stat}, p-값: {p_value}')

독립표본 t-검정 ( 'Gender'에 따른 'Age'의 차이 검정)

from scipy.stats import ttest_ind

male_age = df[df['Gender'] == 'male']['Age']

female_age = df[df['Gender'] == 'female']['Age']

stat, p_value = ttest_ind(male_age, female_age, alternative='two-sided')

print(f't-통계량: {stat}, p-값: {p_value}')

아래는 공부하면서 자주 나왔거나 중점적으로 공부했으면 좋을 내용입니다(1,6,7,8번 중요도up★)

1 상관관계 분석: 데이터의 변수들 간 상관관계를 분석하여 상관계수를 계산하는 문제

2 정규성 검정: 데이터가 정규분포를 따르는지 확인하는 문제로, 주로 Shapiro-Wilk 검정을 사용.

3 일원분산분석 (ANOVA): 여러 집단 간 평균의 차이를 검정하는 문제

4 이원분산분석: 두 개의 요인에 대한 평균 차이를 검정하는 문제로, 상호작용 효과도 고려

5 t-검정:

- 단일표본 t-검정: 단일 표본의 평균이 특정 값과 다른지 검정

- 독립표본 t-검정:두 독립된 집단의 평균 차이를 검정

6 점추정과 구간추정: 표본을 통해 모집단의 모수를 추정하고, 신뢰구간을 계산하는 문제

7 카이제곱 독립성 검정: 두 범주형 변수 간의 독립성을 검정하는 문제

8 회귀 분석:

- 다중선형 회귀: 여러 독립 변수를 사용하여 종속 변수와의 관계를 모델링

- 로지스틱 회귀: 이진 종속 변수와 독립 변수들 간의 관계를 모델링

해당 링크는 빅분기 실기를 공부하면서 많은 도움이 됐던 영상입니다 참고하시면 좋습니다

https://www.youtube.com/watch?v=-mYXKWBmwZM

그 외로 필기에서 공부했듯이 귀무가설, 독립가설 등 기본적인 용어 숙지를 한다면 더욱 좋습니다

저작자표시 비영리 변경금지

'자격증' 카테고리의 다른 글

빅데이터분석기사 실기 2유형 코드정리(3) (1)	2025.01.12
빅데이터분석기사 실기 1유형 코드정리(2) (1)	2025.01.09
빅데이터분석기사 후기(필기, 실기 공부방법, 합격률, 공부기간, 난이도체감 등)(1) (7)	2025.01.04
빅분기 실기 9회 합격 (0)	2024.12.21
자격증 현황 (2)	2024.12.15

공기업 전산직을 위한 도서관

빅데이터분석기사 실기 3유형 코드정리(4)

빅분기 후기

빅분기 실기 1유형 코드정리

빅분기 실기 2유형 코드정리

'자격증' 카테고리의 다른 글

+ Recent posts

티스토리툴바