반응형
반응형

빅분기 후기

빅데이터분석기사 후기(필기, 실기 공부방법, 합격률, 공부기간, 난이도체감 등)(1) :: 공기업 전산직을 위한 도서관

빅분기 실기 1유형 코드정리

빅데이터분석기사 실기 1유형 코드정리 (2) :: 공기업 전산직을 위한 도서관  

빅분기 실기 2유형 코드정리

빅데이터분석기사 실기 2유형 코드정리 (3) :: 공기업 전산직을 위한 도서관 

 

 

 

개인적으로 가장 중요한건 .summary() 

이것만 외워도 최소 1~2문제 이상은 맞출 수 있을거라고 생각하니깐

 .summary() 함수는 꼭 외워가시길 바람..

 

summary 함수 사용시 볼 수 있는 정보

 

주요 항목으로는 아래처럼 확인할 수 있다

 

coef: 각 독립 변수의 회귀 계수

std err: 각 계수의 표준 오차로, 계수 추정의 불확실성을 나타냄

z: 계수의 z-통계량으로, 계수가 0인지 테스트하는 데 사용

P>|z|: z-통계량에 대한 p-값으로, p-값이 0.05보다 작으면 해당 변수가 통계적으로 유의미하다고 판단

[0.025, 0.975]:  계수의 95% 신뢰 구간

 

 

 

 

그 외에는 정석으로 공부한 내용

3유형은 깊게 공부하지않아서 자주빈출했었던 핵심적인 내용만 작성합니다

해당 내용은 실기 체험문제를 기반으로 작성했습니다

 

 

 

import pandas as pd
import numpy as np

 


카이제곱 
from scipy.stats import chi2_contingency
table = pd.crosstab(df['Gender'], df['Survived'])
chi2, p_value, ddof, exp = chi2_contingency(table)
print(chi2)

로지스틱회귀 (Survived를 종속 변수로 하고, Gender, SibSp, Parch, Fare를 독립 변수)
from statsmodels.formula.api import logit  
result = logit('Survived ~ Gender+SibSp+Parch+Fare', data =df ).fit().summary()
print(result)

 

선형 회귀분석 (Survived를 종속 변수로 하고, Gender, SibSp, Parch, Fare를 독립 변수)

import statsmodels.api as sm import statsmodels.formula.api as smf

linear_model = smf.ols('Survived ~ Gender + SibSp + Parch + Fare', data=df).fit()

print(linear_model.summary())


오즈비
from statsmodels.formula.api import logit
result2 = logit('Survived ~ Gender+SibSp+Parch+Fare', data =df ).fit().params
print(np.exp(result2))

검정통계랑
from scipy import stats
result = stats.ttest_rel(df['SibSp'], df['Survived'], alternative = 'greater')
print(result)

 

상관분석 ( 'Fare'와 'Age' 변수 간의 상관분석)

from scipy.stats import pearsonr  

corr, p_value = pearsonr(df['Fare'], df['Age'])

print(f'피어슨 상관계수: {corr}, p-값: {p_value}')

 

정규성 검정 ('Fare' 변수의 정규성 검정)

from scipy.stats import shapiro

stat, p_value = shapiro(df['Fare'])

print(f'검정 통계량: {stat}, p-값: {p_value}')

 

일원분산분석 (  'Pclass'에 따른 'Fare'의 차이 검정)

from scipy.stats import f_oneway 

group1 = df[df['Pclass'] == 1]['Fare']

group2 = df[df['Pclass'] == 2]['Fare']

group3 = df[df['Pclass'] == 3]['Fare']

stat, p_value = f_oneway(group1, group2, group3)

print(f'F-통계량: {stat}, p-값: {p_value}')

 

독립표본 t-검정 ( 'Gender'에 따른 'Age'의 차이 검정)

from scipy.stats import ttest_ind

male_age = df[df['Gender'] == 'male']['Age']

female_age = df[df['Gender'] == 'female']['Age']

stat, p_value = ttest_ind(male_age, female_age, alternative='two-sided')

print(f't-통계량: {stat}, p-값: {p_value}')

 

 

 

 

아래는 공부하면서 자주 나왔거나 중점적으로 공부했으면 좋을 내용입니다(1,6,7,8번 중요도up★)

 

 

1 상관관계 분석: 데이터의 변수들 간 상관관계를 분석하여 상관계수를 계산하는 문제

2 정규성 검정: 데이터가 정규분포를 따르는지 확인하는 문제로, 주로 Shapiro-Wilk 검정을 사용.

3 일원분산분석 (ANOVA): 여러 집단 간 평균의 차이를 검정하는 문제

4 이원분산분석: 두 개의 요인에 대한 평균 차이를 검정하는 문제로, 상호작용 효과도 고려

5 t-검정:

  - 단일표본 t-검정: 단일 표본의 평균이 특정 값과 다른지 검정

  - 독립표본 t-검정:두 독립된 집단의 평균 차이를 검정

6 점추정과 구간추정: 표본을 통해 모집단의 모수를 추정하고, 신뢰구간을 계산하는 문제

7 카이제곱 독립성 검정: 두 범주형 변수 간의 독립성을 검정하는 문제

8 회귀 분석:

 - 다중선형 회귀: 여러 독립 변수를 사용하여 종속 변수와의 관계를 모델링

 - 로지스틱 회귀: 이진 종속 변수와 독립 변수들 간의 관계를 모델링

 

 

 

해당 링크는 빅분기 실기를 공부하면서 많은 도움이 됐던 영상입니다 참고하시면 좋습니다

https://www.youtube.com/watch?v=-mYXKWBmwZM 

 

 

그 외로 필기에서 공부했듯이 귀무가설, 독립가설 등 기본적인 용어 숙지를 한다면 더욱 좋습니다

반응형
반응형

빅분기 후기

빅데이터분석기사 후기(필기, 실기 공부방법, 합격률, 공부기간, 난이도체감 등)(1) :: 공기업 전산직을 위한 도서관

빅분기 실기 1유형 코드정리

빅데이터분석기사 실기 1유형 코드정리 (2) :: 공기업 전산직을 위한 도서관  

빅분기 실기 3유형 코드정리

빅데이터분석기사 실기 3유형 코드정리(4) :: 공기업 전산직을 위한 도서관

 

 

 

우선 2유형에 들어가기전에 알아두면 좋을 것 

 

분류 : 종속(목표변수)  남, 여  / 생존, 사망    - accuracy_score, fi1_socre , roc_auc_score  / RandomForestClassifier

회귀 : 종속(목표변수) : 수치형, 연속형 / 가격, 수치  - RMSE , 결정계수   / RandomForestRegression

 

분류는  0,1,2 처럼 결과가 딱 나눠떨어지는거

회귀는 연속형자료

 

2유형을 공부하면서 유튜브 및 블로그 등을 참고하면서 정리한 코드입니다. 공부하실 때 참고하시고 도움이 되었으면 합니다. 아래 코딩은 실기체험환경 기준으로 작성됐습니다.

 

 

라벨인코딩 

1. 데이터 로드 및 확인

2. 결측값 대체(최빈값), 라벨 인코딩

3. 데이터 분할

4. 모델링(분류)

5. 성능 평가

6. 테스트 데이터 예측

7. 결과 데이터 제출 & 확인

 

 

1. 데이터 로드 및 확인

import pandas as pd
train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")

 

2. 결측값 대체(최빈값), 라벨 인코딩

 1) 결측값 대체
train.fillna(train['환불금액'].mode()[0],inplace=True)
test.fillna(test['환불금액'].mode()[0],inplace=True)

# print(train.info())          ....중간확인
# print(test.info())           ....중간확인

 

 2) 라벨 인코딩
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()


le.fit(total['주구매지점'])

total['주구매지점'] = le.transform(total['주구매지점'])

le.fit(total['주구매상품'])

total['주구매상품'] = le.transform(total['주구매상품'])

 

3. 데이터 분할

from sklearn.model_selection import train_test_split
x=train.drop(columns=['성별','회원ID'])
y=train['성별']
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=2024)

 

4. 모델링(분류)

from sklearn.ensemble import RandomForestClassifier #분류
# from sklearn.ensemble import RandomForestRegressor #회귀


rfc=RandomForestClassifier(n_estimators=150, max_depth=20, random_state=2024)
rfc.fit(x_train,y_train)
pred1=rfc.predict(x_test)               #pred 1= train  데이터에 대한 예측 값

 

5. 성능 평가

from sklearn.metrics import roc_auc_score, accuracy_score
roc=roc_auc_score(y_test , pred1)


#acc=accuracy_score(y_test , pred1)
# print('roc:',roc) #0.602354            ....중간확인
# print('acc:',acc) #0.664285            ....중간확인

 

6.테스트 데이터 예측

test_x=test.drop(columns=['회원ID'])
pred2=rfc.predict(test_x)
# print(pred2)            ....중간확인

 

7.결과 데이터 제출 & 확인

pd.DataFrame({'pred':pred2}).to_csv('result.csv',index=False)
#result=pd.read_csv('result.csv')            ....최종확인
#print(result)            ....최종확인

 

 

 

 원핫인코딩 

1. 데이터 로드 및 확인

2. 원핫인코딩_겟더미

3. 데이터 분할

4. 모델링(분류)

5. 성능 평가

6. 테스트 데이터 예측

7. 결과 데이터 제출 & 확인

 

1. 데이터 로드 및 확인

import pandas as pd
train = pd.read_csv
test = pd.read_csv

 

2. 원핫인코딩_겟더미

target = train.pop('성별')
train = pd.get_dummies(train)
test = pd.get_dummies(test)

 

3. 데이터 분할

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split (train, target, test_size=0.2, random_state=2024)

 

4. 모델링(분류)

from sklearn.ensemble import RandomForestClassifier #분류
# from sklearn.ensemble import RandomForestRegressor #회귀


rfc=RandomForestClassifier(n_estimators=150, max_depth=20, random_state=2024)
rfc.fit(x_train,y_train)
pred1=rfc.predict(x_test)               #pred 1= train  데이터에 대한 예측 값

 

5. 성능 평가

from sklearn.metrics import roc_auc_score, accuracy_score
roc=roc_auc_score(y_test , pred1)


#acc=accuracy_score(y_test , pred1)
# print('roc:',roc) #0.602354            ....중간확인
# print('acc:',acc) #0.664285            ....중간확인

 

6.테스트 데이터 예측

test_x=test.drop(columns=['회원ID'])
pred2=rfc.predict(test_x)
# print(pred2)            ....중간확인

 

7.결과 데이터 제출 & 확인

pd.DataFrame({'pred':pred2}).to_csv('result.csv',index=False)
#result=pd.read_csv('result.csv')            ....최종확인
#print(result)            ....최종확인

 

 

 

 

 

 

사실상 초반부부만 다르게하고 나머지는 같게해도 무방


최소 30점이상을 맞기(0점 안맞기 위해)

 

☆★ 인코딩->분류->모델링->제출 ☆★ 

 

일련의 과정을 꼭 파악하고 푸는것이 큰 도움이 됩니다.

반응형
반응형

 

빅데이터분석기사 후기(필기, 실기 공부방법, 합격률, 공부기간, 난이도체감 등)(1) :: 공기업 전산직을 위한 도서관

 

빅데이터분석기사 후기(필기, 실기 공부방법, 합격률, 공부기간, 난이도체감 등)(1)

빅분기 실기 9회 합격 :: 공기업 전산직을 위한 도서관 실기 라고하지만 개인적으로는 실기 > 필기였" data-og-host="be-traineeit.tistory.com" data-og-source-url="https://be-traineeit.tistory.com/entry/%EB%B9%85%EB%B6%84%EA%

be-traineeit.tistory.com

 

앞서 간략하게 빅분기 후기를 작성했던 링크입니다

 

 

1유형을 공부하면서 지금까지 정리한 코드입니다. 공부하실 때 참고하시고 도움이 되었으면 합니다.

 

기본 메소드

  • 메소드 목록 보기: dir(df)
  • 메소드 설명 보기: help(함수명)

데이터로드 및 저장

  • CSV 파일 읽기 : pd.read_csv('파일명', sep='구분자', encoding='인코딩') # (sep: 구분자, encoding: 'utf-8', 'cp949' 등)
  • 데이터프레임을 CSV로 저장 : pd.to_csv('파일명', index=False)
  • 데이터프레임을 Excel로 저장 : pd.to_excel('파일명', index=False)

데이터프레임 기본 정보

  • 상위 n개 행 출력: df.head(n)
  • 하위 n개 행 출력: df.tail(n)
  • 전체 컬럼 확인: df.columns
  • 인덱스 확인: df.index
  • 데이터 타입 및 정보 확인: df.info()
  • 특정 컬럼 데이터 타입 확인: df['컬럼명'].dtype
  • 데이터프레임 구조 확인: df.shape
  • 전체 데이터 타입 확인: df.dtypes
  • 전체 데이터 개수 (행 * 열): df.size

데이터 접근 및 확인

  • 특정 값 접근:
    • 행 번호/열 번호 기준: df.iloc[행번호, 열번호]
    • 행 이름/열 이름 기준: df.loc[행이름, 열이름]
    • 특정 컬럼 데이터 접근: df['컬럼명']
    • 다중 컬럼 데이터 접근: df[['컬럼명1', '컬럼명2']]
  • 특정 열 타입 출력: df.select_dtypes(include='타입') (int, object, float, 등)
  • 결측치 개수 확인: df.isnull().sum()
  • 결측치가 아닌 데이터 개수 확인: df.notnull().sum()
  • 결측치 여부 확인 (isnull과 동일): df.isna()
  • 결측치를 제외한 각 컬럼의 데이터 개수: df.count()
  • 결측치 비율 확인: (df.isnull().sum() / df.shape[0]) * 100
  • 결측치 채우기: df.fillna(값, inplace=True)
  • 수치형 통계 확인: df.describe()
  • 특정 백분위수 값: df['컬럼명'].quantile(퍼센트) (0.5=중앙값)
  • 고유값 및 개수 출력:
    • 고유값: df['컬럼명'].unique()
    • 고유값 개수: df['컬럼명'].nunique()
  • 특정 컬럼의 고유값과 비율 확인: df['컬럼명'].value_counts(normalize=True)
  • 그룹별 조건 출력: df.groupby( '시리즈1')['시리즈2']
  • 다중 조건행 출력: df['컬럼명'].isin([값1, 값2])

데이터 조작

  • 인덱스 초기화: df.reset_index(drop=True, inplace=True)
  • 데이터 복사: df.copy()
  • 특정 컬럼 삭제: df.drop(columns=['컬럼명1', '컬럼명2'])
  • 결측치가 있는 행 삭제: df.dropna(how='any', subset=['컬럼명']   #(how='all' 사용 시 모든 값이 결측치일 때만 삭제)
  • 결측치 채우기: df.fillna(값, method='ffill')  , df['컬럼명'].fillna(값)
  • 값 교체
    • 전체 값 교체: df.replace('기존값', '새값')
    • 문자열 내 특정 패턴 교체: df['컬럼명'].str.replace('기존문자', '새문자', regex=False)
  • 타입 변환: df['컬럼명'].astype(새타입)
    • 날짜 추출: df['컬럼명'].dt.date
    • 연도/월/일 추출: df['컬럼명'].dt.year, .dt.month, .dt.day
    • 월 이름 추출: df['컬럼명'].dt.month_name()
    • 시/분/초 추출: .dt.hour, .dt.minute, .dt.second
  • 데이터 정렬:
    • 열 기준 정렬: df.sort_values(by='컬럼명', ascending=True)
    • 여러 열 기준 정렬: df.sort_values(by=['열1', '열2'], ascending=[True, False])
  • 중복 제거: df.drop_duplicates(inplace=True)
  • 컬럼명  변경: df.rename(columns={'기존컬럼명': '새컬럼명'})
  • 컬럼명 변경2: df.columns = [ '명칭1', '명칭2' ... ]

조건 및 변환

  • 조건부 값 변경: df['컬럼명'] = df['컬럼명'].map(lambda x: '참' if 조건 else '거짓')
  • 딕셔너리로 값 변경: df['컬럼명'].map({기존값: 새값})
  • 조건 행 추출: df[df['컬럼명'] > 조건]
  • 부정 조건: ~(조건)

기초 통계

  • 평균, 중앙값, 최빈값, 분산:
    • 평균: df['컬럼명'].mean()
    • 중앙값: df['컬럼명'].median()
    • 최빈값: df['컬럼명'].mode()
    • 표준편차: df['컬럼명'].std()
    • 합계: df['컬럼명'].sum()
    • 분산: df['컬럼명'].var()
  • 최소값 및 최대값: df['컬럼명'].min() ,  df['컬럼명'].max():
  • 누적합: df['컬럼명'].cumsum()
  • 표준화: StandardScaler().fit_transform(df[['컬럼명']])
  • 정규화: MinMaxScaler().fit_transform(df[['컬럼명']])
  • 순위 계산: df['컬럼명'].rank(method='dense', ascending=False)  #method='dense' 제외 시 중복순위집계x

문자열 처리

  • 대소문자 변환:
    • 대문자: df['컬럼명'].str.upper()
    • 소문자: df['컬럼명'].str.lower()
  • 공백 제거:
    • 양쪽 공백 제거: df['컬럼명'].str.strip()
    • 왼쪽 공백 제거: df['컬럼명'].str.lstrip()
    • 오른쪽 공백 제거: df['컬럼명'].str.rstrip()
  • 문자열 길이: df['컬럼명'].str.len()
  • 특정 문자열 포함 여부: df['컬럼명'].str.contains('문자열')
  • 문자 위치 찾기: df['컬럼명'].str.find('문자열')
  • 특정 문자열로 시작하는지 확인: df['컬럼명'].str.startswith('문자열')
  • 특정 문자열로 끝나는지 확인: df['컬럼명'].str.endswith('문자열')
  • 문자열 슬라이싱: df['컬럼명'].str.slice(start, stop)
  • 문자열 분리: df['컬럼명'].str.split('구분자')

날짜데이터 처리

  • 날짜 타입 변환: pd.to_datetime(df['컬럼명'])
  • 날짜 추출: df['컬럼명'].dt.date
  • 연도/월/일 추출: df['컬럼명'].dt.year, .dt.month, .dt.day
  • 요일 추출: df['컬럼명'].dt.dayofweek (0: 월요일 ~ 6: 일요일
  • 이름 추출: df['컬럼명'].dt.month_name()
  • 시/분/초 추출: .dt.hour, .dt.minute, .dt.second

그룹화 및 병합

  • 그룹화: df.groupby('컬럼명')
  • 데이터 병합: pd.merge(df1, df2, on='기준컬럼', how='inner')
  • 데이터프레임 이어 붙이기: pd.concat([df1, df2], axis=1) #1은 양옆, 0은 위아래로 붙이기
  • 다중그룹화: df.groupby( ['시리즈1', '시리즈2' .... ] )['시리즈n']

기타

  • 로그 변환 : np.log1p(df['컬럼명'])
  • 왜도 계산 : df['컬럼명'].skew()
  • 첨도 계산 : df['컬럼명'].kurt():
  • 임의의 n개 샘플 추출: df.sample(n)
  • 컬럼 간 상관계수 계산: df.corr()

>

 

 

추가 확인

데이터프레임명[ [ ] ] = dataframe, 2차원이상(테이블)

데이터프레임명[ ] = series, 배열(컬럼)

 

df.dt.date # YYYY-MM-DD (문자)

df.dt.year # 연(4자리숫자)

df.dt.month # 월(숫자) df.dt.month_name()

 

#월(문자) df.dt.day #일(숫자)

df.dt.time #HH:MM:SS(문자)

df.dt.hour #시 df.dt.minute #분

df.dt.second #초

 

df.dt.is_month_start # 월 시작일 여부

df.dt.is_month_end # 월 마지막일 여부

df.dt.is_quarter_start # 분기 시작일 여부

df.dt.is_quarter_end # 분기 마지막일 여부

df.dt.is_year_start # 연 시작일 여부

df.dt.is_year_end # 연 마지막일 여부

 

빅분기 후기

빅데이터분석기사 후기(필기, 실기 공부방법, 합격률, 공부기간, 난이도체감 등)(1) :: 공기업 전산직을 위한 도서관

빅분기 실기 2유형 코드정리

빅데이터분석기사 실기 2유형 코드정리 (3) :: 공기업 전산직을 위한 도서관   

빅분기 실기 3유형 코드정리

빅데이터분석기사 실기 3유형 코드정리(4) :: 공기업 전산직을 위한 도서관

 

코드가 필요하신분은 비밀 댓글 달아주시면 보내드리겠습니다

반응형
반응형

 

빅분기 실기 9회 합격 :: 공기업 전산직을 위한 도서관

 

빅분기 실기 9회 합격

이번 24년 11월 30일에 시험본 9회차 빅분기를 합격했다 이로써 기사자격증은 2개! 쌍기사를 가지게되었다(정처기, 빅분기) 남들은 빅분기를 필기 > 실기 라고하지만 개인적으로는 실기 > 필기였

be-traineeit.tistory.com

 

빅데이터분석기사란?

빅데이터분석기사는 2019년에 만들어진 국가기술자격으로, 프로그래밍과 관련된 자격증이다. 데이터를 다루는 데 초점이 맞춰져 있으며, 실기에서는 R 언어파이썬을 사용한다.

 

이 자격증은 주로 IT 직무에서 '쌍기사' 조합으로 취득된다. 대표적인 조합으로는 정보처리기사(정처기)와 함께 정보통신기사, 전자계산기기사, 빅데이터분석기사 등이 있다. 다만, 빅데이터분석기사는 데이터 분석에 중점을 두고 있어 정보처리기사와는 성격이 다르다.

 

나는 정보처리기사 취득 후 '쌍기사'로 정보통신기사(정통기) 또는 빅데이터분석기사(빅분기)를 고민했으나, 공기업 도전을 염두에 두고 코딩테스트를 꾸준히 준비할 계획이 있어 빅분기를 선택했습니다.

 

 

빅데이터분석기사는 데이터 자격증인 ADSP와 자주 비교되며, 보통 난이도는 ADSP < 정처기 < 빅분기로 평가됩니다. 하지만 개인의 역량과 학습법에 따라 체감 난이도는 달라질 수 있습니다. 특히, 나는 프로그래밍에 취약해 체감 난이도가 남들과 달랐습니다.. (특히 이번 9회차 시험.. 1유형은 더욱 어려웠다.)

 

내가 취득한 자격증의 주관적 난이도 순서를 정리하면 다음과 같습니다


정처기 필기 < ADSP < 빅분기 필기 < 정처기 실기, 빅분기 실기


다만, 빅분기는 아직까지는 상정된 범위 안에서 문제가 출제되기 때문에 합격률이 정처기보다 높은 편인 것 같습니다.

 

물론, 체감 난이도는 사람마다 다를 수 있어 이 부분은 각자의 판단에 맡기겠습니다.

 

 

 

1. 빅분기 합격률

우선 빅분기 합격률은 공개적으로 공시하지않고 Q&A을 통해 확인이 가능하다... 그래서 QNET에 있는 '국가기술자격통계연보' 를 토대로 내가 따로 취합해서 정리해봤다. (접수자는 따로 표에 안넣었다)

    필기 실기
년도 회차 응시자 합격자 합격률 응시자 합격자 합격률
  1회 14,920명 6,520명 43.7% 4,683명 2,823명 60.3%
2021년  2회
2022년  3회 11,200명 6,150명 48.1% 6,314명 3,535명 60.6%
4회 48% 62.9%
5회 66.5% 50.7%
2023년   6회 12,686명 8,034명 56.9% 7,888명 4,175명 53%
7회 69.2% 47.7%
2024년 8회 - - 52.6% 4,692명 2,888명 61.6%
9회 7,357 명 3,167명 42% - - 48.4%

 

생각보다 높은 합격률을 보였는데, 정처기와 다르게 전공자 비율이 높아서라는 추측이 있다

 

 

2. 빅분기 응시자격

우선 자격요건을 보면 4년제 졸 or 기사 자격증 취득자로 쉽게 응시가 가능하다

응시자격

 

3. 빅분기 필기 및 실기 과목 및 내용

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

자격증을 공부하며 솔직히 범위가 무슨상관일까..라는 생각이 가끔 들기도한다 어짜피 책에 있는거 기출에있는거 보면서 공부할텐데.. 하면서 그래도 전체적인 범위나 흐름은 알 수 있으니 한번정도 참고하자

빅데이터분석기사 : 데이터자격시험

 

데이터자격검정

데이터자격검정, 빅데이터분석기사, DAP, DAsP, SQLP, SQLD, ADP, ADsP

www.dataq.or.kr

 

4. 빅분기 필기 공부방법 (2주, 순공 약 17~18시간)

※ 이 내용은 자격증 취득만을 목적으로 하는 사람을 대상으로 작성했다.

 

나는 처음에 필기책(feat. 수제비)을 구매해서 공부를 시작했지만, 진행하다 보니 내용이 너무 방대하고 시간이 부족하다는 걸 깨달았다.

 

결국 책은 참고용으로만 활용하고, 공부 방향을 조금 바꿨다. 개인적으로 책 한 권을 처음부터 끝까지 보는 건 비효율적이라고 생각했다.

 

기억에 오래 남지도 않고, 시간이 많이 걸릴 뿐 아니라 시험 범위가 너무 광범위해서 중요한 내용을 선별하기도 어려웠다.

 

그래서 나는 인터넷에 있는 요약본을 1~2번 정도 빠르게 훑고, 이후에는 기출문제 풀이에만 집중했다.

 

기출문제를 반복해서 풀다 보니 자연스럽게 중요한 부분이 무엇인지 감이 잡히고, 문제 유형에도 익숙해졌다.

 

이 방법으로 공부했는데 나름 효과적이었다. 시험 준비 시간이 많지 않거나, 효율적으로 공부하고 싶은 사람에게는 이 방식이 더 적합하지 않을까 싶다.

 

기출문제는 아래 사이트와 구글검색시 뜨는 블로그 등에서 계속해서 풀었다

https://cbt.youngjin.com/exam/index.php?no=69 

 

이기적 CBT, 영진닷컴

빅데이터분석 기사 필기 답안 표기란 과목명 문항수 합격점수 1 과목 빅데이터 분석기획 20개 60점 2 과목 빅데이터 탐색 20개 60점 3 과목 빅데이터 모델링 20개 60점 4 과목 빅데이터 결과 해석 20개

cbt.youngjin.com

 

답을 외우더라도 계속해서 반복해서 풀어서 몸이 체화가 될때까지 한다면 아마 합격하지 않을까 싶다.

 

 

 

4. 빅분기 실기 공부방법 (1주, 1주, 2주, 순공 약 10h, 10h ,15h )

저는 빅분기 실기에서 우여곡절을 좀 겪었습니다. 7회차는 0점을 받았는데, 아직도 왜 그런 결과가 나왔는지 이해가 되지 않았다... 8회차는 시험장을 착각해서 응시조차 하지 못했고.... 그런 실수들을 교훈 삼아, 3번째 도전인 9회차에서는 훨씬 더 열심히 준비했습니다.

 

준비 과정에서 다양한 실기 공부 방법을 찾아보고 여러 문제를 풀어봤습니다. 하지만 일부 사이트는 비전공자가 공부하기에는 난이도가 높은 경우도 있었습니다.

 

그래서 스스로 공부 방향을 정리하고 아래 방법들을 활용했습니다.

 

 

우선 저는 구글 코랩을 활용해 실습했습니다. 코랩은 번거로움 없이 데이터를 저장할 수 있고, 온라인 환경만 갖춰지면 어디서나 작업이 가능해서 편리했습니다.

1유형: 다양한 문제 풀이와 반복 연습

  • 1유형은 최근 점점 난이도가 높아지고 있어 단순히 코드를 암기하는 것으로는 부족하다고 판단했습니다.
  • 최대한 다양한 유형의 문제를 접하고 반복적으로 연습해 문제 풀이 능력을 키우는 데 집중했습니다.

2유형: 암기와 틀 정리

  • 2유형은 분류회귀 관련 내용을 암기하고, 자신만의 풀이 틀을 만드는 것이 중요했습니다.
  • 공부하면서 라벨 인코딩, 원핫 인코딩 등 다양한 방법을 접했지만, 하나의 방법에 익숙해지는 것을 추천합니다. 익숙해지면 이를 바탕으로 응용도 가능해집니다.
  • 지금까지의 기출 기준으로 보면, 이런 방식으로 2유형은 만점도 충분히 가능합니다. 사실상 랜덤 포레스트(랜포)가 가장 효율적이긴 합니다.

3유형: Summary를 활용한 표 확인

  • 3유형은 시간적 여유가 부족했던 탓에, 깊이 있는 공부보다는 summary를 이용해 표를 빠르게 확인하는 연습만 했습니다.
  • 이 정도 준비로도 시험에서는 무리 없이 문제를 해결할 수 있었습니다.(사실 3유형은 야매로 공부했다)

 

1) DataManim — DataManim #1유형, #2유형, #3유형

 

DataManim — DataManim

next 1.빅데이터 분석기사 실기 (PYTHON)

www.datamanim.com

 

다양한 문제풀이, 양치기에 정말 좋은 곳이였음

 

#1유형, #2유형, #3유형

2) AI 너는 아니 AI you know? - YouTube  #1유형, #2유형, #3유형

 

AI 너는 아니 AI you know?

여행을 좋아하는 AI 강사의 유튜브 채널 입니다. 😉 ❣️대표 저서❣️ - 2024 빅데이터 분석기사 필기 (일진사) - 파이썬으로 준비하는 2024 빅데이터분석기사 실기 (일진사) - AI 프로그래밍 기초

www.youtube.com

 

구독자나 조회수에 비해 생각보다 많이 도움받았던 유튜브

다만 입문자가 방향을 잡고 처음에 공부할 때 추천을 하지 깊게 들어가기엔 추가공부를 진행해야한다

(개인적으로 초반에 유형파악하기도 좋고, 공부할때도 큰도움을 받앗지만 내용을 깊게 들어가지 않고 코드 등에서 조금 부족하다고 느껴지긴했음)

 

3) 판다스 100제 실습 환경 구성 (1강)  #1유형

1유형 양치기에 좋다 다만 후반으로 갈 수록 굳이? 싶은 내용들이 많다. 그런 부분은 한번보고 넘어가거나 과감히 넘어가는 걸 추천

 

이 외에도 Big Data Certification KR , 메타코드 같은 유용한 사이트가 있는데(작성자는 여기까지 도달하지 못했다)

 

Big Data Certification KR

퇴근후딴짓 의 빅데이터 분석기사 실기 (Python, R tutorial code) 커뮤니티

www.kaggle.com

 

 

위에 4개 사이트만 주구장창 돌아도 솔직히 합격권이라 생각하는데.. 이 4개를 다 돌기는 쉽지 않을 거라고 생각합니다

 

시간이 없다면 한번 흝어보시고 선택과 집중을 해서 공부하는 걸 추천합니다

 

해당 링크는 실기 체험환경입니다(실제 시험장에선 복붙이나 일부 기능들은 제한되어 있어 100% 같다고는 할순 없지만 어느정도 파악하기 위해 체험해보시길 권장드립니다

빅데이터분석기사 실기 체험환경 안내 - 빅데이터분석기사 실기 체험

 

구름EDU - 모두를 위한 맞춤형 IT교육

구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/

edu.goorm.io

 

 

 

 

빅분기 실기 1유형 코드정리

빅데이터분석기사 실기 1유형 코드정리 (2) :: 공기업 전산직을 위한 도서관  

빅분기 실기 2유형 코드정리

빅데이터분석기사 실기 2유형 코드정리 (3) :: 공기업 전산직을 위한 도서관

빅분기 실기 3유형 코드정리

빅데이터분석기사 실기 3유형 코드정리(4) :: 공기업 전산직을 위한 도서관

 

 

반응형
반응형

 

이번 24년 11월 30일에 시험본 9회차 빅분기를 합격했다

 

이로써 기사자격증은 2개! 쌍기사를 가지게되었다(정처기, 빅분기)

 

남들은 빅분기를 필기 > 실기 라고하지만

 

개인적으로는 실기 > 필기였다.. 

 

그래도 기사 1년에 2번밖에없는 빅분기를 이번에 통과해서 마음이 후련함....

 

 

이제 조금 시간을가졌다가 마지막남은 보안기사 실기를 향해 달려야겠다

 

반응형
반응형

 

취업준비를 시작하며 따온 자격증들입니다

 

 

22년 ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

22.11 정보처리기사

22.12 한국사1급

 

 

23년 ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

23.04 SQLD

23.07 토익 700점+

 

 

24년 ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ

24.03 ADSP

24.03 리눅스마스터2급

24.12 빅데이터분석기사(사전합격)

 

 

25년(진행중 또는 진행예정) ㅡㅡㅡㅡㅡㅡㅡㅡㅡ 

보안기사 실기 (필기합)

네트워크관리사2급

 

 

저는 23년 부터는 필기에 집중했습니다.

그 이후에 자격증은 공부할겸 겸사겸사 취득한 것입니다.

 

개인적으로 필수 자격증 이후에 자격증은 급격하게 효율이 떨어지니... 저의 자격증현황은 참고용으로만 활용해주시길...

 

반응형

+ Recent posts

// 기업0 D-Day (표지) // 기업1 D-Day