20대 성장기/공부

논문 작성을 위한 통계 읽기

방구석주희 2021. 4. 23. 22:58
728x90

변수의 종류

1.     질적변수(Grouping) : 그룹을 구분하기 위한 변수, 수치적 계산이 불가능한 변수

ex) 명목척도, 서열척도(순서개념 有)

2.     양적변수(계산) : 양과 관련된 값을 측정하는 변수

ex) 등간척도(상대적 크기), 비율척도(절대적 크기)

 

유의성 검정과 T-검정

- 왜 필요한가? 

우리가 받는 데이터는 모집단 데이터가 아닌 표본 데이터임. 그 표본 데이터로 계산해 낸 확률이 얼마나 모집단 데이터를 반영하는지 오차수준 확인

유의확률 : p라고 표기

유의수준 : p<0.05, p<0.01, p<0.001

 

T-검정 : 두 집단의 평균차이를 검증하기 위한 분석방법ex) 유의확률(p값)이 0.05보다 작으면 유의적이다.가설 -> 두 집단의 평균 차이가 있다/없다유의적이다 = 차이가 있다.

유의적이지 않다 = 차이가 없다.

 

분산분석(ANOVA) : 세 집단 이상의 평균 차이를 검증하기 위한 분석방법

ex) BMI수치(저체중/정상/과체중)에 따른 수분섭취량의 차이

F검정 - 유의확률이 유의수준보다 작으면 유의적이다.(평균의 차이가 있다.)

어떤 집단이 차이가 있는지는 사후분석을 해야함

 

카이제곱 검정 : 명목형인 두 변수간의 관계를 검증하기 위한 분석방법

ex) 게임중독 예방교육 경험(있음/없음)과 게임중독수준(일반/잠재중독/중독)의 교차분석 결과

그룹간 비율의 차이가 있는지 없는지

즉, 유의적 차이가 있다. -> 두 변수가 관계가 있다.

ex) 교육 수준이 중독 수준에 관계가 있을 수 있다. 영향을 줄 수도 있다. 

 

상관관계분석 : 두 변수의 선형관계에 대한 유의성을 검증하기 위한 분석방법

1단계 : 유의성 검정 - 두 변수의 선형 관계의 유의성 검정2단계 : 상관관계(r)의 크기 비교 - 어떤게 더 관계가 큰지 파악(여러 변수를 분석할 때)-1 < 상관계수(r) < 1r의 절대값이 클수록 선형관계가 크다는 것을 의미

 

회귀분석 : 독립변수와 종속변수에 미치는 영향을 검증하는 분석방법

- 단순회귀분석/다중회귀분석?

uni variable analysis 독립변수(X)가 1개, 단변수, 통합변수분석

by variable analysis

multi variable analysis 독립변수(X)가 여러개, 다변수 

 

Observation 관찰, 관측치 -> 4,000개 관측치

sample size -> 800개 기업 * 5년치

*연도를 늘리기 *기업갯수를 늘리기(신뢰성 있는 data를 구할 수 있는 경우)

 

cross sectional data 횡단면데이터

time series data 시계열데이터

횡단면데이터가 오래 쌓이면(시계열화) 패널데이터

: 복수의 개체를 복수의 시점에서 본 관측값으로 이루어진 데이터

 

1단계 : 회귀식 전체의 유의성 판단

F검정의 p값이 유의수준보다 작으면 유의적이다.2단계 : 독립변수들의 베타(표준화계수)나 B(비표준화계수)의 유의성 검증3단계 : 논문에서의 필요 목적에 따라 아래와 같이 정리베타 - 유의적인 독립변수들의 베타의 상대적 크기 비교 -> 중요도 비교4단계 모형의 적합도 검증 R2(설명력, 독립변수가 종속변수를 어느정도로 설명하는지)

 

correlation 상관관계

coefficient 상관계수

신뢰도 수준은 0.05와 0.01을 주로 사용,

즉, p값이 0.05~0.1 사이인 경우 다시 측정

we need more information

 

모수(파라미터)

variance 분산

standard deviation 표준편차

 

 

 

728x90