티스토리 뷰

728x90

— 그때부터 분석은 과학이 아니라 ‘확신’이 된다

연구자가 기대한 방향으로 데이터가 보이기 시작하는 순간
연구자가 기대한 방향으로 데이터가 보이기 시작하는 순간

데이터를 분석하다 보면 이상한 순간이 찾아온다.

처음에는 아무 의미도 없어 보이던 숫자들이
어느 순간, 하나의 이야기처럼 이어지기 시작한다.

그리고 그 이야기가
내가 처음에 기대했던 가설과 맞아떨어질 때,

그때부터 무언가가 바뀐다.

조심해야 할 순간은 바로 그때다.

1. “드디어 나왔다”라는 생각이 드는 순간

연구를 하다 보면 누구나 가설을 세운다.

이 약물은 효과가 있을 것이다.
이 바이오마커는 예후를 예측할 것이다.
이 pathway가 핵심일 것이다.

문제는 이 가설이 틀렸을 가능성보다
맞았을 때의 기대감이 훨씬 크다는 점이다.

그래서 데이터가 가설과 맞는 방향으로 조금만 움직여도
머릿속에서는 이미 결론이 완성된다.

  • “역시 예상대로야”
  • “이건 의미 있는 신호다”
  • “이 정도면 충분하지 않을까?”

하지만 이 순간, 분석은 더 이상 중립적이지 않다.
이미 결론을 향해 움직이기 시작한다.

2. 선택적 해석이 시작되는 지점

데이터는 항상 완벽하지 않다.
노이즈도 있고, 예외도 있고, 모순되는 결과도 존재한다.

그런데 흥미로운 점은
사람이 특정 방향을 기대하기 시작하면
데이터를 보는 방식 자체가 바뀐다는 것이다.

  • 가설과 맞는 데이터 → “핵심 결과”
  • 맞지 않는 데이터 → “노이즈”, “outlier”

같은 데이터임에도 불구하고
의미 부여의 기준이 달라진다.

특히 LC-MS/MS 정량 분석이나 metabolomics처럼
데이터 포인트가 많은 경우,
이 선택적 해석은 훨씬 더 쉽게 발생한다.

원하는 패턴만 골라보는 순간,
분석은 이미 객관성을 잃는다.

3. 시각화가 확신을 강화하는 방식

여기서 한 단계 더 나아가면
데이터 시각화가 개입한다.

그래프를 그리는 순간,
데이터는 더 이상 숫자가 아니라 “이미지”가 된다.

그리고 그 이미지는
생각보다 훨씬 강력하게 확신을 만들어낸다.

  • Y축을 조금 줄이면 효과가 커 보이고
  • smoothing을 하면 트렌드가 명확해 보이고
  • 특정 구간만 확대하면 패턴이 뚜렷해진다

이 모든 과정이 의도적이지 않을 수도 있다.

하지만 결과적으로는
“보고 싶은 그림”이 완성된다.

그리고 사람은 한 번 본 이미지를 쉽게 의심하지 않는다.

4. 통계적 유의성과 심리적 확신의 괴리

여기서 가장 위험한 지점이 등장한다.

데이터는 아직 애매한 상태인데
연구자의 확신은 이미 강해진 상태.

예를 들어 p-value가 0.08인 결과를 보자.
통계적으로는 유의하지 않다.

하지만 데이터가 기대한 방향으로 움직이고 있다면
이렇게 해석되기 시작한다.

  • “sample size만 늘리면 될 것 같다”
  • “trend는 분명히 있다”
  • “임상적으로 의미가 있다”

이런 해석이 틀렸다고 말할 수는 없다.
문제는 이 과정에서 반대 가능성을 거의 고려하지 않게 된다는 점이다.

5. 반복 분석과 ‘결과 맞추기’

이 단계까지 오면 연구자는 무의식적으로
결과를 “개선”하기 시작한다.

  • 특정 샘플 제거
  • 분석 조건 변경
  • normalization 방식 수정
  • subgroup 분석 수행

이 모든 과정은 정당한 분석 과정일 수도 있다.

하지만 문제는 방향이다.

결과를 이해하기 위한 분석이 아니라
결과를 맞추기 위한 분석이 시작되는 순간
,

연구는 이미 다른 길로 들어선다.

6. 실제 연구 환경에서 더 자주 발생하는 이유

이러한 현상은 단순히 개인의 문제가 아니다.
연구 환경 자체가 이를 강화하는 경우가 많다.

  • 논문 게재 압박
  • 유의한 결과에 대한 선호
  • 긍정적 결과 중심의 평가 구조

특히 제약 및 바이오 분야에서는
“효과 없음”이라는 결론이 갖는 부담이 크다.

그 결과,
데이터가 기대 방향으로 보이는 순간
그 흐름을 유지하려는 압력이 생긴다.

7. 가장 위험한 착각: “나는 객관적이다”

많은 연구자들이 이렇게 생각한다.

“나는 데이터를 있는 그대로 본다”

하지만 실제로는
모든 해석은 어느 정도 주관을 포함한다.

특히 경험이 많을수록
패턴을 빠르게 인식하게 되는데,

이 능력이 오히려 편향을 강화하기도 한다.

  • 빠른 판단 → 확신 강화
  • 확신 강화 → 검증 약화

이 악순환이 반복된다.

8. 이 순간을 어떻게 통제할 것인가

이 문제를 완전히 없애는 것은 불가능하다.
하지만 최소화하는 방법은 있다.

1) 분석 전 기준을 미리 정의하기

  • outlier 제거 기준
  • 통계적 threshold
  • 데이터 포함 조건

사전에 정해두면
결과에 따라 기준이 바뀌는 것을 막을 수 있다.

2) 반대 가설을 의도적으로 검토하기

  • “이 결과가 틀렸다면 이유는?”
  • “다른 설명은 없는가?”

이 질문을 반복해야 한다.

3) 시각화는 최대한 단순하게 유지하기

  • 과도한 smoothing 금지
  • 축 조작 최소화
  • 전체 데이터 공개

그래프는 설득 도구가 아니라
검증 도구여야 한다.

4) 제3자의 시선 활용

다른 사람이 보면
내가 보지 못한 편향이 보인다.

특히 같은 데이터를 두고
다른 해석이 나오는 경우,
그 지점이 가장 중요한 부분이다.

결론: 데이터가 맞아떨어질수록 더 의심해야 한다

연구를 하다 보면
데이터가 기대한 방향으로 깔끔하게 맞아떨어지는 순간이 있다.

그 순간은 기쁜 순간이기도 하지만,
동시에 가장 위험한 순간이기도 하다.

왜냐하면 그때부터
우리는 데이터를 보는 것이 아니라
확신을 확인하기 시작하기 때문이다.

좋은 연구자는
데이터가 틀렸을 때보다

데이터가 너무 잘 맞을 때 더 의심하는 사람이다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함