티스토리 뷰

728x90

Proteomics에서 가장 위험한 착각
Proteomics에서 가장 위험한 착각

— 우리는 단백질을 보고 있는가, 아니면 데이터가 만든 환상을 해석하고 있는가

proteomics 데이터를 처음 접했을 때의 기억은
대부분 비슷하다.

수천 개의 단백질 리스트,
정교하게 정리된 정량값,
그리고 통계적으로 정리된 결과.

모든 것이 완성된 것처럼 보인다.

마치 우리가
생물학적 시스템을 직접 들여다보고 있는 것처럼 느껴진다.

그리고 자연스럽게
이런 생각에 도달한다.

“이 데이터는 실제 단백질 상태를 반영한다.”

하지만 이 문장은
proteomics에서 가장 위험한 착각이다.

1. proteomics는 ‘전체’를 보여주지 않는다

많은 사람들이 proteomics를
전체 단백질 분석이라고 생각한다.

하지만 실제로는 전혀 다르다.

우리가 보는 것은 다음 조건을 만족한 것들뿐이다.

  • 추출된 단백질
  • digestion에 성공한 peptide
  • LC에서 분리된 것
  • MS에서 이온화된 것
  • detection threshold를 넘은 것

즉,

proteome 전체가 아니라
조건을 통과한 일부만 보고 있다

이 사실을 잊는 순간
해석은 이미 틀어지기 시작한다.

2. 단백질을 보는 것이 아니라 peptide를 보고 있다

LC-MS 기반 proteomics의 본질은
protein 분석이 아니다.

peptide 분석이다

단백질은 digestion을 통해
여러 peptide로 분해된다.

그리고 우리는 그 peptide를 측정한다.

문제는 여기서 발생한다.

  • 일부 peptide만 검출됨
  • peptide마다 signal 다름
  • post-translational modification 존재

즉,

protein abundance는 직접 측정되지 않는다

우리는 peptide를 통해
protein을 “추정”하고 있을 뿐이다.

3. peptide = protein이라는 착각

이건 proteomics에서 가장 흔한 오류다.

특정 peptide가 증가하면
단백질이 증가했다고 생각한다.

하지만 실제로는 다르다.

  • 특정 peptide만 증가
  • 다른 peptide는 변화 없음
  • degradation fragment 증가

이 경우

protein 전체가 증가한 것이 아닐 수 있다

하지만 많은 분석에서
이 차이를 고려하지 않는다.

4. missing value는 데이터가 아니라 ‘현상’이다

proteomics 데이터에는
missing value가 항상 존재한다.

많은 경우 이를 이렇게 처리한다.

  • 0으로 채움
  • 평균값으로 대체
  • random imputation

하지만 중요한 사실은 이것이다.

missing은 단순한 결측이 아니다

  • detection 실패
  • stochastic sampling
  • low abundance

즉,

missing value는
biological signal일 수도 있고
technical artifact일 수도 있다.

이걸 구분하지 않으면
결과는 쉽게 왜곡된다.

5. fold change는 직관적이지만 위험하다

proteomics에서
가장 많이 사용하는 지표는 fold change다.

  • 2배 증가
  • 50% 감소

이 숫자는 매우 설득력 있다.

하지만 중요한 문제가 있다.

이 값은 농도가 아니라 signal이다

그리고 signal은 다음 영향을 받는다.

  • ionization efficiency
  • co-elution
  • ion suppression
  • peptide detectability

즉,

fold change는
“측정 시스템의 결과”일 가능성이 항상 존재한다.

6. 통계적으로 유의하다는 착각

p-value가 작으면
결과는 신뢰할 수 있다고 생각한다.

하지만 proteomics에서는
이 전제가 흔들린다.

왜냐하면

  • multiple testing 문제
  • 데이터 분포 비정상성
  • missing value 영향

때문이다.

즉,

통계적 유의성 ≠ 생물학적 의미

7. normalization이 문제를 해결한다고 믿는 것

많은 분석에서
normalization을 통해 variation을 줄인다.

하지만 normalization은
문제를 해결하는 것이 아니라

데이터를 재구성하는 과정이다

잘못된 normalization은

  • 실제 변화를 제거하거나
  • 가짜 변화를 만들 수 있다

8. LC-MS 조건이 결과를 바꾸는 구조

proteomics는
LC-MS 조건에 매우 민감하다.

  • gradient
  • column
  • ionization 조건

이 중 하나만 바뀌어도

  • detection되는 peptide가 달라지고
  • quantification이 바뀐다

즉,

같은 샘플에서도 다른 proteome이 보일 수 있다

9. DDA vs DIA: 다른 세계를 보고 있다

DDA와 DIA는
단순한 acquisition 방식 차이가 아니다.

  • DDA → 선택된 peptide만 분석
  • DIA → 전체 fragment 분석

이 차이는

데이터의 구조 자체를 바꾼다

따라서 결과가 다르다는 것은
이상한 일이 아니라
당연한 일이다.

10. protein inference의 근본적인 문제

하나의 peptide가
여러 단백질에 속할 수 있다.

이 문제를
protein inference라고 한다.

하지만 많은 분석에서
이 과정을 단순화한다.

그 결과

잘못된 단백질이 보고될 수 있다

11. pathway analysis가 만들어내는 착각

pathway analysis는
결과를 더 이해하기 쉽게 만든다.

하지만 동시에
가장 큰 착각을 만든다.

  • 일부 protein 변화
    → pathway 전체 변화로 해석

이 과정에서

과해석(overinterpretation)이 발생한다.

12. 가장 위험한 순간: 모든 것이 맞아떨어질 때

분석을 하다 보면
이런 순간이 온다.

  • 통계적으로 유의
  • pathway 연결
  • 기존 연구와 일치

이때 사람은 확신한다.

“이건 진짜다”

하지만 바로 이 순간이
가장 위험하다.

왜냐하면

검증이 멈추기 때문이다

13. 우리는 발견하고 있는 것이 아니다

proteomics는
종종 discovery tool이라고 불린다.

하지만 실제로는 다르다.

이 과정은

  • detection
  • filtering
  • selection
  • interpretation

의 연속이다.

즉,

우리는 발견이 아니라 선택을 하고 있다

14. 재현되지 않는 이유

proteomics 결과가
재현되지 않는 이유는 단순하다.

  • 조건 의존성
  • sample preparation 차이
  • data processing 차이

즉,

결과가 고정된 것이 아니라
과정에 의존하기 때문이다

15. 그럼 무엇을 해야 하는가

완벽한 해결책은 없다.
하지만 방향은 있다.

1) peptide-level 검증

protein이 아니라 peptide 확인

2) orthogonal validation

Western blot, targeted MS 등 활용

3) multiple condition 분석

조건 변화에 따른 결과 확인

4) conservative interpretation

확신보다 가능성 중심 해석

결론: proteomics는 데이터 해석의 학문이다

proteomics는
단순한 측정 기술이 아니다.

이건

“데이터를 얼마나 의심할 수 있는가”의 문제다

우리가 보는 것은

  • 단백질의 실제 상태가 아니라
  • 측정 조건과 분석 과정이 만든 결과일 수 있다

그래서 가장 위험한 착각은 이것이다.

“나는 단백질을 보고 있다”

하지만 실제로는

우리는 peptide를 보고,
그 데이터를 해석하고 있을 뿐이다

이 사실을 인지하는 순간
분석의 수준은 완전히 달라진다.

728x90