티스토리 뷰

728x90

Proteomics에서 “보이는 것 vs 존재하는 것”
Proteomics에서 “보이는 것 vs 존재하는 것”

— 우리는 단백질을 보고 있는가, 아니면 시스템이 보여주는 일부를 해석하고 있는가

처음 proteomics 데이터를 접하면
이렇게 생각하기 쉽다.

“이건 단백질의 목록이다”

검출된 단백질 리스트,
각각의 abundance 값,
그리고 그 변화.

모든 것이 명확해 보인다.

그래서 자연스럽게 이렇게 이어진다.

  • 검출되었다 → 존재한다
  • 검출되지 않았다 → 없다

이건 너무 직관적이라
의심하지 않게 된다.

하지만 이 전제는
proteomics에서 가장 위험한 착각 중 하나다.

우리는 ‘존재’를 측정하지 않는다

proteomics에서 우리가 실제로 측정하는 것은
단백질 그 자체가 아니다.

우리는

  • peptide fragment
  • ion signal
  • detector response

를 측정한다.

그리고 그 신호를 기반으로
단백질의 존재를 “추론”한다.

즉,

proteomics는 관찰이 아니라 해석에 가깝다

존재하지만 보이지 않는 것들

가장 먼저 이해해야 할 것은
“존재하지만 보이지 않는 단백질”이 매우 많다는 점이다.

1) dynamic range의 한계

생체 시스템에서 단백질 농도는
수십만 배 이상 차이가 난다.

하지만 LC-MS는
이 전체 범위를 완전히 커버하지 못한다.

그래서

  • high abundance protein → 쉽게 검출
  • low abundance protein → 사라짐

즉,

보이지 않는다고 해서 없는 것이 아니다

실제 상황: plasma proteomics

혈장 분석에서

  • albumin, immunoglobulin → 항상 검출
  • cytokine → 거의 보이지 않음

하지만 cytokine이 없어서가 아니라
너무 낮아서 보이지 않는 것이다.

보이지만 실제와 다른 것들

문제는 반대로
“보이지만 실제를 왜곡하는 경우”도 존재한다.

2) ionization efficiency 차이

모든 peptide는 동일하게 이온화되지 않는다.

  • 어떤 peptide → 강한 신호
  • 어떤 peptide → 거의 검출 안 됨

그래서 실제 농도와 관계없이
signal intensity는 달라진다.

실제 사례

동일 농도의 peptide A와 B

  • A → 높은 signal
  • B → 낮은 signal

결과적으로

→ A가 더 많은 것처럼 보임

sample preparation이 존재를 바꾼다

proteomics에서 “보이는 것”은
실험 시작 전에 이미 결정되는 경우가 많다.

3) extraction bias

단백질 추출 과정에서

  • soluble protein → 잘 추출
  • membrane protein → 손실

결과:

→ membrane protein은 존재하지만
데이터에서는 사라짐

실제 사례

일반 lysis buffer 사용 시

→ membrane receptor 거의 검출 안 됨

하지만 다른 buffer 사용 시

→ 동일 샘플에서 다수 검출

digestion 단계에서 사라지는 단백질

trypsin digestion은
proteomics의 핵심이다.

하지만 완벽하지 않다.

4) digestion inefficiency

  • 특정 단백질 → cleavage 어려움
  • PTM 존재 → digestion 방해

결과:

→ peptide 생성 안 됨
→ 단백질 “존재하지 않는 것처럼” 보임

LC-MS 단계에서 발생하는 선택

LC-MS는
모든 것을 측정하지 않는다.

특히 DDA 방식에서는
더욱 그렇다.

5) stochastic sampling

DDA에서는

  • 일부 peptide만 선택
  • run마다 선택 달라짐

그래서

  • 같은 샘플인데
  • 다른 protein list가 나올 수 있다

실제 상황

replicate 3개 분석 시

  • 공통 단백질 일부
  • 나머지는 run마다 다름

즉,

존재는 동일하지만
보이는 것은 다르다

ion suppression: 존재를 가리는 가장 조용한 메커니즘

LC-MS에서 항상 존재하는 현상이다.

  • 강한 신호 → 약한 신호 억제
  • co-elution → 경쟁

결과:

→ 특정 peptide 검출 실패

실제 사례

복잡한 샘플에서

  • low abundance peptide
    → high abundance peptide에 의해 억제

→ 존재하지만 보이지 않음

데이터 처리 단계에서 ‘존재’가 재구성된다

raw data는
이미 여러 선택을 거친 결과다.

그리고 데이터 처리 과정에서
한 번 더 재구성된다.

6) identification threshold

  • score cutoff 설정
  • FDR 적용

이 기준에 따라

→ 존재하는 peptide가 제외될 수 있다

7) protein inference 문제

하나의 peptide가
여러 단백질에 속할 수 있다.

이 경우

→ 잘못된 단백질이 “존재하는 것처럼” 보일 수 있다

missing value의 진짜 의미

proteomics에서 missing value는 흔하다.

하지만 이걸 단순히 “없음”으로 해석하면
문제가 생긴다.

실제 의미

missing value는

  • detection 실패
  • stochastic sampling
  • low abundance

을 의미한다.

즉,

absence ≠ non-existence

가장 위험한 해석

데이터를 이렇게 읽는 순간이다.

  • 검출됨 → 존재
  • 미검출 → 없음

이 단순한 논리가
가장 많은 오류를 만든다.

실제 사례: biomarker 발굴 실패

한 연구에서

  • 특정 단백질이 disease에서만 검출

→ biomarker 후보로 제시

하지만 후속 연구에서

  • control에서도 존재
  • 단지 detection 실패였음

우리는 왜 ‘보이는 것’을 믿게 되는가

이유는 단순하다.

데이터는
“확실해 보이는 형태”로 제공되기 때문이다.

  • 숫자
  • 그래프
  • 리스트

이 모든 것이
객관적으로 느껴진다.

하지만 그 안에는

  • 선택
  • 필터링
  • 해석

이 이미 들어가 있다.

결국, proteomics는 ‘부분 관찰’이다

proteomics 데이터는
전체를 보여주지 않는다.

이건

👉 “보이는 단면”이다

그리고 그 단면은

  • 기술적 한계
  • 분석 조건
  • 데이터 처리

에 의해 결정된다.

실무에서의 접근 방식

1) 검출되지 않았다고 결론 내리지 않기

absence = absence of detection

2) multiple method 활용

  • DDA + DIA
  • label-free + targeted

3) sample prep 다양화

추출 조건에 따른 변화 확인

4) orthogonal validation

  • Western blot
  • ELISA

5) 해석을 보수적으로

확신보다 가능성 중심

핵심 정리

Proteomics에서

  • 보이는 것 → 검출된 신호
  • 존재하는 것 → 실제 biological 상태

이 둘은 다르다.

그리고 이 차이는

  • 기술
  • 방법
  • 해석

에 의해 만들어진다.

결론

Proteomics는 강력한 도구다.

하지만 이 도구는
세상을 있는 그대로 보여주지 않는다.

대신

볼 수 있는 만큼만 보여준다

그래서 더 중요한 것은
데이터를 많이 보는 것이 아니라

👉 보이지 않는 것을 상상하는 능력이다

마지막 질문

다음에 proteomics 데이터를 보게 된다면
이 질문을 먼저 떠올려야 한다.

“이건 존재해서 보이는 걸까,
아니면 보이는 것만 존재하는 것처럼 보이는 걸까?”

이 질문 하나가
해석의 깊이를 완전히 바꾼다.

728x90