Database Bias가 해석을 왜곡하는 방식

티스토리 뷰

제약산업

Database Bias가 해석을 왜곡하는 방식

pharma_info 2026. 6. 6. 20:15

728x90

Proteomics 데이터보다 데이터베이스가 더 큰 목소리를 내는 순간

Proteomics 분석을 처음 배우면 대부분 데이터 자체에 집중한다.

LC-MS/MS 조건은 적절했는가.

Protein identification은 충분했는가.

FDR은 잘 관리되었는가.

Normalization은 적절했는가.

물론 모두 중요하다.

하지만 실제 연구 경험이 쌓일수록 의외의 사실 하나를 발견하게 된다.

최종 해석을 가장 크게 바꾸는 것은 실험 데이터가 아니라 데이터베이스(Database)인 경우가 생각보다 많다는 것이다.

실제로 대부분의 Proteomics 분석은 데이터베이스 위에서 이루어진다.

Protein identification
Functional annotation
Pathway enrichment
Network analysis
Protein interaction analysis
Biomarker interpretation

모두 데이터베이스에 의존한다.

문제는 많은 연구자들이 데이터베이스를 객관적 진실의 저장소처럼 생각한다는 점이다.

하지만 현실의 데이터베이스는 생물학 그 자체가 아니다.

오히려 현재 인류가 연구한 생물학의 흔적이다.

그리고 그 흔적에는 수십 년간 축적된 편향(bias)이 깊게 녹아 있다.

흥미로운 점은 대부분의 연구자가 실험 오차는 매우 경계하면서도 데이터베이스 오차는 거의 의심하지 않는다는 것이다.

그러나 실제로는 Database bias가 Proteomics 해석을 왜곡하는 가장 강력한 원인 중 하나가 될 수 있다.

1. 데이터베이스는 생물학이 아니라 인간의 지식이다

가장 먼저 이해해야 할 것이 있다.

많은 사람들이 database를 biological truth라고 생각한다.

하지만 database는 biology 자체가 아니다.

Database는:

연구자가 발견한 것
논문에 보고된 것
큐레이터가 정리한 것

의 집합이다.

즉 database는

"현재까지 알려진 생물학"

이지

"실제 생물학"

이 아니다.

이 차이는 생각보다 엄청나게 크다.

2. 연구가 많이 된 단백질이 더 중요해 보인다

대표적인 예가 hub protein이다.

PPI network를 만들면 항상 등장하는 단백질들이 있다.

예를 들어:

TP53
AKT1
MYC
EGFR

이들은 거의 모든 네트워크에서 중심에 위치한다.

많은 연구자는 이를 보고:

"중요한 단백질이니까 중심에 있구나."

라고 생각한다.

물론 맞는 말이다.

하지만 동시에:

"많이 연구되었기 때문에 중심에 있는 것"

이기도 하다.

즉 hubness는 biology와 publication volume이 섞여 있는 결과다.

3. 잘 알려진 pathway가 계속 발견된다

Proteomics 논문을 많이 읽다 보면 비슷한 pathway가 반복적으로 등장한다.

Cell cycle
MAPK signaling
PI3K-AKT signaling
Apoptosis
Immune response

왜 항상 비슷할까?

실제 biology 때문일 수도 있다.

하지만 annotation density 때문이기도 하다.

잘 연구된 pathway는:

구성 protein 많음
annotation 풍부
interaction 정보 많음

따라서 enrichment가 잘 발생한다.

반면 새로운 biology는 annotation이 부족해 보이지 않는다.

4. Unknown biology는 발견되기 어렵다

Database 기반 분석의 가장 큰 역설이다.

Database는 알려진 biology를 설명하는 데 강하다.

하지만 아직 알려지지 않은 biology를 찾는 데는 약하다.

예를 들어 새로운 disease mechanism이 있다고 하자.

그 pathway가 아직 annotation되지 않았다면?

Enrichment 결과에 나타나지 않는다.

즉 database 기반 분석은 새로운 biology보다 기존 biology를 재발견하는 방향으로 편향된다.

5. Protein identification 단계부터 bias가 시작된다

많은 연구자는 database bias를 annotation 단계에서만 생각한다.

하지만 실제로는 identification 단계부터 시작된다.

Bottom-up proteomics에서는 스펙트럼을 protein sequence database와 매칭한다.

대표적으로:

UniProt
NCBI

등을 사용한다.

문제는 database에 없는 sequence는 식별할 수 없다는 점이다.

즉 존재하지만 database에 기록되지 않은 단백질은 발견 자체가 어렵다.

6. Species bias

인간과 마우스는 annotation이 풍부하다.

반면:

희귀 생물
비모델 생물
환경 시료

는 annotation이 부족하다.

결과적으로 동일 품질의 데이터라도 species에 따라 해석 가능성이 크게 달라진다.

7. Tissue bias

모든 조직이 동일하게 연구된 것도 아니다.

예를 들어:

암 조직
혈액
면역세포

는 데이터가 풍부하다.

반면:

특정 뇌 영역
희귀 조직
발달 단계 조직

은 정보가 부족하다.

따라서 database 자체가 특정 tissue biology를 과대표현할 수 있다.

8. Literature mining bias

많은 interaction database는 문헌 기반이다.

즉 논문에 많이 등장한 단백질은 interaction 정보가 많다.

반대로 연구가 적은 단백질은 interaction이 거의 없다.

결과적으로 network analysis는 종종:

"생물학적 중요성"

이 아니라

"연구자들의 관심도"

를 보여준다.

9. GO annotation의 구조적 편향

Gene Ontology 는 가장 널리 사용되는 annotation 시스템이다.

하지만 GO도 완벽하지 않다.

어떤 protein은 수백 개의 GO term을 가진다.

반면 어떤 protein은 몇 개밖에 없다.

즉 annotation richness 자체가 불균형하다.

그 결과 enrichment 분석도 특정 영역으로 치우칠 수 있다.

10. Network analysis에서 bias가 증폭된다

Network는 원래 database 정보를 재사용한다.

이미 연구가 많이 된 단백질은:

interaction 많음
annotation 많음
pathway 연결 많음

이다.

따라서 network를 그리면 더욱 중심으로 이동한다.

즉 network analysis는 기존 bias를 확대하는 경향이 있다.

11. Machine learning도 bias를 학습한다

최근 Proteomics에서는 머신러닝이 많이 사용된다.

문제는 모델이 database 기반 feature를 사용할 경우다.

AI는 biology를 학습하는 것이 아니라

database bias를 학습할 수도 있다.

결과적으로 예측 성능은 좋아 보이지만 새로운 biology 발견에는 실패할 수 있다.

12. "Database-supported"는 "True"가 아니다

논문에서 자주 보는 표현이 있다.

"Database-supported interaction"

"Known pathway association"

"Previously reported mechanism"

이런 문장은 매우 설득력 있게 들린다.

하지만 이는:

"많이 연구되었다"

는 의미일 뿐,

"반드시 사실이다"

를 의미하지 않는다.

Database도 결국 과학 지식의 현재 버전일 뿐이다.

13. 실제 사례: 암 연구의 반복되는 이야기

암 Proteomics 논문을 보면 거의 항상 비슷한 결과가 나온다.

Cell cycle activation
DNA repair alteration
PI3K signaling
MAPK signaling

물론 실제 biology일 수도 있다.

하지만 동시에 database가 가장 풍부한 영역이기도 하다.

즉 일부 결과는 biology보다 annotation density를 반영할 수 있다.

14. Bias를 줄이기 위한 실무 전략

Database bias를 완전히 제거할 수는 없다.

하지만 인식하는 것만으로도 해석 수준이 달라진다.

여러 database 비교

하나의 database에 의존하지 않는다.

Unknown protein 확인

Annotation이 없는 단백질도 주목한다.

Raw data 먼저 보기

Database 결과보다 실제 abundance 변화를 우선 확인한다.

Literature count 의심하기

정보가 많다고 더 중요한 것은 아니다.

Validation 수행

Database 해석은 가설 생성 단계로 생각한다.

결론

Proteomics 연구에서 데이터베이스는 필수적이다. 하지만 데이터베이스는 생물학 그 자체가 아니라, 현재까지 인류가 연구하고 기록한 생물학의 집합이다.

따라서 database에는 연구 편향, 종(species) 편향, 조직 편향, 문헌 편향, annotation 편향이 존재한다. 그리고 이러한 편향은 protein identification, pathway enrichment, network analysis, biomarker 해석 등 거의 모든 단계에서 결과를 왜곡할 수 있다.

특히 위험한 점은 database bias가 매우 그럴듯하게 보인다는 것이다. 잘 알려진 단백질은 더 중요해 보이고, 잘 알려진 pathway는 더 자주 발견되며, 잘 연구된 biology는 더 강력한 증거처럼 보인다.

결국 Proteomics 해석에서 중요한 것은 database를 맹신하는 것이 아니라 database가 어떤 지식을 담고 있고, 어떤 지식을 담고 있지 않은지를 함께 이해하는 것이다.

이 사실을 이해하기 시작하면 이전에는 너무 객관적으로 보였던 pathway enrichment와 network analysis 결과가 다르게 보이기 시작한다. 왜 항상 비슷한 pathway가 반복되는지, 왜 새로운 biology는 쉽게 보이지 않는지, 왜 hub protein이 늘 비슷한 얼굴을 하고 있는지에 대한 답이 바로 Database bias라는 보이지 않는 구조 안에 숨어 있기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

Multi-omics Integration에서 발생하는 해석 오류 (0)	2026.06.10
Proteomics 데이터로 Mechanism을 단정하면 위험한 이유 (0)	2026.06.09
Functional Annotation의 한계 (0)	2026.06.08
Protein interaction 데이터의 신뢰성 문제 (0)	2026.06.07
Network analysis가 과해석으로 이어지는 이유 (0)	2026.06.05
Proteomics에서 Causation vs Correlation 구분하는 방법 (0)	2026.06.04
Pathway enrichment가 잘못된 결론을 만드는 과정 (0)	2026.06.03
Upregulated Protein이 항상 기능 증가를 의미하지 않는 이유 (0)	2026.06.02

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰