[메디파나뉴스 = 문근영 기자] 제약·바이오업계가 '연합학습 기반 신약 개발 가속화 프로젝트(K-MELLODDY)' 사업 관련 궁금증을 일정 부분 해소했다. 1차년도 신규 과제 신청 마감이 3주 가량 남은 상황에서 사업 참여 확대로 이어질지 주목된다.
한국제약바이오협회 K-MELLODDY 사업단은 지난 5일 제약바이오협회 강당에서 제약·바이오업체, 의료기관 등 이해관계자를 대상으로 데이터 활용 신약 개발 협력 체계 구축을 비롯한 공모 과제 내용을 설명하며, 다양한 의견을 청취했다.
제약·바이오업계 관계자들은 김화종 K-MELLODDY 사업단장과 질의응답을 통해 이번 사업 참여 여부에 영향을 미칠 내용을 확인했다. 일례로 업계 관계자 A씨는 임상 자료 등 데이터 공급 및 관리에 대해 질문했다.
그는 "전체적인 과제 모양이 AI 허브를 변형한 형태가 될 것 같다는 생각이 든다"며 "데이터를 클라우드에 모으는 형태가 될 텐데, 해당 클라우드에 올린 데이터를 계속 유지하는 형태인가"라고 물었다.
김화종 사업단장은 이와 관련해 "정부로부터 돈을 받기 위해 DB를 구축하는 AI 허브와는 다르다"면서 "데이터를 올리는 보안 클라우드는 해당 기업만 사용하기에 데이터가 외부로 공개되는 게 아니다"라고 설명했다.
제약·바이오기업이 보유한 임상 자료 등 데이터를 기계학습한 모델 파라미터만 공유하는 방식으로 민감한 정보를 보호할 수 있다는 얘기다. 김 단장은 데이터가 외부로 나갔는지 모니터링하는 건 보안 클라우드 기본 사항이라고 덧붙였다.
업계 다른 관계자 B씨는 이번 프로젝트 기여도와 비교해 상대적으로 수혜를 많이 받고 싶어 하는 기업을 어떻게 할 것인지 관련 대책 여부를 확인했다. 질 높은 데이터를 제공하는 제약업체가 있어야 K-MELLODDY가 성공할 수 있을 것 같다고 생각해서다.
김 단장은 해당 질문을 듣고 나서, 질 높은 데이터를 적게 공유하는 업체는 신약 개발 과정에서 얻는 이득이 적다고 답변했다. 이번 사업을 통해 구축한 ADMET 예측 모델에서 해당 기업 데이터 활용도가 낮으면, 결과적으로 모델 성능에 한계가 나타나기 때문이다.
그는 "ADMET 예측 모델을 만들면 다시 해당 업체 데이터로 파인튜닝(Fine-tuning), 퍼스널라이제이션(Personalization)을 진행한다"면서 "ADMET 예측 모델에 활용한 해당 업체 데이터가 많을수록 모델 성능 향상으로 얻는 이득이 많다"고 말했다.
이어 "처음부터 데이터를 많이 공급하지 않아도 프로젝트를 진행하다 보면, 자기 데이터가 많을수록 ADMET 예측 모델 성능이 높아져 자기가 얻는 이득이 많아진다는 걸 이해하게 된다"며 "그러면 데이터를 공급하지 않을 이유가 없어진다"고 부연했다.
K-MELLODDY 사업설명회에선 1차년도 신규 과제에 참여하려는 제약·바이오업체들이 전처리를 위해 제공하는 데이터 관련 내용도 언급됐다. 업계 관계자 C씨는 같은 시험이라도 기관마다 다른 데이터가 나올 수 있는데 어떻게 처리할 것인지 질문했다.
김 단장은 다른 기관까지 고려해 데이터를 제공할 순 없다며, 해당 기관이 보유한 데이터를 대표할 수 있는 샘플 500건을 제공하면 된다고 말했다. 해당 데이터를 받아서 종합하는 건 사업단 역할이며, 샘플은 어떤 데이터가 있는지 확인하기 위한 것이라는 설명이다.
그는 "(ADMET 예측 모델을 만드는 과정에서) 업체, 기관 등이 어떤 데이터를 보유했는지 탐색해야 하기에 어린이, 노인 등 다양한 데이터를 제공해야 한다"면서 "가급적 뭉쳐 있는 비슷한 데이터를 주는 게 아니라 이런저런 데이터가 있다고 알려줘야 한다"고 덧붙였다.
업계 관계자 D씨는 데이터 샘플을 500건 이상으로 설정한 이유도 물었다. K-MELLODDY 사업단은 1차년도 신규 과제 과제제안요구서(RFP)에 특허로 공개된 물질을 포함한 데이터 최소 500건이 공급돼야 한다고 명시했다. 데이터 수는 Assay 실험 1개가 데이터 1개로 간주된다.
김 단장은 ADMET 예측 모델을 만드는 과정에서 데이터 포맷을 갖춰야 하기에 데이터 샘플이 500개 정도 필요하다고 답했다. 그는 "데이터를 한두 개를 보고 이 기관이 어떤 데이터를 갖고 있는지 파악할 수 없고, ADMET 예측 모델을 구축하는 사람에게 관련 정보를 줄 수 없다"고 말했다.
이어 "ADMET 예측 모델을 특정 컬럼이 맞춰진 형태로 구축하는 게 아니라 멀티모달로 구현한다"면서 "해당 모델을 만드는 입장에서 어떤 데이터가 존재하는지 파악하기 위해 500건 이상 데이터가 필요한 것"이라고 부연했다.
독자의견
작성자 비밀번호
0/200