Xác định có hệ thống các con đường ung thư và các loại thuốc tiềm năng để can thiệp thông qua phân tích đa omics
Cơ chế bệnh sinh của ung thư rất phức tạp và các loại ung thư khác nhau thường biểu hiện các đột biến gen khác nhau dẫn đến các hồ sơ omics khác nhau. Mục đích của nghiên cứu này là xác định một cách có hệ thống các con đường sinh học cụ thể cho ung thư và các loại thuốc nhắm mục tiêu ung thư tiềm năng. Chúng tôi đã phân tích chung dữ liệu phiên mã và proteomics từ 16 loại ung thư phổ biến ở người để nghiên cứu cơ chế hình thành ung thư và tìm kiếm phương pháp điều trị tiềm năng. Các phương pháp thống kê đã được áp dụng để xác định các mục tiêu và con đường phân tử quan trọng liên quan đến từng loại ung thư. Các loại thuốc chống ung thư tiềm năng sau đó đã được thu hồi có thể nhắm mục tiêu vào các con đường này. Số lượng các con đường quan trọng liên quan đến mỗi loại ung thư dao động từ bốn (ung thư dạ dày) đến 112 (bệnh bạch cầu dòng tủy cấp tính) và số lượng thuốc điều trị có thể nhắm mục tiêu vào các con đường liên quan đến ung thư này, dao động từ một (ung thư buồng trứng) đến 97 (bệnh bạch cầu dòng tủy cấp tính và ung thư biểu mô phổi không tế bào nhỏ). Để xác nhận phương pháp của chúng tôi, một số loại thuốc này là liệu pháp được FDA phê duyệt cho loại ung thư tương ứng của chúng. Những phát hiện của chúng tôi cung cấp một nguồn phong phú các giả thuyết có thể kiểm tra được có thể được áp dụng để giải quyết các cơ chế cơ bản phức tạp của ung thư ở người và được sử dụng để ưu tiên và tái sử dụng các loại thuốc như các liệu pháp chống ung thư.
Giới thiệu
Ung thư là một họ các bệnh rất đa dạng và phức tạp có thể xảy ra ở hầu hết các cơ quan và mô của cơ thể con người. Sự xuất hiện và phát triển của ung thư ở người có liên quan đến nhiều yếu tố, đặc biệt là sự tích lũy từng bước của những thay đổi di truyền và biểu sinh trong bộ gen, được biểu hiện trực tiếp dưới dạng những thay đổi trong hồ sơ phiên mã và biểu hiện protein [1]. Các công nghệ omics thông lượng cao (ví dụ: phiên mã và proteomics) đã được áp dụng để xác định các dấu ấn sinh học tiềm năng và mục tiêu điều trị mới để chẩn đoán và điều trị ung thư ở người [2,3,4]. Ngoài ra, phân tích tích hợp trên nhiều dữ liệu omics có khả năng tạo ra các giả thuyết hợp lệ và có thể kiểm tra được có thể được ưu tiên cho các xác nhận thực nghiệm [5]. Nói chung, hồ sơ omics khác nhau theo các loại ung thư khác nhau và nghiên cứu ung thư chủ yếu tập trung vào các quá trình gây ung thư khác nhau liên quan đến một loại ung thư cụ thể. Tuy nhiên, có những phân tích đa omics tích hợp hạn chế trên các loại ung thư khác nhau có thể tiết lộ các con đường mới của sự phát sinh ung thư và các mục tiêu điều trị mới.
Các dòng tế bào ung thư đã được sử dụng rộng rãi làm mô hình in vitro để nghiên cứu các cơ chế tế bào và phân tử cơ bản của quá trình hình thành khối u, cũng như sàng lọc và tái sử dụng thuốc chống ung thư [3, 4]. Bách khoa toàn thư dòng tế bào ung thư (CCLE) là một cơ sở dữ liệu có sẵn công khai chứa dữ liệu omics đa cấp của hơn 1000 dòng tế bào ung thư trải dài hơn 40 loại ung thư. Nó cung cấp dữ liệu phiên mã giải trình tự RNA (RNA-Seq) đo lường sự phong phú của phiên mã RNA trong các dòng tế bào ung thư [6]. Ngoài ra, phương pháp tiếp cận protein định lượng dựa trên thẻ khối lượng song song (TMT) đã được sử dụng để định lượng protein quy mô lớn. Sử dụng phương pháp này, Nusinow và cộng sự đã thực hiện phân tích protein định lượng trên 375 dòng tế bào trên các loại ung thư khác nhau, dẫn đến một nguồn tài nguyên phong phú về mức độ biểu hiện protein để khám phá hành vi tế bào và nghiên cứu ung thư [2]. Phiên mã và proteomics đóng vai trò quan trọng trong việc liên kết trình tự phiên mã bộ gen và mức độ protein với các chức năng sinh học tiềm năng. Do đó, việc tích hợp hai phương pháp omics này (tức là phiên mã và proteomics) có thể cung cấp sự hiểu biết toàn diện và toàn diện hơn về các hành vi sinh học của ung thư ở cấp độ phiên mã và dịch mã có thể tiết lộ các cơ chế mới của cơ chế sinh bệnh học và mục tiêu thuốc cho ung thư.
Hiểu được các mục tiêu phân tử đặc trưng của một loại ung thư là rất quan trọng đối với việc phát triển và phát triển thuốc chống ung thư hiện đại. Ví dụ, thụ thể miền discoidin 1 (DDR1) được xác định là mục tiêu phân tử đặc hiệu cho ung thư tuyến tụy. Khám phá này cho phép phát triển một loạt các dẫn xuất mới 2-amino-2,3-dihydro-1H-indene-5-carboxamide làm chất ức chế DDR1 có tính chọn lọc cao bằng cách sử dụng thiết kế thuốc dựa trên cấu trúc. Các chất ức chế DDR1 này cho thấy hiệu quả đầy hứa hẹn trong điều trị ung thư tuyến tụy [7]. Phân tích omics, RNA-Seq hoặc hồ sơ proteomics, đã cung cấp một loạt thông tin mở rộng nhanh chóng về các mục tiêu phân tử mới để khám phá thuốc sớm. Ví dụ, Swaroop và cộng sự phát hiện ra rằng các gen biểu hiện khác nhau trong phân nhóm hội chứng Hurler nghiêm trọng nhất so với phân nhóm Hurler-Scheie trung gian hoặc phân nhóm hội chứng Scheie ít nghiêm trọng nhất dựa trên dữ liệu hồ sơ phiên mã là cực kỳ có giá trị trong việc hướng dẫn các mô hình động vật in vivo và thử nghiệm lâm sàng trong quá trình phát triển thuốc [8].
Trong nghiên cứu này, chúng tôi đã tích hợp dữ liệu phiên mã và proteomics từ 16 loại ung thư phổ biến ở người, bao gồm bệnh bạch cầu dòng tủy cấp tính (AML), ung thư vú, ung thư đại trực tràng, ung thư nội mạc tử cung, ung thư thực quản, u thần kinh đệm, ung thư thận, ung thư gan, ung thư biểu mô phổi không tế bào nhỏ (NSCLC), ung thư biểu mô phổi tế bào nhỏ (SCLC), ung thư hắc tố, ung thư buồng trứng, ung thư tuyến tụy, ung thư dạ dày, ung thư tiêu hóa trên và ung thư đường tiết niệu, để xác định các con đường sinh học đặc trưng của từng loại ung thư và các loại thuốc được biết là nhắm mục tiêu vào các con đường này. Các con đường ung thư được xác định trong nghiên cứu này có thể cung cấp cái nhìn sâu sắc về các cơ chế phân tử cơ bản cho từng loại ung thư và các loại thuốc nhắm mục tiêu vào các con đường này có khả năng được tái sử dụng như các liệu pháp điều trị ung thư mới.
Sự thảo luận
Trong nghiên cứu này, chúng tôi đã xác định các phiên mã và protein được biểu hiện đáng kể trong mỗi loại ung thư trong số 16 loại ung thư thông qua phân tích tích hợp dữ liệu phiên mã và hồ sơ proteomics, dẫn đến các con đường sinh học đặc trưng của từng loại ung thư. Hơn nữa, các loại thuốc liên quan đến các con đường sinh học này được xác định là phương pháp điều trị tiềm năng cho bệnh ung thư ở người.
Theo thống kê ung thư toàn cầu vào năm 2020, các loại ung thư được phân tích trong nghiên cứu của chúng tôi (Hình E). 1, và Bảng bổ sung S1) bao gồm ung thư được chẩn đoán phổ biến nhất (ung thư vú, 11,7% tất cả các vị trí) và ung thư có tỷ lệ tử vong hàng đầu (ung thư phổi, 18% tất cả các vị trí) [9]. Vì protein là yếu tố thực hiện chính của chức năng gen, dữ liệu proteomics thông lượng cao rất quan trọng trong việc làm sáng tỏ cơ chế hoạt động của nhiều quá trình sinh học quan trọng liên quan đến ung thư [2]. Do độ phân giải bị hạn chế ở cấp độ proteome, độ bao phủ của dữ liệu proteomics thấp hơn nhiều so với dữ liệu RNA-Seq, dẫn đến số lượng protein có ý nghĩa nhỏ hơn so với số lượng phiên mã có ý nghĩa cho từng loại ung thư được xác định trong nghiên cứu của chúng tôi (Hình E). 2A). Nồng độ protein trong tế bào có thể không tương quan với mức độ biểu hiện của các phiên mã do cơ chế biểu sinh cơ bản [10]. Ngoài mRNA mã hóa protein, các phiên mã cũng bao gồm các RNA không mã hóa (ví dụ: RNA không mã hóa dài (lncRNA) và microRNA (miRNA)), một số trong số đó thường hoạt động như các trình điều khiển gây ung thư và chất ức chế khối u ở các loại ung thư chính thông qua các cơ chế điều hòa sau phiên mã [11,12,13].
Chúng tôi cũng xác định các con đường quan trọng đặc trưng của từng loại ung thư (Hình E). 3, và Bảng bổ sung S3), một số trong số đó đã được báo cáo là có liên quan đến loại ung thư tương ứng ở người. Ví dụ, con đường truyền khứu giác đã được báo cáo là có liên quan đến một số loại ung thư bao gồm ung thư vú [14], ung thư tuyến tụy [15], carcinoid phổi [16], ung thư đại trực tràng [17], ung thư biểu mô nang huyết thanh buồng trứng [18], ung thư dạ dày [18], ung thư thực quản [18] và u thần kinh đệm cấp thấp não [18]]. Hơn nữa, họ thụ thể khứu giác (OR) thường được coi là đóng một vai trò quan trọng trong con đường truyền khứu giác và là mối liên hệ với các bệnh ung thư khác nhau, chẳng hạn như ung thư hắc tố ở người, ung thư dạ dày và AML [19, 20]. Trong nghiên cứu của chúng tôi, con đường truyền khứu giác đã được xác định là có ý nghĩa đối với 16 loại ung thư (tức là AML, ung thư vú, ung thư đại trực tràng, ung thư nội mạc tử cung, ung thư thực quản, u thần kinh đệm, ung thư thận, ung thư gan, NSCLC, SCLC, ung thư hắc tố, ung thư buồng trứng, ung thư tuyến tụy, ung thư dạ dày, ung thư khí tiêu hóa trên và ung thư đường tiết niệu) (Hình E). 3, và Bảng bổ sung S3). Con đường dẫn hướng sợi trục đã báo cáo các mối liên hệ ung thư, ví dụ: yếu tố dẫn hướng sợi trục Slit tương đồng 2 (Slit 2) được biết là ức chế xâm lấn thần kinh và di căn trong ung thư tuyến tụy [21], và ảnh hưởng đến tiên lượng của AML [22]. Sự im lặng của gen yếu tố dẫn hướng sợi trục semaphorin 6B đã ngăn chặn đáng kể sự kết dính, di chuyển và xâm lấn của tế bào ung thư dạ dày trong ống nghiệm [23]. Phù hợp với các nghiên cứu trước đây, con đường hướng dẫn sợi trục cũng được tìm thấy có liên quan chặt chẽ đến ung thư tuyến tụy, AML và ung thư dạ dày trong nghiên cứu của chúng tôi (Hình E). 3, và Bảng bổ sung S3). Các thụ thể kết hợp protein liên kết nucleotide guanine (protein G) (GPCR) là họ thụ thể màng lớn nhất làm trung gian tín hiệu xuyên màng thông qua phức hợp protein G dị tamer. Tín hiệu GPCR có liên quan đến các quá trình gây ung thư và di căn khác nhau [24, 25]. Phù hợp với các nghiên cứu trước đây, con đường tín hiệu GPCR cũng được tìm thấy có liên quan chặt chẽ đến AML, ung thư vú, ung thư đại trực tràng, u thần kinh đệm, ung thư thận, NSCLC, SCLC, ung thư hắc tố, ung thư buồng trứng và ung thư phần trên trong nghiên cứu của chúng tôi (Hình E). 3, và Bảng bổ sung S3).
Những con đường ung thư này cũng dẫn đến việc xác định các loại thuốc hiện có có khả năng được tái sử dụng như các liệu pháp chống ung thư mới (Hình E). 4, và Bảng bổ sung S4). Các loại thuốc nhắm mục tiêu đồng thời vào nhiều con đường sinh học có thể tạo ra tác dụng chống ung thư bổ sung hoặc thậm chí hiệp đồng, dẫn đến các liệu pháp hiệu quả hơn và giảm tác dụng phụ [26, 27]. Hình 4B cho thấy các loại thuốc có liên quan đến số lượng con đường tối đa cho từng loại ung thư. Ví dụ, dasatinib, một chất ức chế tyrosine kinase phân tử nhỏ, đã được tìm thấy để ức chế sự phát triển của AML, ung thư vú, ung thư gan, ung thư hắc tố, khối u tuyến tụy và các dòng tế bào thực quản Barrett tiền ung thư [28,29,30,31,32,33,34]. Mặc dù dasatinib trước đây đã được báo cáo là ức chế sự phát triển của NSCLC nhưng không phải SCLC [35], các nghiên cứu gần đây đã phát hiện ra rằng dasatinib có thể tăng cường đáng kể hiệu quả điều trị của vorinostat trong xenograft SCLC [36]. Ngoài ra, dasatinib đã được báo cáo là gây chết tế bào tự thực trong ung thư buồng trứng ở người [37]. Phù hợp với các nghiên cứu trước đây, chúng tôi đã tìm thấy dasatinib trong số các ứng cử viên thuốc cho AML, ung thư vú, ung thư đại trực tràng, ung thư nội mạc tử cung, ung thư thực quản, u thần kinh đệm, ung thư thận, ung thư gan, khối u ác tính, ung thư tuyến tụy, NSCLC, ung thư tiêu hóa phần trên, ung thư đường tiết niệu và SCLC (Hình E). 4B, và Bảng bổ sung S4). Afuresertib là một chất ức chế protein kinase B (AKT) mạnh thể hiện tác dụng ức chế khối u thuận lợi đối với tế bào ung thư vú bằng cách ức chế mạnh con đường tín hiệu phosphatidylinositol 3-kinase (PI3K) / AKT [38]. Phù hợp với nghiên cứu này, Afuresertib là một trong những loại thuốc mà chúng tôi tìm thấy có liên quan đến ung thư vú (Hình E). 4B, và Bảng bổ sung S4). D-alpha-tocopherol đóng một vai trò quan trọng trong việc giảm nguy cơ di căn của u thần kinh đệm ở bệnh nhân ung thư [39]. Chúng tôi cũng tìm thấy D-alpha-tocopherol là một trong những loại thuốc liên quan đến u thần kinh đệm (Bảng bổ sung S4). Ipatasertib là một chất ức chế AKT kinase phân tử nhỏ mạnh hiện đang được thử nghiệm trong các thử nghiệm lâm sàng giai đoạn III để điều trị ung thư vú di căn ba âm tính [40], cũng có liên quan đến ung thư vú trong nghiên cứu của chúng tôi (Hình E). 4B, và Bảng bổ sung S4). Phù hợp với mối liên hệ giữa midostaurin với u thần kinh đệm theo phân tích của chúng tôi (Bảng bổ sung S4), midostaurin là một chất ức chế tyrosine kinase đa mục tiêu để điều trị u thần kinh đệm [41]. Ngoài những loại thuốc này có hoạt tính chống ung thư được xác nhận trong tài liệu, các loại thuốc khác được xác định trong nghiên cứu của chúng tôi có khả năng được ưu tiên và tái sử dụng làm phương pháp điều trị mới cho một số loại ung thư. Ví dụ, chất ức chế Rho-kinase, HA-1077, ngăn chặn sự tăng sinh / di chuyển và gây ra quá trình chết rụng của tế bào ung thư tiết niệu [42] và MDA-MB 231 tế bào ung thư vú ở người [43], trong khi phân tích của chúng tôi cũng liên kết HA-1077 với ung thư đại trực tràng và ung thư dạ dày (Hình E). 4B, và Bảng bổ sung S4).
Hơn nữa, một số loại thuốc chống ung thư tiềm năng được xác định trong nghiên cứu của chúng tôi đã được sàng lọc các hoạt động chống ung thư trong các xét nghiệm dựa trên tế bào. Ví dụ, dasatinib có liên quan đến 16 con đường quan trọng đối với ung thư đại trực tràng (Bảng bổ sung S4) và ức chế khả năng tồn tại của tế bào ung thư đại trực tràng trong ống nghiệm (tức là IC50 = 0,40 μM, hiệu quả = 57%) [44]. Enzastaurin có liên quan đến năm con đường ung thư đại trực tràng quan trọng (Bảng bổ sung S4) và ức chế khả năng tồn tại của tế bào ung thư đại trực tràng trong ống nghiệm (tức là IC50 = 11 μM, hiệu quả = 54%) [44]. Cuối cùng, puromycin, một loại thuốc liên quan đến bốn con đường u thần kinh đệm quan trọng trong nghiên cứu của chúng tôi (Bảng bổ sung S4), cũng được phát hiện làm giảm khả năng tồn tại của các tế bào u nguyên bào thần kinh đệm trong ống nghiệm (tức là IC50 = 2,74 μM, hiệu quả = 90%) [45]. Ngoài ra, một số loại thuốc được xác định theo cách tiếp cận của chúng tôi là các liệu pháp nhắm mục tiêu đã được phê duyệt cho loại ung thư tương ứng của chúng. Những phát hiện này cung cấp thêm bằng chứng cho tiện ích của phương pháp của chúng tôi (Hình E). 4C). Bộ dữ liệu tái sử dụng Lược tả Ức chế Tương đối Đồng thời trong Hỗn hợp (PRISM) cung cấp thông tin về hoạt động ức chế tăng trưởng của 4518 loại thuốc được thử nghiệm trên 578 dòng tế bào ung thư ở người và diện tích dưới đường cong đáp ứng liều (AUC) là một số liệu đại diện cho phần tế bào còn lại sau khi tiếp xúc với thuốc trung bình trên tất cả các nồng độ thử nghiệm được chuẩn hóa cho các tế bào không được điều trị bằng thuốc [46]. Với sự thay đổi trong thử nghiệm dòng tế bào trên các loại thuốc khác nhau trong bộ dữ liệu PRISM, Koudijs và cộng sự đã sử dụng một mô hình hỗn hợp tuyến tính để tách biệt tác dụng của các dòng tế bào và thuốc. Sau đó, họ hợp nhất các phát hiện để ước tính AUC chuẩn hóa trung bình (mnAUC) đại diện cho phần trung bình của các tế bào còn lại sau khi tiếp xúc với thuốc trong một nhóm các dòng tế bào [47]. Trong nghiên cứu này, giá trị mnAUC cho các loại thuốc chống ung thư tiềm năng đã được xác định được tính toán bằng phương pháp của Koudijs và cộng sự để đánh giá hiệu quả của thuốc (Bảng S4). Một thử nghiệm tổng xếp hạng Wilcoxon cho thấy rằng giá trị mnAUC của các loại thuốc chống ung thư được xác định trong nghiên cứu này thấp hơn đáng kể so với giá trị được báo cáo đối với các loại thuốc chống ung thư tiềm năng trong tài liệu (p < 2 × 10−16), cho thấy rằng các loại thuốc được xác định đã chứng minh tác dụng chống ung thư mạnh mẽ chống lại các loại ung thư tương ứng của chúng (Hình S1). Để đánh giá hiệu quả của phương pháp trong việc xác định thuốc cho các loại ung thư cụ thể, một thử nghiệm ngẫu nhiên đã được tiến hành để so sánh tỷ lệ trúng giữa phương pháp của chúng tôi và các lựa chọn ngẫu nhiên. Một cặp loại thuốc-ung thư được định nghĩa là một cú đánh nếu thuốc là một liệu pháp nhắm mục tiêu đã được phê duyệt cho loại ung thư tương ứng. Trong thử nghiệm ngẫu nhiên, 1000 cặp thuốc loại ung thư được lấy mẫu từ dữ liệu thô 100 lần, cho tỷ lệ trúng đích trung bình là 0,2%, thấp hơn đáng kể so với tỷ lệ trúng 1,5% cho 974 cặp (thử nghiệm chính xác của Fisher, p = 0,001) được dự đoán bởi phương pháp của chúng tôi trong nghiên cứu này.
Trong nghiên cứu này, chúng tôi đã sử dụng phương pháp tiếp cận đa omics tích hợp, đã chứng minh nhiều lợi thế so với các phương pháp đơn omics thông thường. Ví dụ, Deng và cộng sự đã sử dụng một cách tiếp cận tích hợp bằng cách kết hợp các hồ sơ phân tử phiên mã, proteomic và chuyển hóa của bệnh nhân khối u. Chiến lược tích hợp dữ liệu này tạo điều kiện thuận lợi cho việc xác định các con đường chính và chất chuyển hóa, vượt qua độ chính xác đạt được bằng các phân tích phiên mã riêng lẻ [48]. Tương tự, Lu và cộng sự đã tiến hành phân tích kỹ lưỡng bằng cách tích hợp dữ liệu phiên mã và protein trong u nguyên bào thần kinh đệm. Kết quả cho thấy sự phong phú đáng kể của con đường tín hiệu hormone giải phóng gonadotropin (GnRH), một phát hiện không thể nhận ra thông qua các bộ dữ liệu omics đơn lẻ. Điều này làm nổi bật tiềm năng của nghiên cứu và phân tích đa omics trong việc cung cấp sự hiểu biết toàn diện hơn về các bệnh ung thư phức tạp [49]. Hơn nữa, Heo và cộng sự phát hiện ra rằng việc tích hợp dữ liệu đa omics cung cấp một mô tả toàn diện về hồ sơ phân tử và lâm sàng của bệnh nhân ung thư khi tương phản với các phương pháp tiếp cận đơn omics. Sự tích hợp này không chỉ nâng cao việc tạo ra các bộ dữ liệu chất lượng cao, không thiên vị mà còn góp phần hiểu toàn diện hơn về chủ đề [50]. Nghiên cứu của chúng tôi là một trong nhiều nghiên cứu đã sử dụng cơ sở dữ liệu CCLE theo nhiều cách khác nhau để đạt được các mục tiêu khác nhau trong nghiên cứu ung thư và khám phá thuốc. Ví dụ, Shao và cộng sự đã sử dụng mô hình học hệ thống khuyến nghị với dữ liệu CCLE (tức là dữ liệu thuốc và dữ liệu đa omics trong CCLE), tập trung vào sự tương đồng về chức năng của thuốc-thuốc, không giống như nghiên cứu của chúng tôi, xác định các loại thuốc cụ thể cho loại ung thư [51]. Hsu và cộng sự đã phát triển Scaden-CA, một mô hình học sâu để giải cấu trúc dữ liệu khối u thành tỷ lệ các dòng tế bào cụ thể theo loại ung thư, nhằm thu hẹp khoảng cách trong kiến thức dược học giữa bộ dữ liệu in vitro và in vivo. Dữ liệu RNA số lượng lớn CCLE đã được sử dụng để xác nhận mô hình của họ [52]. Carvalho và cộng sự đã sử dụng dữ liệu CCLE (tức là số bản sao và dữ liệu biểu hiện RNA-Seq của các dòng tế bào ung thư đại trực tràng trong CCLE) để xác định các mô hình dòng tế bào và khám phá phản ứng thuốc trong ung thư trực tràng, tiết lộ những phát hiện quan trọng liên quan đến gen topoisomerase 2A (TOP2A) trong các nhóm bệnh nhân riêng biệt [53]. Mohammadi và cộng sự đã phân tích dữ liệu proteomics từ 26 dòng tế bào ung thư vú trong CCLE để kiểm tra các mô hình biểu hiện của các peptide kháng khuẩn và điều hòa miễn dịch cụ thể trên các phân nhóm ung thư vú khác nhau, nhằm tạo điều kiện thuận lợi cho các nỗ lực tái sử dụng thuốc [54]. Rinaldetti và cộng sự đã sử dụng dữ liệu biểu hiện phiên mã từ các dòng tế bào CCLE và BLA-40 để xác định các phương pháp điều trị phân tầng phân loại mới cho ung thư bàng quang xâm lấn cơ thông qua sàng lọc hàm lượng cao, tiết lộ độ nhạy cảm với thuốc riêng biệt và làm nổi bật vai trò của CCLE trong các chỉ định phân loại phân tử [55].
Kết luận
Chúng tôi đã thực hiện phân tích tích hợp dữ liệu hồ sơ RNA-Seq và proteomics quy mô lớn, dẫn đến một tập hợp các con đường đặc trưng cho 16 loại ung thư ở người. Những con đường này có thể cung cấp sự hiểu biết có hệ thống về các cơ chế cơ bản phức tạp cho từng loại ung thư. Hơn nữa, thông qua các con đường ung thư đặc trưng này, chúng tôi đã xác định các loại thuốc cho từng loại ung thư, có thể đóng vai trò là ứng cử viên tái sử dụng thuốc để điều trị ung thư. Kết quả của chúng tôi cung cấp một bộ giả thuyết phong phú có thể kiểm tra được để thiết kế xác nhận thử nghiệm và thử nghiệm lâm sàng trong tương lai.
Dữ liệu và phương pháp
Thu thập dữ liệu
Dữ liệu RNA-Seq (tệp: CCLE_RNAseq_genes_rpkm_20180929.gct) được lấy từ cơ sở dữ liệu CCLE và những dữ liệu này chứa tổng cộng 1019 dòng tế bào ung thư với 56.202 phiên mã khác nhau [6]. Dữ liệu protein định lượng được thu thập từ tài liệu và những dữ liệu này chứa tổng cộng 375 dòng tế bào ung thư với 12.755 protein khác nhau [2]. Chú thích dòng tế bào ung thư (tệp: Cell_lines_annotations_20181226.txt) đã được tải xuống từ cơ sở dữ liệu CCLE [6]. Để xác nhận định lượng kết quả, dữ liệu diện tích chuẩn hóa trung bình dưới đường cong (mnAUC) đã được sử dụng từ các tài liệu bổ sung của một nghiên cứu đã được công bố trước đó [47]. Các giá trị mnAUC phản ánh phần trung bình của các tế bào sống sót sau khi tiếp xúc với thuốc trên nhiều dòng tế bào.
Xác định các phiên mã và protein quan trọng cho từng loại ung thư
Dữ liệu phiên mã thô đã được xử lý trước để loại bỏ các ngoại lệ bằng phương pháp đóng nắp (tức là giá trị RPKM tối đa cho mỗi dòng tế bào được hiệu chỉnh theo giá trị xảy ra thường xuyên nhất trong số các giá trị RPKM tối đa cho tất cả các dòng tế bào), sau đó là chuyển đổi log2. Dữ liệu proteomics thô không phải trải qua các bước tiền xử lý giống như dữ liệu phiên mã, vì chúng đã trải qua quá trình biến đổi log2. Để xác định các phiên mã và protein cụ thể cho từng loại ung thư, trước tiên chúng tôi xác định xem có bất kỳ sự khác biệt đáng kể nào giữa mức độ biểu hiện của chúng trên các loại ung thư khác nhau bằng cách sử dụng phân tích phương sai một chiều (ANOVA) hay không. Các phiên mã hoặc protein cho thấy biểu hiện khác biệt đáng kể (giá trị P < 0,05) được phân tích thêm để xem liệu chúng có biểu hiện đáng kể đối với một loại ung thư cụ thể hay không. Mức độ biểu hiện của một loại ung thư được so sánh với các loại ung thư khác và ý nghĩa thống kê được xác định bởi giá trị P từ bài kiểm tra t của Học sinh hai đuôi. Đối với mỗi loại ung thư, các giá trị P kết quả sau đó được điều chỉnh cho nhiều thử nghiệm giả thuyết bằng cách sử dụng tỷ lệ phát hiện sai (FDR) và các giá trị P được điều chỉnh FDR được đặt từ 10-10 đến 10-2 với tỷ lệ tăng gấp mười lần. Mỗi tập hợp con phiên mã ở một ngưỡng giá trị P được điều chỉnh FDR khác nhau sau đó được phân cụm theo thứ bậc bằng cách sử dụng phương pháp liên kết hoàn chỉnh với khoảng cách Euclid làm thước đo tương tự. Kết quả phân cụm được định lượng bằng cách sử dụng độ tinh khiết của Gini, một thước đo độ đặc hiệu của phân cụm. Giá trị của độ tinh khiết của Gini dao động từ 0 đến 1, với các giá trị cao hơn cho thấy sự chuyên môn hóa cao hơn trong cụm. Cuối cùng, các bản sao quan trọng cho từng loại ung thư được ưu tiên dựa trên giá trị P được điều chỉnh FDR và độ tinh khiết của Gini. Đối với dữ liệu biểu hiện protein, giá trị P là <0,05 được sử dụng để chọn các protein quan trọng cho từng loại ung thư.
Phân tích làm giàu con đường sinh học
Cơ sở dữ liệu con đường NCATS BioPlanet được sử dụng để xác định các con đường sinh học đặc trưng của từng loại ung thư [56]. Các con đường được làm giàu trong mỗi phiên mã hoặc bộ protein cho một loại ung thư cụ thể được xác định trong hai bước. Thử nghiệm chính xác của Fisher được áp dụng đầu tiên và sau đó FDR được tính toán. Ý nghĩa thống kê của các con đường có giá trị P được điều chỉnh FDR < 0,05 được đánh giá thêm thông qua bootstrap với 1000 lần lặp lại. Giá trị P bootstrap được tính bằng cách đếm số lần giá trị P chính xác của Fisher từ dữ liệu hoán vị ngẫu nhiên nhỏ hơn giá trị quan sát thực sự, tức là giá trị P bootstrap là 0,005 có nghĩa là năm trong số 1000 giá trị P ngẫu nhiên nhỏ hơn giá trị P quan sát thực sự. Giá trị P bootstrap < 0,05 được coi là có ý nghĩa thống kê. Để cải thiện độ tin cậy của các con đường được xác định, các giá trị P làm giàu từ các phiên mã và protein được kết hợp thêm thành một điểm có ý nghĩa (tức là trung bình của logarit của các giá trị P được điều chỉnh FDR). Các con đường sinh học quan trọng cho từng loại ung thư được xếp hạng và ưu tiên theo điểm kết hợp này (ví dụ: điểm nhỏ hơn cho thấy mức độ quan trọng cao hơn).
Xác định các loại thuốc chống ung thư tiềm năng
Chú thích mục tiêu thuốc được lấy từ cơ sở dữ liệu DrugBank (https://go.drugbank.com/) và cơ sở dữ liệu thuốc của Bách khoa toàn thư về Gen và Bộ gen (KEGG) (https://www.genome.jp/kegg/drug/). DrugBank là một tài nguyên tin sinh học và hóa học kết hợp dữ liệu thuốc chi tiết với thông tin mục tiêu toàn diện [57]. Cơ sở dữ liệu thuốc KEGG lưu trữ thông tin phong phú liên quan đến thuốc và các mục tiêu phân tử tương tác của chúng, có thể hữu ích trong việc phát triển các loại thuốc chống ung thư tiềm năng mới [58]. Các ứng cử viên thuốc chống ung thư được xác định dựa trên các tương tác thuốc-mục tiêu được chú thích bởi hai cơ sở dữ liệu trên. Các mục tiêu phân tử liên quan đến nhiều con đường sinh học có ý nghĩa đối với một loại ung thư đã được thu thập để xác định ứng cử viên thuốc. Các liệu pháp điều trị ung thư nhắm mục tiêu đã được phê duyệt và các loại ung thư tương ứng của chúng đã được lấy từ Viện Ung thư Quốc gia (NCI) tại trang web của Viện Y tế Quốc gia (NIH) (https://www.cancer.gov/about-cancer/treatment/types/targeted-therapies/targeted-therapies-fact-sheet).