Trong những năm gần đây, trí tuệ nhân tạo đang tạo ra những bước tiến vượt bậc trong lĩnh vực sinh học và y học. Một trong những đột phá nổi bật nhất là sự ra đời của mô hình DNA nền tảng Evo 2. Công trình nghiên cứu về Evo 2 đã được công bố trên tạp chí khoa học danh tiếng Nature. Mô hình này được xem là hệ thống AI sinh học lớn nhất từng được phát triển, với khả năng phân tích, hiểu và thậm chí thiết kế mã di truyền của các sinh vật sống. Evo 2 được huấn luyện dựa trên dữ liệu DNA của hơn 100.000 loài khác nhau trên toàn bộ cây sự sống. Nhờ lượng dữ liệu khổng lồ này, hệ thống có thể phát hiện những mẫu hình phức tạp trong chuỗi gene giữa các loài hoàn toàn khác biệt. Những phát hiện như vậy thường phải mất nhiều năm nghiên cứu trong phòng thí nghiệm mới có thể nhận ra. Không chỉ dừng lại ở việc phân tích dữ liệu, Evo 2 còn có khả năng xác định chính xác các đột biến gene gây bệnh ở con người. Đồng thời, mô hình còn có thể thiết kế những bộ genome mới có độ dài tương đương genome của các vi khuẩn đơn giản. Điều này mở ra một hướng đi hoàn toàn mới cho sinh học tổng hợp và y học tương lai.
Công cụ mã nguồn mở và khả năng tiếp cận toàn cầu. Evo 2 được phát triển bởi các nhà khoa học từ Arc Institute và NVIDIA. Dự án còn có sự hợp tác của các nhà nghiên cứu từ Stanford University, University of California, Berkeley và University of California, San Francisco. Một điểm đặc biệt quan trọng của dự án này là toàn bộ mã nguồn của Evo 2 được công khai. Mã nguồn của mô hình có thể truy cập trên GitHub của Arc Institute. Ngoài ra, Evo 2 cũng được tích hợp vào nền tảng nghiên cứu sinh học AI NVIDIA BioNeMo. Điều này giúp các nhà khoa học trên toàn thế giới có thể sử dụng và phát triển thêm các ứng dụng dựa trên mô hình này. Arc Institute cũng hợp tác với phòng thí nghiệm AI Goodfire để xây dựng một công cụ trực quan hóa giúp giải thích cách Evo 2 hiểu các mẫu hình sinh học. Công cụ này giúp các nhà khoa học thấy rõ những đặc điểm sinh học quan trọng mà mô hình nhận diện trong chuỗi genome. Nhóm nghiên cứu đã chia sẻ toàn bộ dữ liệu huấn luyện, mã đào tạo, mã suy luận và trọng số của mô hình. Nhờ đó, Evo 2 trở thành mô hình AI sinh học mã nguồn mở có quy mô lớn nhất từ trước đến nay.
Mở rộng dữ liệu sinh học ở quy mô chưa từng có. Evo 2 được xây dựng dựa trên nền tảng của phiên bản trước đó là Evo 1. Trong khi Evo 1 chỉ được huấn luyện chủ yếu trên genome của các sinh vật đơn bào, Evo 2 đã mở rộng dữ liệu lên một quy mô khổng lồ. Tổng cộng, mô hình được huấn luyện trên hơn 9,3 nghìn tỷ nucleotide – các đơn vị cấu thành DNA và RNA. Dữ liệu này được thu thập từ hơn 128.000 bộ genome hoàn chỉnh và dữ liệu metagenomic. Bộ dữ liệu bao gồm genome của vi khuẩn, vi khuẩn cổ, virus thực khuẩn thể, cũng như các sinh vật thuộc nhóm sinh vật nhân thực như con người, thực vật và nhiều loài sinh vật đa bào khác. Theo nhà khoa học Patrick Hsu, đồng sáng lập Arc Institute, việc phát triển Evo 1 và Evo 2 đánh dấu một cột mốc quan trọng của lĩnh vực sinh học tạo sinh. Những mô hình này cho phép máy móc “đọc, viết và suy nghĩ” bằng ngôn ngữ của nucleotide. Những mẫu hình được viết bởi tiến hóa. Trong hàng triệu năm tiến hóa, thông tin sinh học đã được mã hóa trong DNA và RNA của mọi sinh vật sống. Những chuỗi phân tử này chứa đựng vô số quy luật và cấu trúc phức tạp. Evo 2 có khả năng phát hiện và khai thác các quy luật đó. Nhà khoa học Brian Hie từ Stanford giải thích rằng quá trình tiến hóa đã để lại dấu ấn của mình trong các chuỗi sinh học. Tương tự như cách Internet tạo ra dữ liệu ngôn ngữ cho các mô hình ngôn ngữ lớn, tiến hóa đã tạo ra dữ liệu sinh học cho Evo 2 học hỏi. Những mẫu hình này chứa đựng thông tin về cách các phân tử sinh học hoạt động và tương tác với nhau. Khi AI hiểu được các quy luật đó, nó có thể dự đoán hành vi của gene và protein trong cơ thể sống. Hạ tầng tính toán hiệu năng cực cao. Để huấn luyện Evo 2, các nhà khoa học đã sử dụng nền tảng điện toán AI NVIDIA DGX Cloud chạy trên hạ tầng của Amazon Web Services. Quá trình huấn luyện kéo dài nhiều tháng và sử dụng hơn 2.000 GPU NVIDIA H100. Đây là một trong những hệ thống tính toán mạnh mẽ nhất từng được dùng cho nghiên cứu sinh học. Evo 2 có thể xử lý các chuỗi gene dài tới một triệu nucleotide cùng lúc. Khả năng này giúp mô hình hiểu được mối liên hệ giữa những vùng DNA nằm rất xa nhau trong genome. Để đạt được điều này, nhóm nghiên cứu đã phát triển một kiến trúc AI mới có tên StripedHyena 2. Kiến trúc này cho phép mô hình xử lý dữ liệu lớn gấp 30 lần so với Evo 1 và phân tích chuỗi nucleotide dài gấp tám lần. Ứng dụng trong y học và sinh học tổng hợp. Evo 2 đã chứng minh khả năng ứng dụng mạnh mẽ trong nghiên cứu bệnh học. Ví dụ, khi thử nghiệm với các biến thể của gene liên quan đến ung thư vú BRCA1, mô hình đạt độ chính xác hơn 90% trong việc dự đoán đột biến nào là vô hại và đột biến nào có khả năng gây bệnh. Những phân tích như vậy có thể giúp tiết kiệm hàng nghìn giờ thí nghiệm trên tế bào hoặc động vật. Đồng thời, nó cũng giúp các nhà khoa học nhanh chóng xác định nguyên nhân di truyền của bệnh và phát triển thuốc mới. Trong thời gian ngắn kể từ khi công bố bản thảo nghiên cứu, Evo 2 đã được áp dụng cho nhiều vấn đề khoa học khác nhau. Ví dụ như dự đoán nguy cơ bệnh di truyền ở bệnh nhân Alzheimer's disease hoặc đánh giá các biến thể gene ở các loài động vật nuôi. Ngoài ra, các nhà nghiên cứu tại Arc Institute còn sử dụng Evo 2 để thiết kế các virus thực khuẩn thể tổng hợp có chức năng. Những virus này có thể được sử dụng để tiêu diệt các vi khuẩn kháng kháng sinh. Tương lai của liệu pháp chính xác. Evo 2 cũng có tiềm năng hỗ trợ phát triển các liệu pháp gene chính xác hơn. Ví dụ, các nhà khoa học có thể thiết kế các yếu tố di truyền chỉ hoạt động trong những loại tế bào cụ thể. Theo nhà sinh học tính toán Hani Goodarzi, điều này có thể giúp các liệu pháp gene chỉ kích hoạt trong tế bào thần kinh hoặc tế bào gan. Nhờ vậy, tác dụng phụ có thể được giảm thiểu đáng kể. Nhóm nghiên cứu hình dung Evo 2 như một “hệ điều hành nền tảng” cho sinh học AI. Trên nền tảng đó, các nhà khoa học có thể xây dựng nhiều ứng dụng khác nhau, từ dự đoán tác động của đột biến DNA cho đến thiết kế các hệ thống sinh học mới.
Đạo đức, an toàn và tác động toàn cầu. Để đảm bảo an toàn sinh học, nhóm nghiên cứu đã loại bỏ các tác nhân gây bệnh nguy hiểm đối với con người khỏi dữ liệu huấn luyện. Họ cũng thiết lập cơ chế để mô hình không cung cấp thông tin có thể bị lạm dụng liên quan đến các mầm bệnh nguy hiểm. Nhà khoa học Tina Hernandez-Boussard và nhóm của bà đã hỗ trợ xây dựng các nguyên tắc phát triển và triển khai công nghệ một cách có trách nhiệm. Theo chuyên gia sinh học số Anthony Costa tại NVIDIA, Evo 2 đã giúp mở rộng đáng kể hiểu biết của con người về hệ thống sinh học. Với kiến trúc độc đáo và bộ dữ liệu sinh học lớn nhất từng được tích hợp vào một mô hình AI, Evo 2 có khả năng tổng quát hóa kiến thức sinh học tốt hơn bất kỳ mô hình nào trước đây. Việc công khai mô hình này cho cộng đồng khoa học toàn cầu có thể giúp tăng tốc quá trình khám phá khoa học, phát triển thuốc mới và giải quyết những thách thức lớn nhất của nhân loại trong lĩnh vực sức khỏe và bệnh tật.
Vàng Trên Trái Đất: Quý Giá Đến Mức Nào Và Chúng Ta Còn Bao Nhiêu?
2025-06-15, tác giả: Fahoka
Đăng bình luận
VNXEXPRESS
Cập Nhật Tin Tức

Ý kiến độc giả