Khách mời hôm nay của chúng ta, Jakob Uszkoreit, thường được ghi nhận là người đề xuất ý tưởng ban đầu cho Transformers, một khái niệm nền tảng làm cho trí tuệ nhân tạo sinh khả thi. Vào năm 2017, tại Google, anh đã đồng viết một bài báo về ý tưởng này cùng với bảy đồng nghiệp khác. Sau hơn một thập kỷ tại Google, năm 2021, anh rời công ty để thành lập Inceptive, một startup công nghệ sinh học và AI với sự hậu thuẫn từ Nvidia. Dưới đây là cuộc trò chuyện của chúng tôi. Jakob, cảm ơn anh đã tham gia cùng chúng tôi hôm nay. Cảm ơn vì đã mời tôi.
Tuyệt vời. Tôi nghe nói rằng ý tưởng ban đầu về Transformers bắt nguồn từ anh. Điều đó có đúng không? Và nó đến từ đâu? Hãy để tôi xem. Trong khoa học, tôi sẽ nói rằng hiếm khi, nếu có, có ý tưởng thực sự nguyên bản. Bạn luôn đứng trên vai những người khổng lồ. Nhưng thực sự điều gì đã xảy ra vào thời điểm đó là nhóm của tôi đối mặt với một tình huống thú vị, chúng tôi có các mạng nơ-ron sâu tiên tiến và biểu cảm, gọi là LSTM (mạng bộ nhớ dài ngắn hạn) trong một cấu hình được gọi là Seq2Seq, cũng được phát triển tại Google vào khoảng năm 2014-2015, cho kết quả hàng đầu trong dịch máy nơ-ron hoặc trong dịch máy nói chung. Tuy nhiên, tốc độ huấn luyện của chúng quá chậm đến mức nếu bạn có lượng dữ liệu huấn luyện khổng lồ cho một vấn đề cụ thể, bạn sẽ không bao giờ có thể huấn luyện ngay cả trên một phần nhỏ dữ liệu huấn luyện mà bạn có. Kết quả là, nếu bạn sử dụng các loại mạng nơ-ron này, mặc dù chúng mạnh mẽ và biểu cảm hơn các kiến trúc đơn giản hơn như mạng truyền thẳng, bạn không thể huấn luyện trên nhiều dữ liệu và do đó sẽ kém hơn so với các mạng đơn giản hơn được huấn luyện trên phần lớn hơn của dữ liệu có sẵn. Vì vậy, được truyền cảm hứng từ vấn đề này, chúng tôi đã xem xét các cơ chế hoặc kiến trúc hiện có có thể giúp chúng tôi vượt qua giới hạn này, nơi mà bạn có thể có một thứ tương tự như các RNN hoặc LSTM này, trong khi thực sự tăng tốc độ huấn luyện trên các loại máy tính tăng tốc mà chúng tôi có vào thời điểm đó, rất giống với các loại máy tính tăng tốc mà chúng tôi có ngày nay. Điều này dẫn đến ý tưởng sử dụng cơ chế gọi là attention, đã được công bố và đề xuất trước đó vài năm, nhưng sử dụng nó theo cách mà chúng tôi gọi là self-attention, nơi mà một tín hiệu, chẳng hạn như một câu, sẽ tự chú ý để hiểu sâu hơn về cấu trúc hoặc đại diện không gian vector của nó. Cơ chế này rất phù hợp với GPU. Đây có thể là một trong những ý tưởng ban đầu mà tôi đã đóng góp, và cuối cùng đã dẫn đến kiến trúc Transformer mà chúng tôi công bố vào năm 2017. Khi anh đang làm việc trên bài báo, anh có nghĩ rằng nó sẽ trở nên quan trọng như chúng ta thấy hiện nay không? Thực sự đó chỉ là một bước trong một chuỗi dài các bước trên con đường này. Nhóm của tôi đã công bố một bài báo một năm trước đó về mô hình Decomposable Attention, cấu trúc khá giống nhưng không được triển khai tốt và nhanh như Transformer. Vì vậy, thực sự, chúng ta sai lầm khi nhìn nhận nó như một điều to lớn. Nhưng đồng thời, chúng tôi nghĩ rằng nếu chúng tôi có thể cân bằng hiệu quả giữa việc khai thác tài nguyên tính toán và tăng cường sức mạnh biểu đạt của một kiến trúc mạng nơ-ron, thì điều này có thể ảnh hưởng không chỉ đến các ứng dụng điển hình của các mạng nơ-ron vào thời điểm đó, mà còn mở ra nhiều ứng dụng mới. Chúng tôi đã rất hào hứng khi áp dụng nó vào nhiều vấn đề khác nhau và có hy vọng cao. Thực tế là, vào thời điểm đó, chúng tôi đã bắt đầu làm điều đó và có những kết quả sơ bộ cho thấy rằng bạn có thể áp dụng nó vào nhiều vấn đề khác nhau, từ dự đoán cấu trúc protein đến thị giác máy tính. Cuộc cách mạng ChatGPT hướng tới người tiêu dùng là một mặt của vấn đề. Nhưng anh đã triển khai những điều này tại Google, Google Search, Google Assistant, Google Translate, phải không? Đúng vậy. Chúng tôi đã có một số nguyên mẫu áp dụng Transformers từ rất sớm trong một số sản phẩm này, nhưng phải mất một thời gian dài để chúng thực sự được ra mắt. ChatGPT chưa thực sự tồn tại lâu như một sản phẩm tiêu dùng. Thực tế là có những ứng dụng của Transformers đã được triển khai sản xuất tại Google và các nơi khác trước đó, nhưng ít được chú ý hơn. ChatGPT đã chiếu sáng lên những ứng dụng này vì nó không chỉ là một giao diện mượt mà xung quanh một Transformer được huấn luyện rất tốt trên nhiều dữ liệu với nhiều tính toán và kỹ thuật tốt. Anh nghĩ gì về quan điểm rằng Google đã có ý tưởng tuyệt vời này nhưng để nó trôi đi và tụt lại phía sau? Cuối cùng thì Google đã trở thành một công ty lớn và họ không nổi tiếng vì sự nhanh nhạy. Tuy nhiên, không phải thực sự Google mất nhiều thời gian hơn để triển khai trong một số sản phẩm. Có thể Google không dám ứng dụng công nghệ này vào nhiều loại sản phẩm khác nhau như các công ty nhỏ hơn như OpenAI. Điều này là điều mà chúng ta phải chấp nhận và thậm chí cảm kích, vì Google cung cấp những dịch vụ mà chúng ta phụ thuộc hàng ngày. Độ tin cậy và sự tin tưởng cần được duy trì trong các sản phẩm này. Google Search, chẳng hạn, là một thứ mà bạn phải cực kỳ cẩn thận. Chúng ta đã thấy trong các đợt ra mắt gần đây khi Google bắt đầu thêm các khả năng AI và triển khai các mô hình Gemini trong tìm kiếm rằng điều này không dễ dàng. Không dễ để đánh giá thấp lượng công việc bổ sung cần thiết khi bạn làm việc trên các sản phẩm như vậy so với việc mở đường vào một danh mục hoàn toàn mới, nơi mà ChatGPT chắc chắn đã có nhiều lời lẽ kỳ lạ trên đường.
ChatGPT có tạo áp lực lên các công ty để ra mắt sản phẩm như vậy quá sớm không? Tôi không nghĩ rằng đó là hướng của áp lực. Nó chắc chắn đã tạo áp lực lên các công ty để đưa sản phẩm ra thị trường, và điều đó rất tuyệt vời. Đó là điều thúc đẩy chúng ta tiến lên phía trước. Tuy nhiên, tôi không nghĩ rằng điều đó là quá sớm. Chúng ta thấy các lần ra mắt gặp vấn đề vì chúng ta đã quá phụ thuộc vào những sản phẩm này, và gần như mù quáng tin tưởng vào chúng. Đó là lý do tại sao chúng gây sốc cho chúng ta. Nhưng cuối cùng, nếu chúng ta muốn những sản phẩm này phát triển nhanh chóng, chúng ta phải chấp nhận một số lần ra mắt bị lỗi. Đó là điều tất yếu. Các lần ra mắt ban đầu của Google Translate còn tệ hơn nhiều so với những gì chúng ta thấy bây giờ, với những lỗi ngớ ngẩn và các sự cố mà chúng tôi gặp phải. Thực tế, bạn có thể nói rằng các phiên bản đầu tiên của Google Translate có nhiều lỗi hơn là sản phẩm thực sự. Nhưng điều đó là cần thiết. Nó hoàn toàn cần thiết để chúng tôi đạt được điểm mà chúng tôi đang ở hiện tại. Google Translate, ở một khía cạnh nào đó, là nền tảng cần thiết để không chỉ đưa ra transformer, mà còn đưa học trình tự (sequence to sequence learning) với mạng nơ-ron, đến mức mà các ứng dụng hiện đại của LSTM trong việc mô hình hóa và hiểu ngôn ngữ phần lớn được thúc đẩy bởi dịch máy và do những người trong hoặc xung quanh đội ngũ Google Translate thực hiện. Đây là công nghệ tiên tiến và đôi khi nó cũng có vẻ như vậy. Là một trong những người sáng tạo ra transformer, anh có cảm thấy trách nhiệm đảm bảo AI sinh tiến bộ một cách an toàn, không thiên vị và có trách nhiệm không? Điều này kết hợp nhiều khía cạnh mà tôi nghĩ chúng ta cần tách ra, triển khai chúng một cách có trách nhiệm để thực sự tối đa hóa lợi ích cho nhân loại. Tuyệt đối, tôi cảm thấy điều đó. Khi nói về thiên vị, tôi không nhất thiết cho rằng đó là lỗi của công nghệ. Thiên vị xuất phát từ dữ liệu. Bạn có thể lựa chọn và quản lý dữ liệu, và đó là điều cần làm. Nhưng tôi tin rằng việc cho rằng lỗi nằm ở kiến trúc mạng nơ-ron nếu bạn có một mô hình thiên vị từ dữ liệu huấn luyện của nó không phải là điều mà chúng ta tìm kiếm. Tôi cảm thấy mạnh mẽ rằng việc quản lý dữ liệu và kiểm soát chất lượng, giám sát cần phải diễn ra, bất kể đó là transformer hay RNN hoặc bất kỳ kiến trúc mạng nào trong tương lai. Tôi nghĩ rằng đây là một hướng nghiên cứu tổng thể, nhưng vẫn còn thiếu đầu tư và thiếu nhấn mạnh, chẳng hạn như phát triển công cụ để làm cho việc này dễ dàng hơn và nhóm phản ứng nhanh hơn với các lỗi hoặc hành vi không mong muốn của các mô hình. Điều quan trọng cần đề cập là chúng ta không nên để bản thân bị phân tâm bởi lo lắng hoặc sợ hãi về các rủi ro tồn tại khó ước tính trong dài hạn, vì chúng ta có thể tốt hơn khi đầu tư vào giải quyết các vấn đề tầm thường hơn, như quản lý dữ liệu tốt hơn để không loại bỏ thiên vị mà để các thiên vị phản ánh đúng những gì chúng ta mong muốn. Trong học máy, học là một dạng thiên vị. Tất cả các mô hình đều có thiên vị, nếu không chúng chưa học được gì. Vấn đề là chúng ta hài lòng với những thiên vị mà các mô hình đó thể hiện hay không. Hãy nói về những gì có thể và đáng phấn khích. Tôi muốn bắt đầu với câu hỏi mà chúng tôi nghĩ nhiều về, đó là làm thế nào để các công ty có thể kiếm lời từ công nghệ này? Anh có thể nêu ra một số trường hợp sử dụng sẽ mang lại lợi nhuận không? Có thể tôi hơi thiên vị, nhưng tôi cảm thấy truyền thông, dù là văn bản, video, v.v., có thể không phải là lĩnh vực dễ dàng nhất để triển khai các mô hình này một cách có lợi nhuận trong ngắn hạn. Chẳng hạn, sử dụng AI để xác định các địa điểm khoan hứa hẹn cho năng lượng địa nhiệt, điều này có thể được thực hiện với các mô hình sinh tương tự như những mô hình dùng để tạo các video ngắn hài hước. Sử dụng AI sinh như chúng tôi làm tại Inceptive, nơi chúng tôi sử dụng AI sinh để thiết kế các phân tử RNA tạo nên cốt lõi của thế hệ thuốc mới. Không còn nghi ngờ gì nữa, trong vài năm tới, chắc chắn trước khi thập kỷ này kết thúc, chúng ta sẽ thấy những loại thuốc cứu sống nhiều người và có thể tạo ra giá trị lớn. Vì vậy, tôi cảm thấy việc triển khai này theo cách có lợi nhuận là điều chắc chắn sẽ xảy ra.
Ứng dụng y học có rủi ro cao nhưng cũng có tiềm năng lớn. Có điều đó khả thi tại Google không hay đó là lý do khiến anh rời đi vào năm 2021? Điều đó chắc chắn khả thi. Alphabet của Google có nhiều nỗ lực thú vị trong lĩnh vực này, như Calico và Verily, cùng nhiều dự án khác không công khai. Tiên phong trong một công nghệ như thế này hợp tác với các công ty dược phẩm lớn, mà chúng tôi tin là cách hiệu quả nhất để nhanh chóng đưa công nghệ này đến bệnh nhân, sẽ dễ dàng hơn nếu bạn không có thương hiệu trị giá 2 nghìn tỷ đô la. Giới thiệu về Inceptive. Inceptive là công ty phần mềm sinh học đầu tiên. Những gì chúng tôi coi là phần mềm sinh học là các phân tử có thành phần chính xác được thiết kế tổng hợp, nhưng cuối cùng lại là các dạng macromolecule sinh học như RNA, DNA, protein, v.v. Chúng tôi bắt đầu tập trung vào RNA, với thành phần được thiết kế bằng AI sinh tạo, để các phân tử này trong các hệ thống sinh học cụ thể thể hiện hành vi vốn có của các hệ thống đó. Điều này hứa hẹn một loại thuốc hài hòa hơn nhiều với hệ sinh học so với hầu hết các loại thuốc hiện có. Các cách Inceptive sử dụng AI sinh tạo để cách mạng hóa y học. Một ví dụ đặc biệt là vaccine mRNA Covid đã hướng dẫn tế bào chúng ta sản xuất protein theo cách bắt chước chính xác quá trình tự nhiên. Điều này kích hoạt hệ miễn dịch phát triển khả năng miễn dịch trước khi tiếp xúc với virus. Trong tương lai, có thể tạo ra các loại thuốc có khả năng tiên tiến hơn nhiều, như chỉ hoạt động trong điều kiện nhất định, hoặc nhận diện và tiêu diệt tế bào bệnh mà không làm hại tế bào khỏe mạnh. Quan hệ đối tác với Nvidia. Đây là một mối quan hệ đầu tư mạo hiểm cổ điển. Chúng tôi rất thích GPU của họ giống như mọi người khác. Phản hồi đối với những người bi quan. Có rất nhiều tiềm năng tích cực để giải quyết các thách thức lớn nhất mà loài người đang đối mặt như biến đổi khí hậu, đại dịch tiếp theo. Đúng là có tiềm năng sử dụng kép, nhưng cách tốt nhất để giảm thiểu nguy cơ đó là phát triển công nghệ này một cách có trách nhiệm và nhanh chóng. Mặc dù cần lưu ý các rủi ro tồn tại, nhưng theo tôi, chúng ta còn rất xa mới đến mức đó. AI sinh tạo có phải là bong bóng không? Có khả năng trong một số lĩnh vực ứng dụng, AI sinh tạo có thể bị thổi phồng quá mức. Nhưng khi xét đến các ứng dụng trong khoa học, tôi nghĩ chúng ta đang đánh giá thấp tiềm năng của nó rất nhiều. Cách AI sinh tạo thay đổi mô hình kinh doanh. Các quy trình phức tạp yêu cầu giao tiếp có thể được tăng tốc và mở rộng đáng kể bằng AI sinh tạo. Ví dụ như trong giáo dục, nơi tạo nội dung giáo dục hiệu quả thường bị giới hạn bởi chi phí. AI sinh tạo có thể giảm chi phí này và tạo nội dung được tối ưu hóa cho từng cá nhân. Điều này sẽ làm cho giao tiếp hiệu quả hơn, mở rộng hơn và tiết kiệm chi phí, thay đổi mô hình kinh doanh bằng cách loại bỏ các yếu tố chi phí lớn hoặc cho phép tiếp cận rộng hơn. Học gì để chuẩn bị cho sự nghiệp trong lĩnh vực này? Tôi nghĩ sự kết hợp giữa khoa học tự nhiên, toán học và khoa học máy tính là lý tưởng. Không có một ngành học duy nhất nào mà bạn nên tập trung vào để vừa hiệu quả nhanh chóng vừa bảo đảm tương lai. Giá trị của việc huấn luyện các mô hình AI lớn. Khả năng khai thác năng lượng của chúng ta sẽ tiến bộ theo thời gian, từ năng lượng mặt trời trực tiếp, địa nhiệt cho đến nhiệt hạch. AI sẽ làm cho việc sử dụng năng lượng hiệu quả hơn, bù đắp lại năng lượng tiêu thụ bởi AI, ngay cả cho các ứng dụng như tạo hình ảnh, video hay hiểu ngôn ngữ và tạo văn bản.
Yolonda Wilson và câu chuyện đau lòng về bảo hiểm y tế gây chấn động mạng xã hội
2024-12-06, tác giả: Phu_VinhFDA Đề Xuất Loại Bỏ Thuốc Giảm Nghẹt Mũi Phổ Biến, Có Thể Bạn Đang Sử Dụng!
2024-11-08, tác giả: LuuquyCác nhà khoa học sử dụng công nghệ CRISPR loại bỏ HIV khỏi tế bào bị nhiễm
2024-03-20, tác giả: FahokaĐăng bình luận
Một Khoảnh Khắc Của Donald Trump
2024-06-11, tác giả: QuechiTrật tự thế giới đang thay đổi
2024-06-11, tác giả: Phu_VinhVNXEXPRESS
Cập Nhật Tin Tức
Ý kiến độc giả