2024-06-06, tác giả: Quechi

Google Translate Đã Thay Đổi Thế Nào Trong Hai Thập Kỷ Qua? Trong chớp mắt, Google Dịch có thể giúp bạn hiểu rõ môi trường xung quanh mình. Nhưng đây không phải là Google Dịch từ đầu những năm 2000. Trong suốt hai thập kỷ qua, công nghệ này đã trải qua một cuộc cách mạng toàn diện, chuyển từ công cụ đơn giản dựa trên mẫu thành một mạng nơ-ron phức tạp xử lý hơn 130 ngôn ngữ. Nó hoạt động bằng cách biến ngôn ngữ thành thứ mà máy tính có thể hiểu được: toán học. Ngày nay, không còn lại nhiều mã nguồn từ những ngày đầu của công nghệ dịch dựa trên cụm từ. Chúng tôi đã tắt và xóa gần như toàn bộ mã nguồn cũ. Google Dịch từ hai thập kỷ trước đã đặt nền móng cho những gì chúng ta sử dụng ngày nay. Khi ra mắt vào năm 2006, nó hoạt động bằng cách chơi trò chơi ghép mẫu. Đầu tiên, mô hình sẽ xem xét rất nhiều ví dụ về bản dịch chuyên nghiệp được thu thập từ internet. Sau đó, khi người dùng nhập câu để dịch, công cụ sẽ chia chúng thành những mảnh dài nhất có thể từng thấy trước đây và kết hợp các mảnh đó lại với nhau. Bây giờ, nó sử dụng một phương pháp học máy tinh vi hơn nhiều, gọi là mô hình transformer, là nền tảng của tất cả các AI hiện đại. Transformers biến ngôn ngữ thành toán học bằng cách gán số cho từ ngữ.

Tin Mới Nhất

Điều quan trọng là một dãy số có thể đại diện cho một ý nghĩa. Bạn có thể thực hiện các phép toán với những vector này để hiển thị mối quan hệ giữa ý nghĩa của các từ với nhau. Đối với mỗi ngôn ngữ mà Google Dịch hỗ trợ, mỗi từ được chuyển thành một vector, viết như một danh sách các con số. Bằng cách này, máy tính có thể thực hiện các phép toán với chúng. Ví dụ, "king" trừ "man" cộng "woman" bằng "queen". Các con số cụ thể gán cho mỗi từ không quan trọng, và chúng khác nhau ở các ngôn ngữ khác nhau. Nhưng điều quan trọng là cách mỗi từ liên quan đến mọi từ khác. Tất cả dựa trên học máy từ hàng tỷ ví dụ. Nhưng hầu hết thời gian bạn muốn dịch điều gì đó, nó không chỉ là một từ riêng lẻ. Vì vậy, máy tính cũng phải tìm hiểu cách các từ hoạt động cùng nhau, và đây là nơi transformer, một đột phá trong học máy, phát huy tác dụng. Thế hệ tiếp theo của dịch nơ-ron được gọi là kiến trúc transformer, và điều này đã thêm một cấp độ, từ việc đại diện ý nghĩa của một từ bằng một hàng số đến việc đặt tất cả các ý nghĩa của tất cả các từ vào một bảng và thực hiện phép toán trên toàn bảng đó. Điều này cho phép bạn thực hiện phép toán không chỉ về ý nghĩa của mỗi từ, mà còn về tầm quan trọng của các mối quan hệ giữa các từ với nhau. Ví dụ, bạn đang cố dịch một biển hiệu tiếng Ý sang tiếng Anh. Đầu tiên, Google Dịch sẽ chuyển mỗi từ thành một vector, và những vector đó sẽ được đặt vào một bảng lớn hay ma trận. Sau đó, máy tính cố gắng tìm hiểu cách mỗi từ tương tác với mọi từ khác trên biển hiệu này. Về mặt toán học, điều này cơ bản là rất nhiều phép nhân.

Bước ma thuật quan trọng nhất là đặt chúng vào một ma trận và thực hiện cái gọi là phép nhân ma trận. Nếu bạn thực hiện đủ phép nhân ma trận, bạn có thể giải quyết vấn đề này. Tất cả điều này tạo ra một danh sách số mới. Đây được gọi là vector ngữ cảnh, và nó là một thứ khá đặc biệt. Danh sách số này thực sự đại diện cho ý nghĩa của câu, không chỉ là tổng của tất cả các từ của nó, ít nhất là nếu mô hình đã làm đúng công việc của mình. Nếu bạn ghép chúng lại và rất thông minh, điều mà những người phát minh ra transformer đã làm được, và bạn huấn luyện trên rất nhiều dữ liệu, điều mà chúng tôi cũng làm, bạn có thể cuối cùng đạt được một tập hợp số đại diện có ý nghĩa cho ý nghĩa của câu. Đây được gọi là giai đoạn mã hóa. Sau đó, bạn có một giai đoạn giải mã, mà nói đơn giản là giai đoạn mã hóa ngược lại. Máy tính phải giải mã điều này trở lại ngôn ngữ con người. Giai đoạn giải mã cũng trải qua nhiều phép toán, và cuối cùng bạn bắt đầu nhận được các vector có thể được ánh xạ lại thành các từ riêng lẻ. Vì vậy, chúng tôi hy vọng nhận được "closed for the holidays". Đây là cách ngôn ngữ trở thành toán học. Để làm cho toán học này hoạt động, cần rất nhiều việc huấn luyện. Nhiều số trong bài toán này được chọn ngẫu nhiên và sau đó được tinh chỉnh khi máy tính học từ hàng tỷ ví dụ. Trước khi triển khai một bản cập nhật với một tập giá trị và trọng số, các kỹ sư thực hiện nhiều bài kiểm tra với người đánh giá AI của họ và sau đó là các dịch giả chuyên nghiệp kiểm tra độ chính xác. Nhưng vì mỗi tổ hợp từ có thể dẫn đến một phương trình duy nhất, nên không thể kiểm tra mọi thứ. Vì mô hình đã được huấn luyện trên các bản dịch đi đến hoặc từ tiếng Anh, nên nó thường yêu cầu nhiều bước hơn để dịch giữa hai ngôn ngữ không phải tiếng Anh. Ví dụ, nếu bạn muốn dịch điều gì đó từ tiếng Nhật sang tiếng Zulu, nó sẽ đi từ tiếng Nhật sang tiếng Anh và sau đó từ tiếng Anh sang tiếng Zulu. Điều đầu tiên xảy ra khi bạn sử dụng Google AR translate là chúng tôi phải thực sự trích xuất văn bản từ hình ảnh, và như bạn có thể thấy ở đây, nó phát hiện rằng đây là tiếng Trung và dịch sang tiếng Anh. Nó làm cho thông tin dễ tiếp cận hơn nhiều vì đối với nhiều người, việc nhập văn bản bằng một ngôn ngữ nước ngoài là không thể. Thành phần chính là công nghệ Nhận diện Ký tự Quang học, hay OCR. Google đã sử dụng công nghệ này từ năm 2002 khi bắt đầu số hóa các thư viện cho Google Books. Ban đầu, nó sẽ làm một cái gì đó rất đơn giản như đối sánh mẫu. Bạn có thể nghĩ về nó như, điều này có giống với điều này không? Có, vì vậy nó là A hoặc B hoặc gì đó. Nhưng bây giờ nhận diện ký tự quang học cũng sử dụng transformers. Đầu tiên, Google Lens xác định các dòng văn bản và hướng văn bản. Sau đó, nó xác định các ký tự và từ cụ thể. Thay vì chia câu thành các từ và gán số cho mỗi từ, nó chia một hình ảnh thành các mảng điểm ảnh. Những thứ này được gọi là token. Bộ mã hóa của transformer sẽ xử lý tất cả các token này đồng thời để dự đoán ký tự tốt nhất và từ tốt nhất cuối cùng. Điều này có nghĩa là Google Lens, công cụ tìm kiếm hình ảnh của công ty, thường có thể đọc các thứ ngay cả khi không thể nhận diện được mọi chữ cái. Với transformers, chúng có thể nắm bắt ngữ pháp. Nếu có lỗi chính tả, transformer cũng có thể sử dụng ngữ cảnh để phân biệt và vẫn trích xuất đúng từ. Sau khi hoàn tất nhận diện ký tự quang học, Google Lens phân tích bố cục của toàn bộ văn bản. Đó là cách mà máy tính biết dịch biển hiệu này thành "you matter, don't give up" thay vì "you don't matter, give up". Khi bạn nhìn vào tờ báo, con người xuất sắc trong việc chỉ lướt qua nó và hiểu được thứ tự đọc là gì? Bạn nên đọc gì trước? Đây là một khái niệm không dễ giải quyết về mặt kỹ thuật, nó rất khó.

Điều quan trọng là nhận diện ký tự quang học hiểu điều gì đó về ý nghĩa của những gì nó đang đọc. Điều này cũng được thực hiện thông qua việc huấn luyện rộng rãi. Sau khi các đoạn văn bản được gửi đến bộ dịch, Google Lens sử dụng các mô hình tạo hình ảnh để xóa văn bản khỏi các biển hiệu hoặc nền khác nhau. Bằng cách đó, văn bản được dịch có thể được đặt lên trên các bề mặt sạch sẽ. Sử dụng các mô hình tạo hình ảnh, nó cố gắng dự đoán và tạo ra các điểm ảnh khớp với các điểm ảnh xung quanh để khi chúng tôi chồng văn bản được dịch lên trên, nó trông rất tự nhiên và liền mạch. Điều này không phải lúc nào cũng hoạt động một cách liền mạch. Đôi khi bản dịch không hoàn toàn phù hợp với ngữ cảnh, đó là lý do tại sao "alto" trên biển hiệu dừng này của Mexico có thể bị dịch sai thành "high". Và mặc dù nhận diện ký tự quang học thường có thể nhận diện văn bản trong điều kiện ánh sáng kém hoặc với góc nhìn phức tạp, nhưng nó có giới hạn của mình. Một trong số đó là với các đối tượng có thể biến dạng. Bất cứ khi nào có văn bản trên áo len hoặc bao bì bánh quy, tùy thuộc vào tư thế và góc độ, có thể khó khăn hơn để trích xuất đúng OCR. Văn bản được hình thành ngữ pháp chính xác, lưu loát, chúng tôi khá giỏi. Nơi chúng tôi gặp thách thức là mọi người sử dụng tiếng lóng, sử dụng ngôn ngữ thông thường trong trò chuyện và mạng xã hội. Chúng tôi không nhất thiết nhìn thấy nhiều như vậy vì chúng tôi không có quyền truy cập vào nhiều dữ liệu. Google đang làm việc để thêm một số tính năng khác, như cho phép người dùng tinh chỉnh bản dịch của họ nếu họ muốn. Tương tự như cách bạn có thể yêu cầu Google Gemini hoặc ChatGPT thực hiện bản dịch trang trọng hơn hoặc ít trang trọng hơn, hoặc bằng tiếng Tây Ban Nha Chile thay vì tiếng Tây Ban Nha châu Âu. Và nó cũng đang làm việc để thêm nhiều ngôn ngữ hơn. Có ước tính khoảng 6.000 đến 7.000 ngôn ngữ trên thế giới. Mục tiêu của chúng tôi là hỗ trợ tất cả chúng.

Ý kiến độc giả

feature-top

Đăng bình luận