Sự Tiến Hóa Của Google Dịch Trong Hai Thập Kỷ Qua

2024-06-06, tác giả: Quechi

Google Translate Đã Thay Đổi Thế Nào Trong Hai Thập Kỷ Qua? Trong chớp mắt, Google Dịch có thể giúp bạn hiểu rõ môi trường xung quanh mình. Nhưng đây không phải là Google Dịch từ đầu những năm 2000. Trong suốt hai thập kỷ qua, công nghệ này đã trải qua một cuộc cách mạng toàn diện, chuyển từ công cụ đơn giản dựa trên mẫu thành một mạng nơ-ron phức tạp xử lý hơn 130 ngôn ngữ. Nó hoạt động bằng cách biến ngôn ngữ thành thứ mà máy tính có thể hiểu được: toán học. Ngày nay, không còn lại nhiều mã nguồn từ những ngày đầu của công nghệ dịch dựa trên cụm từ. Chúng tôi đã tắt và xóa gần như toàn bộ mã nguồn cũ. Google Dịch từ hai thập kỷ trước đã đặt nền móng cho những gì chúng ta sử dụng ngày nay. Khi ra mắt vào năm 2006, nó hoạt động bằng cách chơi trò chơi ghép mẫu. Đầu tiên, mô hình sẽ xem xét rất nhiều ví dụ về bản dịch chuyên nghiệp được thu thập từ internet. Sau đó, khi người dùng nhập câu để dịch, công cụ sẽ chia chúng thành những mảnh dài nhất có thể từng thấy trước đây và kết hợp các mảnh đó lại với nhau. Bây giờ, nó sử dụng một phương pháp học máy tinh vi hơn nhiều, gọi là mô hình transformer, là nền tảng của tất cả các AI hiện đại. Transformers biến ngôn ngữ thành toán học bằng cách gán số cho từ ngữ.

Điều quan trọng là một dãy số có thể đại diện cho một ý nghĩa. Bạn có thể thực hiện các phép toán với những vector này để hiển thị mối quan hệ giữa ý nghĩa của các từ với nhau. Đối với mỗi ngôn ngữ mà Google Dịch hỗ trợ, mỗi từ được chuyển thành một vector, viết như một danh sách các con số. Bằng cách này, máy tính có thể thực hiện các phép toán với chúng. Ví dụ, "king" trừ "man" cộng "woman" bằng "queen". Các con số cụ thể gán cho mỗi từ không quan trọng, và chúng khác nhau ở các ngôn ngữ khác nhau. Nhưng điều quan trọng là cách mỗi từ liên quan đến mọi từ khác. Tất cả dựa trên học máy từ hàng tỷ ví dụ. Nhưng hầu hết thời gian bạn muốn dịch điều gì đó, nó không chỉ là một từ riêng lẻ. Vì vậy, máy tính cũng phải tìm hiểu cách các từ hoạt động cùng nhau, và đây là nơi transformer, một đột phá trong học máy, phát huy tác dụng. Thế hệ tiếp theo của dịch nơ-ron được gọi là kiến trúc transformer, và điều này đã thêm một cấp độ, từ việc đại diện ý nghĩa của một từ bằng một hàng số đến việc đặt tất cả các ý nghĩa của tất cả các từ vào một bảng và thực hiện phép toán trên toàn bảng đó. Điều này cho phép bạn thực hiện phép toán không chỉ về ý nghĩa của mỗi từ, mà còn về tầm quan trọng của các mối quan hệ giữa các từ với nhau. Ví dụ, bạn đang cố dịch một biển hiệu tiếng Ý sang tiếng Anh. Đầu tiên, Google Dịch sẽ chuyển mỗi từ thành một vector, và những vector đó sẽ được đặt vào một bảng lớn hay ma trận. Sau đó, máy tính cố gắng tìm hiểu cách mỗi từ tương tác với mọi từ khác trên biển hiệu này. Về mặt toán học, điều này cơ bản là rất nhiều phép nhân.

Bước ma thuật quan trọng nhất là đặt chúng vào một ma trận và thực hiện cái gọi là phép nhân ma trận. Nếu bạn thực hiện đủ phép nhân ma trận, bạn có thể giải quyết vấn đề này. Tất cả điều này tạo ra một danh sách số mới. Đây được gọi là vector ngữ cảnh, và nó là một thứ khá đặc biệt. Danh sách số này thực sự đại diện cho ý nghĩa của câu, không chỉ là tổng của tất cả các từ của nó, ít nhất là nếu mô hình đã làm đúng công việc của mình. Nếu bạn ghép chúng lại và rất thông minh, điều mà những người phát minh ra transformer đã làm được, và bạn huấn luyện trên rất nhiều dữ liệu, điều mà chúng tôi cũng làm, bạn có thể cuối cùng đạt được một tập hợp số đại diện có ý nghĩa cho ý nghĩa của câu. Đây được gọi là giai đoạn mã hóa. Sau đó, bạn có một giai đoạn giải mã, mà nói đơn giản là giai đoạn mã hóa ngược lại. Máy tính phải giải mã điều này trở lại ngôn ngữ con người. Giai đoạn giải mã cũng trải qua nhiều phép toán, và cuối cùng bạn bắt đầu nhận được các vector có thể được ánh xạ lại thành các từ riêng lẻ. Vì vậy, chúng tôi hy vọng nhận được "closed for the holidays". Đây là cách ngôn ngữ trở thành toán học. Để làm cho toán học này hoạt động, cần rất nhiều việc huấn luyện. Nhiều số trong bài toán này được chọn ngẫu nhiên và sau đó được tinh chỉnh khi máy tính học từ hàng tỷ ví dụ. Trước khi triển khai một bản cập nhật với một tập giá trị và trọng số, các kỹ sư thực hiện nhiều bài kiểm tra với người đánh giá AI của họ và sau đó là các dịch giả chuyên nghiệp kiểm tra độ chính xác. Nhưng vì mỗi tổ hợp từ có thể dẫn đến một phương trình duy nhất, nên không thể kiểm tra mọi thứ. Vì mô hình đã được huấn luyện trên các bản dịch đi đến hoặc từ tiếng Anh, nên nó thường yêu cầu nhiều bước hơn để dịch giữa hai ngôn ngữ không phải tiếng Anh. Ví dụ, nếu bạn muốn dịch điều gì đó từ tiếng Nhật sang tiếng Zulu, nó sẽ đi từ tiếng Nhật sang tiếng Anh và sau đó từ tiếng Anh sang tiếng Zulu. Điều đầu tiên xảy ra khi bạn sử dụng Google AR translate là chúng tôi phải thực sự trích xuất văn bản từ hình ảnh, và như bạn có thể thấy ở đây, nó phát hiện rằng đây là tiếng Trung và dịch sang tiếng Anh. Nó làm cho thông tin dễ tiếp cận hơn nhiều vì đối với nhiều người, việc nhập văn bản bằng một ngôn ngữ nước ngoài là không thể. Thành phần chính là công nghệ Nhận diện Ký tự Quang học, hay OCR. Google đã sử dụng công nghệ này từ năm 2002 khi bắt đầu số hóa các thư viện cho Google Books. Ban đầu, nó sẽ làm một cái gì đó rất đơn giản như đối sánh mẫu. Bạn có thể nghĩ về nó như, điều này có giống với điều này không? Có, vì vậy nó là A hoặc B hoặc gì đó. Nhưng bây giờ nhận diện ký tự quang học cũng sử dụng transformers. Đầu tiên, Google Lens xác định các dòng văn bản và hướng văn bản. Sau đó, nó xác định các ký tự và từ cụ thể. Thay vì chia câu thành các từ và gán số cho mỗi từ, nó chia một hình ảnh thành các mảng điểm ảnh. Những thứ này được gọi là token. Bộ mã hóa của transformer sẽ xử lý tất cả các token này đồng thời để dự đoán ký tự tốt nhất và từ tốt nhất cuối cùng. Điều này có nghĩa là Google Lens, công cụ tìm kiếm hình ảnh của công ty, thường có thể đọc các thứ ngay cả khi không thể nhận diện được mọi chữ cái. Với transformers, chúng có thể nắm bắt ngữ pháp. Nếu có lỗi chính tả, transformer cũng có thể sử dụng ngữ cảnh để phân biệt và vẫn trích xuất đúng từ. Sau khi hoàn tất nhận diện ký tự quang học, Google Lens phân tích bố cục của toàn bộ văn bản. Đó là cách mà máy tính biết dịch biển hiệu này thành "you matter, don't give up" thay vì "you don't matter, give up". Khi bạn nhìn vào tờ báo, con người xuất sắc trong việc chỉ lướt qua nó và hiểu được thứ tự đọc là gì? Bạn nên đọc gì trước? Đây là một khái niệm không dễ giải quyết về mặt kỹ thuật, nó rất khó.

Điều quan trọng là nhận diện ký tự quang học hiểu điều gì đó về ý nghĩa của những gì nó đang đọc. Điều này cũng được thực hiện thông qua việc huấn luyện rộng rãi. Sau khi các đoạn văn bản được gửi đến bộ dịch, Google Lens sử dụng các mô hình tạo hình ảnh để xóa văn bản khỏi các biển hiệu hoặc nền khác nhau. Bằng cách đó, văn bản được dịch có thể được đặt lên trên các bề mặt sạch sẽ. Sử dụng các mô hình tạo hình ảnh, nó cố gắng dự đoán và tạo ra các điểm ảnh khớp với các điểm ảnh xung quanh để khi chúng tôi chồng văn bản được dịch lên trên, nó trông rất tự nhiên và liền mạch. Điều này không phải lúc nào cũng hoạt động một cách liền mạch. Đôi khi bản dịch không hoàn toàn phù hợp với ngữ cảnh, đó là lý do tại sao "alto" trên biển hiệu dừng này của Mexico có thể bị dịch sai thành "high". Và mặc dù nhận diện ký tự quang học thường có thể nhận diện văn bản trong điều kiện ánh sáng kém hoặc với góc nhìn phức tạp, nhưng nó có giới hạn của mình. Một trong số đó là với các đối tượng có thể biến dạng. Bất cứ khi nào có văn bản trên áo len hoặc bao bì bánh quy, tùy thuộc vào tư thế và góc độ, có thể khó khăn hơn để trích xuất đúng OCR. Văn bản được hình thành ngữ pháp chính xác, lưu loát, chúng tôi khá giỏi. Nơi chúng tôi gặp thách thức là mọi người sử dụng tiếng lóng, sử dụng ngôn ngữ thông thường trong trò chuyện và mạng xã hội. Chúng tôi không nhất thiết nhìn thấy nhiều như vậy vì chúng tôi không có quyền truy cập vào nhiều dữ liệu. Google đang làm việc để thêm một số tính năng khác, như cho phép người dùng tinh chỉnh bản dịch của họ nếu họ muốn. Tương tự như cách bạn có thể yêu cầu Google Gemini hoặc ChatGPT thực hiện bản dịch trang trọng hơn hoặc ít trang trọng hơn, hoặc bằng tiếng Tây Ban Nha Chile thay vì tiếng Tây Ban Nha châu Âu. Và nó cũng đang làm việc để thêm nhiều ngôn ngữ hơn. Có ước tính khoảng 6.000 đến 7.000 ngôn ngữ trên thế giới. Mục tiêu của chúng tôi là hỗ trợ tất cả chúng.

Google Ngon-Ngu Tin Tức Báo Việt Báo Trẻ

0 Bình Luận

Ý kiến độc giả

Đăng bình luận

can tho nail, tim tho nail, tho nail, baonail, bao nail, avenail, 24 bao tre, nail tech, nail salon, tiem nail

can tho nail, tho nail, tim tho nail, nail salon, tiem nail, nail tech

Sự Tiến Hóa Của Google Dịch Trong Hai Thập Kỷ Qua

Tin liên quan

MacBook Neo được kỳ vọng sẽ “tái định hình” thị trường máy tính xách tay toàn cầu.

Lỗ Hổng Không Nằm Ở Mã Hóa – Mà Nằm Ở Chính Điện Thoại Của Bạn

Pixel 10: Khi AI trở thành người hướng dẫn chụp ảnh thay vì “nghệ sĩ tô màu”

Comet – Trình duyệt AI của Perplexity: Thách thức Google Chrome và định hình lại cách bạn lướt web

11 Trường Hợp Không Nên Dùng ChatGPT: Khi Trí Tuệ Nhân Tạo Có Thể Gây Hại Hơn Lợi

Anthropic và Cái Giá của Tri Thức: Phá Hủy Hàng Triệu Cuốn Sách để Huấn Luyện AI Claude

Google "dứt áo ra đi" khỏi Scale AI sau khi Meta nắm giữ gần một nửa công ty dữ liệu huấn luyện AI trị giá 29 tỷ USD

5 Chiến Lược Thông Minh Giúp Tận Dụng Tối Đa ChatGPT – Không Phải Ai Cũng Biết

PayPal Chuyển Mình Thành Gã Khổng Lồ Quảng Cáo: Tạm Biệt Cũ Kỹ, Đón Chào Kỷ Nguyên Mua Sắm Thông Minh

Ý kiến độc giả

Đăng bình luận

Tin Mới Nhất

MacBook Neo được kỳ vọng sẽ “tái định hình” thị trường máy tính xách tay toàn cầu..

Giá dầu thô Mỹ vượt mốc 80 USD mỗi thùng khi căng thẳng chiến tranh Iran làm gián đoạn nguồn cung năng lượng toàn cầu..

Evo 2 – Trí tuệ nhân tạo có khả năng mô hình hóa và thiết kế mã di truyền của toàn bộ sự sống..

Quảng cáo thuốc Alzheimer và sự thật ít được nhắc đến về sức khỏe não bộ.

Vụ án hình sự nhằm vào Nicolás Maduro chính thức khởi động tại Mỹ.

Tin Nổi Bật

Giá dầu thô Mỹ vượt mốc 80 USD mỗi thùng khi căng thẳng chiến tranh Iran làm gián đoạn nguồn cung năng lượng toàn cầu.

Vụ án hình sự nhằm vào Nicolás Maduro chính thức khởi động tại Mỹ

Bế tắc tại Thượng viện: Nỗ lực gia hạn trợ cấp Obamacare đứng trước nguy cơ thất bại

25 bang Mỹ chuẩn bị cắt trợ cấp thực phẩm từ tháng 11: Hàng triệu người nghèo đối mặt nguy cơ thiếu ăn ngay trước Lễ Tạ Ơn

Chính quyền Trump siết chặt kiểm tra 55 triệu thị thực Mỹ, dừng cấp visa lao động cho tài xế xe tải nước ngoài

Cú đánh vào Iran của Trump khiến Trung Quốc lo ngại về chiến lược Mỹ tại Đài Loan

Biển lửa Hormuz: Căng thẳng Israel - Iran leo thang, nguy cơ khủng hoảng dầu mỏ toàn cầu

Quyết định của Tổng thống Donald Trump hoãn cuộc tấn công vào Iran đã đẩy Israel vào một thế khó chiến lược — giữa kỳ vọng vào đồng minh thân cận và nhu cầu giải quyết mục tiêu sinh tử của mình.

Tổng thống Donald Trump luôn nổi tiếng với lập trường cứng rắn về nhập cư — nhưng gần đây, có dấu hiệu cho thấy ông đang âm thầm chùn bước trước thực tế phức tạp của nền kinh tế Mỹ.