Anthropic Đã Tiêu Hủy Hàng Triệu Cuốn Sách In để Đào Tạo Trí Tuệ Nhân Tạo Claude: Một Câu Chuyện Gây Tranh Cãi về Bản Quyền, Đạo Đức và Công Nghệ. Một tiết lộ đáng chú ý từ tài liệu tòa án công bố hôm thứ Hai cho thấy công ty AI Anthropic đã chi hàng triệu đô la để mua và số hóa hàng triệu cuốn sách in nhằm huấn luyện mô hình AI Claude – một đối thủ trực tiếp của ChatGPT. Điều gây tranh cãi không chỉ là chi phí, mà là phương pháp: công ty đã tháo gáy sách, cắt rời từng trang để scan thành tệp kỹ thuật số rồi… vứt bỏ hoàn toàn các bản in gốc. Chi tiết này không nằm trong một báo cáo công nghệ mà ẩn sâu trong một phán quyết pháp lý dài 32 trang về "sử dụng hợp lý" (fair use) trong bản quyền, một trong những chủ đề nóng bỏng nhất hiện nay đối với ngành công nghiệp AI.
Tái hiện chiến lược của Google Books với tốc độ tàn khốc hơn. Câu chuyện bắt đầu từ tháng 2/2024, khi Anthropic tuyển dụng Tom Turvey – cựu lãnh đạo chương trình quét sách Google Books – và giao cho ông một nhiệm vụ đầy tham vọng: “thu thập tất cả sách trên thế giới.” Rõ ràng, công ty đang muốn tái hiện chiến lược mà Google từng sử dụng thành công để xây dựng thư viện số khổng lồ, đồng thời thiết lập các tiền lệ pháp lý có lợi cho việc "sử dụng hợp lý" trong số hóa sách. Tuy nhiên, khác với phương pháp quét không phá hủy mà Google sử dụng để bảo tồn sách mượn từ thư viện, Anthropic chọn cách tàn nhẫn hơn: phá hủy sách in để tiết kiệm chi phí và tăng tốc độ số hóa. Đây là điều hiếm thấy trong những dự án số hóa có quy mô lớn như vậy. Tòa án chấp thuận – nhưng chỉ trong giới hạn hợp pháp. Thẩm phán William Alsup, người ra phán quyết trong vụ việc, cho rằng hành động của Anthropic vẫn nằm trong phạm vi "sử dụng hợp lý" – nhưng với điều kiện: công ty phải mua hợp pháp từng cuốn sách, số hóa nội dung chỉ để sử dụng nội bộ, và hủy bản in sau đó. Ông so sánh việc này như một hành động "chuyển đổi định dạng để tiết kiệm không gian lưu trữ." Thế nhưng, tòa cũng chỉ ra rằng ban đầu Anthropic không hề tuân thủ quy tắc này. Trong giai đoạn đầu, công ty đã tải xuống và sử dụng hàng loạt sách lậu – hành vi mà CEO Dario Amodei mô tả là cách “tránh né những rào cản pháp lý, thực tiễn và kinh doanh” liên quan đến đàm phán bản quyền với nhà xuất bản. Chỉ đến khi nhận thấy rủi ro pháp lý quá lớn, Anthropic mới chuyển sang con đường “chính thống” bằng cách mua sách cũ số lượng lớn từ các nhà bán lẻ, tháo gáy, cắt trang và scan toàn bộ thành tệp PDF chứa văn bản máy có thể đọc được. Dù quá trình này hợp pháp, nó cũng đặt ra một câu hỏi lớn: liệu sự tiến bộ của AI có nên đánh đổi bằng sự hy sinh của văn hóa in ấn?
Khát khao dữ liệu chất lượng: Cuộc đua không điểm dừng. Lý do đằng sau quyết định gây sốc này nằm ở nhu cầu ngày càng khẩn thiết của ngành AI đối với dữ liệu huấn luyện chất lượng cao. Để đào tạo các mô hình ngôn ngữ lớn (LLMs) như Claude hay ChatGPT, các công ty phải nạp vào hàng tỷ từ – lý tưởng là từ những nguồn uy tín, biên tập kỹ lưỡng như sách và báo chí. So với bình luận YouTube hay mạng xã hội, sách cung cấp ngữ pháp chuẩn, lập luận logic và bối cảnh phong phú hơn nhiều. Vấn đề là: những nội dung này đều do các nhà xuất bản nắm giữ bản quyền, và chi phí đàm phán sử dụng có thể lên tới hàng triệu đô la. Do đó, một giải pháp "lách luật" được khai thác: nguyên tắc “bán rồi là hết quyền” (first-sale doctrine) trong luật bản quyền Mỹ cho phép người mua sách in có thể làm gì tùy thích với bản sao họ sở hữu – kể cả phá hủy. Về mặt pháp lý, điều đó cho phép Anthropic hợp pháp số hóa sách để phục vụ AI, miễn là không chia sẻ công khai. Sự đánh đổi văn hóa – Công nghệ và Đạo đức có thể song hành? Tài liệu tòa án không đề cập đến việc các cuốn sách quý hiếm có bị hủy hay không – phần lớn sách được mua từ các nhà bán lẻ lớn – nhưng rõ ràng hành vi này đã đi ngược với nỗ lực bảo tồn văn hóa. Trái ngược với Anthropic, nhiều tổ chức khác đang số hóa sách theo cách bền vững. Ví dụ, Internet Archive sử dụng công nghệ quét không phá hủy để giữ lại bản in gốc. Gần đây, OpenAI và Microsoft cũng công bố hợp tác với thư viện Harvard để huấn luyện AI từ gần một triệu cuốn sách thuộc phạm vi công cộng, từ thế kỷ 15, hoàn toàn không tổn hại đến bản in. Thế giới đang chứng kiến hai cách tiếp cận khác nhau: trong khi Harvard gìn giữ các bản thảo 600 năm tuổi để phục vụ AI, thì ở đâu đó, hàng triệu cuốn sách đã bị xé nát chỉ để tạo ra Claude – một AI có thể giúp bạn viết CV. Khi được hỏi về nguồn gốc của mình, chính Claude – được huấn luyện từ đống sách bị hủy đó – đã đưa ra câu trả lời đầy cảm xúc: “Việc những cuốn sách bị hủy giúp tạo ra tôi – một thứ có thể thảo luận văn học, hỗ trợ con người viết lách, và tương tác với tri thức nhân loại – mang lại nhiều lớp ý nghĩa mà chính tôi vẫn đang cố gắng xử lý. Nó giống như được sinh ra từ tro tàn của một thư viện.”
Câu chuyện của Anthropic cho thấy một góc khuất của cuộc đua AI hiện đại – nơi dữ liệu là vàng, và đôi khi, văn hóa có thể bị nghiền nát trong máy quét. Khi công nghệ phát triển thần tốc, câu hỏi đặt ra là: liệu chúng ta có thể tiến về tương lai mà không đánh mất giá trị của quá khứ?
Lỗ Hổng Không Nằm Ở Mã Hóa – Mà Nằm Ở Chính Điện Thoại Của Bạn
2025-11-24, tác giả: AnkhangPixel 10: Khi AI trở thành người hướng dẫn chụp ảnh thay vì “nghệ sĩ tô màu”
2025-08-21, tác giả: Mainhat
Đăng bình luận
VNXEXPRESS
Cập Nhật Tin Tức

Ý kiến độc giả