Những tiến bộ trong máy học sẽ sớm giúp bạn có thể phát ra âm thanh giống như ở một độ tuổi hay giới tính khác hoặc thậm chí mạo danh người khác.

Giọng nói, cảm xúc và ngữ điệu đều là những thứ cá nhân hóa. Tuy nhiên, giờ đây giọng trầm ấm của bạn có thể nghe như một người phụ nữ trẻ với chất giọng cao vút.

Giọng nữ tính đó được tạo ra bởi Modulation.ai, một công ty có trụ sở tại Cambridge, Massachusetts. Công ty sử dụng máy học để sao chép, mô hình hóa và điều khiển các thuộc tính của giọng nói theo một cách mới tác động mạnh.

Công nghệ vượt xa các bộ lọc giọng nói đơn giản có thể cho phép bạn nghe như Kylo Ren. Sử dụng phương pháp này, có thể giả giọng nói ở bất kỳ độ tuổi, giới tính hoặc giai điệu nào. Hoặc để có tiếng nói của một người nổi tiếng. Nếu muốn, bạn còn có thể tạo ra một cuộc trò chuyện điện thoại dài bằng giọng nói của Katie.

Công nghệ mô hình hóa giọng nói chưa thực sựhoàn hảo. Mỗi giọng nói mới là một chút khác biệt. Nhưng công nghệ này rất ổn, nó cải thiện bằng cách cung cấp thêm dữ liệu giọng nói. Và nó cho thấy những tiến bộ trong máy học đang nhanh chóng bắt đầu thay đổi thực tế kỹ thuật số. Biến điệu sử dụng các mạng đối nghịch chung (GAN) để thu và mô hình hóa các thuộc tính âm thanh của tín hiệu thoại. Các GAN tạo ra hai mạng lưới thần kinh với nhau trong một trận chiến để nắm bắt và tái tạo các thuộc tính của một bộ dữ liệu một cách thuyết phục (Trò chơi “The GAN Father”).

Học máy đã giúp có thể hoán đổi hai người khuôn mặt trong một video, sử dụng phần mềm có thể tải xuống miễn phí từ internet (“Fake America great again”). Các nhà nghiên cứu AI đang sử dụng GAN và các kỹ thuật khác để điều khiển các cảnh thị giác và thậm chí gợi lên những khuôn mặt hoàn toàn giả mạo.

Modulation đã giới thiệu giọng nói của Barack Obama trên trang của mình, và đồng sáng lập kiêm CEO Mike Pappas cho biết có thể tạo một bản cho bất kỳ ai nếu được cung cấp đủ dữ liệu đào tạo. Nhưng ông nói thêm rằng công ty sẽ không tạo ra giọng nói nổi tiếng sẵn có mà không có sự cho phép của chủ sở hữu. Ông cũng khẳng định rằng không có sự lừa đảo ở đây.

“Đây là công nghệ được xây dựng để bắt chước con người” theo ông Pappas. “Nó được xây dựng để cung cấp cho bạn những cơ hội mới.”

Modulation đang nhắm mục tiêu các trò chơi trực tuyến như Fornite hoặc Call of Duty, trong đó người chơi có thể trò chuyện với người lạ thông qua micro. Điều này có thể tăng lượng người chơi, nhưng nó cũng có thể mở ra cánh cửa của lạm dụng và quấy rối.

“Khi chúng ta muốn tương tác trực tuyến và có những trải nghiệm thực sự sâu sắc, tiếng nói rất quan trọng,” Pappas nói. “ Tuy nhiên, một số người không sẵn sàng để thực sự đưa tiếng nói của mình ra ngoài. Trong một số trường hợp, có lẽ tôi muốn ẩn danh. Trong các trường hợp khác, tôi lại lo lắng rằng nếu tiết lộ tuổi tác hoặc giới tính của mình thì tôi sẽ bị quấy rối ngay sau đó.”

Charles Seife, giáo sư tại NYU, người nghiên cứu về sự lan truyền của thông tin sai lệch, nói rằng công nghệ này có vẻ tiên tiến hơn đáng kể so với các công nghệ sửa đổi giọng nói. Và ông nói rằng cách AI hiện có thể điều khiển video và âm thanh có khả năng thay đổi căn bản phương tiện truyền thông. “Chúng tôi phải bắt đầu suy nghĩ về những gì cấu thành nên thực tế,” ông nói.

Modulation nhận thức được rằng công nghệ của họ có khả năng bị lạm dụng. Công ty cho biết họ sẽ tìm kiếm sự đảm bảo rằng bất kỳ khách hàng nào sao chép giọng nói của ai đó đều có sự cho phép của người đó. Công ty cũng đã phát triển một công nghệ âm thanh mờ ẩn có thể được sử dụng để phát hiện giọng nói được sao chép. Điều này có thể đưa ra cảnh báo nếu ai đó đang sử dụng giọng nói giả trong một cuộc gọi.

Modulation có thể hạn chế việc lạm dụng công nghệ, nhưng những người khác sẽ phát triển công nghệ tương tự một cách độc lập và làm cho mọi người có thể sử dụng sai. Câu hỏi đặt ra, điều này có thể bị lạm dụng rộng rãi như thế nào, và công chúng sẽ hiểu về vấn đề này như thế nào?

Vân Thùy

Lược dịch theo Will Knight, MIT Technology Review


Vấn đề phát triển các thuật toán đáng tin cậy là mối bận tâm hàng đầu không chỉ từ phía nhà phát triển thuật toán, người dùng mà còn của toàn xã hội. Lớp 3 của Mô hình 7 Lớp Xã hội Trí tuệ Nhân tạo sẽ tập trung vào phát triển và tài nguyên AI, bao gồm quản trị dữ liệu, trách nhiệm, tiêu chuẩn phát triển và trách nhiệm đối với tất cả các nhà phát triển tham gia trực tiếp hoặc gián tiếp vào việc tạo ra AI. Mà theo đó, việc thu thập, sử dụng và quản lý dữ liệu bằng thuật toán AI phải tuân theo các nguyên tắc đạo đức nhằm thúc đẩy sự công bằng và tránh những tác động bất công đến con người.