Các nhà nghiên cứu đã mượn các phương trình tính toán nhằm thiết kế lại bộ máy cốt lõi của deep learning để có thể mô hình hóa các quá trình diễn ra liên tục ví dụ như sự thay đổi sức khỏe.

David Duvenaud đang hợp tác trong một dự án liên quan đến dữ liệu y tế khi anh gặp phải một thiếu sót lớn về AI.

Một nhà nghiên cứu AI tại Đại học Toronto muốn xây dựng một mô hình deep-learning nhằm dự đoán sức khỏe của bệnh nhân theo thời gian. Nhưng dữ liệu từ hồ sơ bệnh án là một mớ hỗn độn: trong suốt cuộc đời của một người, họ có thể đến bác sĩ vào những thời điểm khác nhau vì những lý do khác nhau, tạo ra sự phân tán các phép đo trong các khoảng thời gian tùy ý. Mạng lưới neural truyền thống khó có thể xử lý được vấn đề này. Thiết kế của nó đòi hỏi việc nghiên cứu dữ liệu ở các giai đoạn cụ thể rõ ràng. Do đó, nó là một công cụ thiếu hiệu quả để mô hình hóa các quy trình diễn ra liên tục, đặc biệt là các quy trình được đo lường không đều theo thời gian.

Khó khăn này là động lực để Duvenaud và các cộng tác viên của ông tại trường đại học và Viện Vector thiết kế lại mạng lưới neural như chúng ta biết. Tuần trước, bài báo của họ là một trong bốn bài báo được ghi nhận là bài nghiên cứu tốt nhất tại hội nghị Hệ thống xử lý thông tin neural, một trong những cuộc họp nghiên cứu về AI lớn nhất trên thế giới.

Mạng lưới neural là bộ máy cốt lõi giúp tăng hiệu quả cho deep learning. Một mạng lưới neural truyền thống được tạo thành từ các tầng của các nút tính toán đơn giản làm việc cùng nhau để tìm các mẫu trong dữ liệu. Các tầng riêng biệt là thứ ngăn không cho mô hình hóa các quy trình liên tục một cách hiệu quả (nhưng chúng ta sẽ làm được điều đó).

Đáp lại, thiết kế của nhóm nghiên cứu đã loại bỏ hoàn toàn các tầng. (Duvenaud nhanh chóng lưu ý rằng họ không nghĩ ra ý tưởng này. Họ chỉ là người đầu tiên thực hiện nó theo cách khái quát.) Để hiểu được làm thế nào điều này có thể xảy ra, đầu tiên cần phải xem xét nhiệm vụ trước đây của các tầng lớp này.

Quá trình phổ biến nhất để đào tạo một mạng lưới neural (còn được gọi là học tập có giám sát) liên quan đến việc cung cấp cho nó một loạt các dữ liệu được dán nhãn. Ví dụ bạn muốn xây dựng một hệ thống nhận dạng được các động vật khác nhau, bạn cần đẩy các hình ảnh động vật vào mạng neural kết hợp với tên động vật tương ứng. Ở phía dưới, hệ thống bắt đầu giải một câu đố toán học. Nó xem xét tất cả các cặp tên hình ảnh và tìm ra một công thức đáng tin cậy biến một cái này (hình ảnh) thành cái khác (danh mục). Một khi giải được câu đố đó, hệ thống có thể sử dụng lại công thức này nhiều lần để phân loại chính xác bất kỳ ảnh động vật mới nào.

Nhưng việc tìm ra một công thức duy nhất để mô tả toàn bộ việc chuyển đổi hình ảnh thành tên là quá lớn và dẫn đến một mô hình có độ chính xác thấp. Nó sẽ giống như việc cố gắng sử dụng một quy tắc duy nhất để phân biệt mèo và chó. Bạn có thể nói chó có đôi tai mềm. Nhưng một số con chó không như vậy và một số con mèo lại có đặc điểm đó, vì vậy cuối cùng sẽ có rất nhiều kết quả sai một cách tiêu cực và tích cực.

Đó chính là lý do mà các tầng của mạng lưới neural xuất hiện. Chúng chia quá trình biến đổi thành các bước và để mạng lưới tìm thấy một loạt các công thức mà mỗi một công thức lại mô tả một giai đoạn của quy trình. Vì vậy, tầng đầu tiên có thể lấy tất cả các pixel và sử dụng một công thức để chọn ra kết quả nào phù hợp nhất cho mèo so với chó. Lớp thứ hai có thể sử dụng công thức khác để tạo các mẫu lớn hơn từ các nhóm pixel và tìm hiểu xem hình ảnh đó có râu hay tai không. Lớp tiếp theo sẽ xác định các đặc điểm ngày càng phức tạp của con vật, cho đến khi lớp cuối cùng xác định được con chó kia trên cơ sở tính toán tích lũy. Phân tích từng bước của quy trình này cho phép một mạng lưới neural xây dựng các mô hình tinh vi hơn, điều này sẽ đưa đến những dự đoán chính xác hơn.

Cách một mạng lưới neural truyền thống biến một hình ảnh của một con sư tử thành tên “sư tử”.

Cách tiếp cận theo tầng đã giúp ích rất nhiều trong lĩnh vực AI, nhưng nó cũng có một nhược điểm. Nếu bạn muốn mô hình hóa bất cứ thứ gì biến đổi liên tục theo thời gian, bạn cũng phải chia nó thành các bước riêng biệt. Trong thực tế, nếu chúng ta trở lại ví dụ về sức khỏe, điều đó có nghĩa là bạn phải nhóm các hồ sơ y tế vào các khoảng thời gian hữu hạn như năm hoặc tháng. Bạn có thể thấy nếu làm như vật sẽ khiến kết quả không chính xác. Nếu bạn gặp bác sĩ vào ngày 11 tháng 1 và một lần nữa vào ngày 16 tháng 11, dữ liệu từ cả hai lần khám sẽ được nhóm lại với nhau trong cùng một năm.

Vì vậy, cách tốt nhất để mô hình hóa thực tế càng cụ thể càng tốt là thêm nhiều lớp hơn để tăng độ chi tiết. (Tại sao không chia nhỏ hồ sơ của bạn thành ngày hoặc thậm chí hàng giờ?) Hơn hết, điều này có nghĩa là mạng lưới thần kinh tốt nhất cho công việc này sẽ có vô số lớp để mô hình hóa vô hạn các bước thay đổi. Câu hỏi là liệu ý tưởng này có thực tế hay không.

Nếu điều này ban đầu nghe có vẻ quen thuộc, thì đó là vì chúng ta đã tìm ra chính xác vấn đề mà phép tính được phát minh ra để giải quyết. Phép tính cung cấp cho bạn tất cả các phương trình hữu hiệu này để tính toán một loạt các thay đổi qua các bước vô hạn, nói cách khác, nó giúp bạn tránh khỏi cơn ác mộng khi mô hình hóa sự thay đổi liên tục trong các đơn vị rời rạc. Đây là phép thuật trong nghiên cứu của Duvenaud và cộng sự của ông: nó thay thế các lớp bằng các phương trình tính toán.

Kết quả thực sự không phải là một mạng lưới nữa; không có nhiều nút và kết nối, chỉ có một bảng tính toán liên tục. Tuy nhiên, gắn bó với quy ước, các nhà nghiên cứu đã đặt tên cho thiết kế này là một mạng “ODE” – ODE cho các “phương trình vi phân thông thường”. (Họ vẫn cần phải phát triển thương hiệu của mình.)

Nếu não bộ của bạn bị tổn thương, thì đây là một sự tương đồng có ích mà Duvenaud sử dụng để gắn kết tất cả lại với nhau. Xem xét một nhạc cụ có tính liên tục như violin, nơi bạn có thể trượt tay dọc theo dây đàn để chơi bất kỳ tiết tấu nào bạn muốn; bây giờ hãy xem xét loại nhạc cụ với phím rời như đàn piano chỉ có thể chơi một số tiết tấu giới hạn. Một mạng lưới neural truyền thống giống như một cây đàn piano: dù cố gắng, bạn không thể luyến nốt. Bạn sẽ chỉ có thể thực hiện điều đó  bằng cách chơi theo một tỷ lệ. Ngay cả khi bạn đã điều chỉnh lại chiếc đàn piano của mình để tiết tấu các nốt nhạc thực sự gần nhau, bạn vẫn chỉ xấp xỉ đạt được mục đích với tỷ lệ nào đó. Chuyển sang mạng ODE cũng giống như chuyển từ piano sang violin. Nó không nhất thiết phải là công cụ phù hợp, nhưng nó phù hợp hơn cho một số mục đích nhất định.

Ngoài việc có thể mô hình hóa sự thay đổi liên tục, mạng ODE cũng thay đổi các khía cạnh nhất định của việc đào tạo. Với mạng neural truyền thống, bạn phải chỉ định số lượng tầng lớp bạn muốn trong mạng lưới của mình khi bắt đầu đào tạo, sau đó đợi cho đến khi việc đào tạo được thực hiện để tìm hiểu mức độ chính xác của mô hình. Phương pháp mới cho phép bạn xác định độ chính xác mong muốn của mình trước tiên và nó sẽ tìm ra cách hiệu quả nhất để tự đào tạo trong phạm vi sai số đó. Mặt khác, bạn sẽ biết được ngay từ đầu mất khoảng bao lâu để mạng lưới neural truyền thống được đào tạo. Không mất quá nhiều thời gian khi sử dụng mạng ODE. Đây là những sự đánh đổi mà các nhà nghiên cứu sẽ phải thực hiện, Duvenaud giải thích, khi họ quyết định sử dụng kỹ thuật nào trong tương lai.

Hiện tại, bài báo cung cấp một bằng chứng về khái niệm thiết kế, “nhưng nó vẫn chưa sẵn sàng để ra mắt chính thức”, Duvenaud nói. Giống như bất kỳ kỹ thuật ban đầu nào được đề xuất trong lĩnh vực này, nó vẫn cần được bổ sung, thử nghiệm và cải tiến cho đến khi có thể đưa vào sản xuất. Nhưng phương pháp này có khả năng làm rung chuyển lĩnh vực giáo dục giống như cách mà Ian Goodfellow đã làm khi ông xuất bản bài báo của mình trên GANs.

“Nhiều trong số những tiến bộ quan trọng của lĩnh vực machine learning đã xuất hiện trong lĩnh vực mạng lưới neural”, Richard nói, Giám đốc nghiên cứu tại Viện Vector, người không tham gia nghiên cứu. “Nghiên cứu này có khả năng sẽ thúc đẩy toàn bộ công việc tiếp theo, đặc biệt là trong các mô hình chuỗi thời gian, vốn là nền tảng trong các ứng dụng AI như chăm sóc sức khỏe”.

Lệ Thủy

Theo bài viết của Karen Hao đăng trên MIT Technology Review


Trước sự phát triển vũ bão của công nghệ nói chung và trí tuệ nhân tạo (AI) nói riêng, rủi ro về khả năng phát triển trí tuệ nhân tạo vượt ngoài khuôn khổ hiện thời là hoàn toàn có thể xảy ra. Đứng trước những yêu cầu của xã hội, Viện Michael Dukakis (MDI) đã và đang phát triển Sáng kiến Xã hội Trí tuệ nhân tạo (AIWS) với Mô hình AIWS 7 lớp; đồng thời thành lập Hội đồng Tiêu chuẩn và Thực hành AIWS với mục tiêu phát triển và xây dựng những tiêu chuẩn cho một công dân trí tuệ nhân tạo , các chuẩn mực của Xã hội Vạn vật Trí tuệ nhân tạo (AIWS). Hội đồng Tiêu chuẩn và Thực hành AIWS sẽ kết nối và làm việc với các chính phủ, các tập đoàn, các đại học và các tổ chức phù hợp khác về những mối nguy hại và những thách thức mà trí tuệ nhân tạo có thể gây ra. Trong đó, những đoàn thể này có trách nhiệm đối với quá trình đạt được một hệ thống trí tuệ nhân tạo có đạo đức và lành mạnh.