Hệ thống CSAIL đột phá cho thấy một ngày nào đó, các rô-bốt có thể nhìn đủ tốt để trở nên hữu ích tại các gia đình và các văn phòng.

Con người từ lâu đã là bậc thầy của sự khéo léo, một kỹ năng phần lớn được ghi nhận nhờ vào thực tế rằng con người có thể nhìn thấy qua đôi mắt. Trong khi đó, rô-bốt vẫn đang trong giai đoạn phát triển để đạt được kỹ năng này.

Chắc chắn rằng đã có một số tiến triển: Trong nhiều thập kỷ qua, các rô-bốt trong các môi trường bị kiểm soát như các dây chuyền lắp ráp đã có thể nhặt cùng một đồ vật lặp đi lặp lại. Gần đây, những đột phá về thị giác máy tính đã giúp các rô-bốt có thể nhận ra sự khác biệt cơ bản giữa các đồ vật. Mặc dù vậy, các hệ thống không thực sự hiểu được hình dạng của các đối tượng, do vậy, hiện robot chưa thể làm được gì nhiều sau khi nhặt nhanh được đồ vật đó.

Nguồn: CSAIL

Trong một bài viết mới, các nhà nghiên cứu thuộc Phòng thí nghiệm Khoa học máy tính và Trí tuệ Nhân tạo của MIT (CSAIL) cho biết họ đã thực hiện được bước phát triển quan trọng trong lĩnh vực này: một hệ thống cho phép rô-bốt kiểm tra các đối tượng ngẫu nhiên và đủ hiểu chúng một cách trực quan để hoàn thành các nhiệm vụ cụ thể mà chưa từng nhìn thấy chúng trước đây.

Hệ thống này, được gọi là Lưới đối tượng dày đặc (Dense Object Nets – DON), xem xét các đối tượng dưới dạng tập hợp các điểm tạo thành sơ đồ thị giác. Cách tiếp cận này cho phép các rô-bốt hiểu rõ hơn và thao tác các vật, và đặc biệt là cho phép các rô-bốt thậm chí lấy được một đối tượng cụ thể trong một mớ các đối tượng tương tự nhau – một kỹ năng quý giá cho các loại máy mà các công ty như Amazon và Walmart hiện sử dụng trong kho hàng của mình.

Ví dụ, một người có thể sử dụng DON để yêu cầu một rô-bốt nắm lấy một vị trí cụ thể trên đồ vật như phần lớp đệm mui giày của một chiếc giày. Từ đó, con rô-bốt này có thể nhìn vào một chiếc giày mà nó chưa từng thấy trước đây, và thành công lấy ra lớp đệm của chiếc giày đó.

Với hệ thống DON, một robot có thể thực hiện các nhiệm vụ mới như nhìn vào một chiếc giày mà nó chưa từng thấy trước đây và nắm lấy một vị trí cụ thể trên giày.

Nguồn: Tom Buehler/CSAIL

“Nhiều phương pháp thao tác không thể xác định các phần cụ thể của một đối tượng trên nhiều hướng mà đối tượng có thể gặp phải”, theo nghiên cứu sinh tiến sĩ Lucas Manuelli, người đã viết một bài báo mới về hệ thống này với tác giả chính và nghiên cứu sinh Pete Florence, cùng với Giáo sư MIT Russ Tedrake. “Ví dụ, các thuật toán hiện tại sẽ không thể nắm được một cái cốc bằng tay cầm của nó, đặc biệt là nếu cái cốc có thể ở nhiều hướng, như thẳng đứng, hoặc ở bên cạnh nó”.

Nhóm nghiên cứu nghĩ về các ứng dụng tiềm năng không chỉ trong các thiết lập sản xuất mà còn ở tại nhà. Hãy nghĩ về việc cung cấp cho hệ thống hình ảnh về một ngôi nhà gọn gàng và yêu cầu hệ thống dọn sạch sẽ khi bạn đang đi làm hoặc sử dụng hình ảnh về các chiếc đĩa để hệ thống này cất dọn chúng khi bạn đang đi nghỉ.

Điều đáng lưu ý là không có dữ liệu nào thực sự được gắn nhãn bởi con người. Thay vào đó, hệ thống là những gì mà nhóm nghiên cứu gọi là “tự giám sát”, không yêu cầu bất kỳ chú thích nào của con người.

Hai phương pháp phổ biến để rô-bốt có thể nắm bắt liên quan đến việc học theo từng nhiệm vụ cụ thể hoặc tạo ra một thuật toán nắm bắt chung. Cả hai kỹ thuật này đều có trở ngại: Phương pháp học theo từng nhiệm vụ cụ thể khó có thể tổng quát đối với các nhiệm vụ khác và phương pháp nắm bắt chung không đủ cụ thể để giải quyết các vấn đề của các nhiệm vụ cụ thể, như đặt đối tượng vào các vị trí cụ thể.

Tuy nhiên, hệ thống DON tạo ra một loạt các tọa độ trên một đối tượng nhất định, được xem là một loại sơ đồ thị giác, giúp rô-bốt hiểu rõ hơn về những gì cần nắm bắt và ở đâu.

Nhóm nghiên cứu đã đào tạo hệ thống để xem xét các đối tượng như một loạt các điểm tạo nên một hệ tọa độ lớn hơn. Sau đó, hệ thống có thể biểu diễn các điểm khác nhau với nhau để trực quan hóa hình dạng 3-D của đối tượng, tương tự như cách bức ảnh toàn cảnh được ghép lại với nhau từ nhiều bức ảnh. Sau khi đào tạo, nếu một người chỉ định một điểm trên đối tượng, rô-bốt có thể chụp ảnh đối tượng đó, và xác định và kết hợp các điểm để có thể cầm đối tượng đó tại điểm đã được chỉ định.

Điều này khác với các hệ thống như DexNet của UC-Berkeley, hệ thống có thể lấy được nhiều vật khác nhau, nhưng không thể đáp ứng một yêu cầu cụ thể. Hãy tưởng tượng về một đứa trẻ lúc 18 tháng tuổi, đứa bé không hiểu đồ chơi nào mà bạn muốn nó chơi cùng nhưng nó có thể lấy rất nhiều vật so với một đứa trẻ bốn tuổi, người có thể phản ứng với yêu cầu “cầm chiếc xe tải của con ở phần đuôi đỏ của nó”.

Trong một tập hợp các thử nghiệm được thực hiện trên đồ chơi con sâu bướm mềm, cánh tay rô-bốt Kuka do DON cung cấp có thể nắm lấy tai phải của đồ chơi từ một loạt các cấu hình khác nhau. Điều này cho thấy rằng hệ thống có khả năng phân biệt bên trái với bên phải trên các đối tượng đối xứng.

Khi thử nghiệm trên một thùng mũ bóng chày khác nhau, DON có thể chọn ra chiếc mũ mục tiêu cụ thể mặc dù tất cả các mũ có thiết kế rất giống nhau – và chưa bao giờ thấy hình ảnh về các chiếc mũ trong hệ thống dữ liệu đào tạo trước đây.

“Trong các nhà máy, rô bốt thường cần có bộ phận cấp liệu phức tạp để làm việc đáng tin cậy”, ông Florence nói. “Tuy nhiên, một hệ thống như thế này mà có thể hiểu được các hướng của đối tượng chỉ có thể chụp ảnh và có thể nắm bắt và điều chỉnh đối tượng tương ứng”.

Trong tương lai, nhóm nghiên cứu hy vọng sẽ cải thiện hệ thống để có thể thực hiện các nhiệm vụ cụ thể với sự hiểu biết sâu hơn về các đối tượng tương ứng, như học cách lấy một đối tượng và di chuyển nó với mục tiêu cuối cùng như dọn sạch bàn làm việc.

Nhóm nghiên cứu sẽ trình bày bài báo của mình về hệ thống này vào tháng tới tại Hội nghị về Học Rô-bốt tại Zürich, Thụy Sĩ.

Hoài Thu

Lược dịch theo MIT News, tác giả Adam Conner-Simons, Rachel Gordon – CSAIL