Trung tâm dữ liệu nguồn mở và công nghệ AI (CODAIT) của IBM gần đây đã tiết lộ một cặp cơ sở dữ liệu được quản lý cẩn thận được thiết kế để cung cấp các mô hình và bộ dữ liệu cho các nhà phát triển máy học cho các dự án AI.

MAX (Model Assets Exchange), hoặc Trao đổi tài sản mô hình, là một kho lưu trữ nguồn mở trực tuyến cho các mô hình AI có thể huấn luyện / triển khai. Bạn không nhất thiết phải là một chuyên gia về AI để sử dụng cơ sở dữ liệu – có ngay cả một hướng dẫn mà Wll sẽ hướng dẫn bạn phát triển một AI có thể viết chú thích – nhưng một số mô hình có sẵn sẽ chỉ thu hút các nhà phát triển doanh nghiệp.

CODAIT cũng ra mắt Sàn giao dịch tài sản dữ liệu (DAX). Trong đó MAX lưu trữ các mô hình AI đầy đủ, DAX chứa các bộ dữ liệu có thể được sử dụng để huấn luyện cho riêng bạn. Là bộ dữ liệu đào tạo mã nguồn mở cho AI aren, chính xác là rất hiếm, nhưng được quản lý tốt, TNW đã tìm đến Fred Reiss, Kiến trúc sư trưởng tại CODAIT, để tìm hiểu điều gì đặc biệt về DAX.

IBM có ý nghĩa gì khi nói rằng các bộ dữ liệu sẽ được giám sát cẩn thận? Họ có được kiểm tra độ lệch hoặc độ chính xác không?

HẦU HẾT CÁC ĐỊA ĐIỂM BẠN CÓ THỂ ĐẾN ĐỂ TÌM DANH SÁCH CÁC BỘ DỮ LIỆU TRỰC TUYẾN ĐỀU CÓ CÁCH TIẾP CẬN RẤT HIỆU QUẢ ĐỂ KIỂM TRA. AI ĐÓ TẠO MỘT DANH SÁCH HOẶC CƠ SỞ DỮ LIỆU VÀ NHỮNG NGƯỜI NGẪU NHIÊN TỪ INTERNET GỬI LIÊN KẾT ĐẾN DỮ LIỆU. NÓ PHỤ THUỘC VÀO BẠN, NGƯỜI TIÊU DÙNG BỘ DỮ LIỆU, ĐỂ TÌM HIỂU XEM MỘT BỘ DỮ LIỆU ĐÃ CHO CÓ HỮU ÍCH HAY KHÔNG. BẠN CẦN TRẢ LỜI MỘT SỐ CÂU HỎI: GIÁ TRỊ KHOA HỌC CỦA MỘT TẬP DỮ LIỆU ĐÃ CHO LÀ GÌ? AI SỞ HỮU DỮ LIỆU? CÓ PHẢI NGƯỜI ĐÃ ĐĂNG NÓ CÓ QUYỀN ĐĂNG NÓ KHÔNG? TÔI CÓ QUYỀN TẢI XUỐNG KHÔNG? TÔI CÓ THỂ SỬ DỤNG DỮ LIỆU TRONG ỨNG DỤNG KINH DOANH MỘT CÁCH AN TOÀN KHÔNG?

CHÚNG TÔI ĐÃ TRẢI QUA SỰ THẤT VỌNG VỚI SỰ THIẾU KIỂM SOÁT TRỰC TIẾP NÀY TRONG KHI ĐÀO TẠO CÁC MÔ HÌNH CHO MÔ HÌNH TÀI SẢN ĐIỆN TỬ – TRANG WEB CHỊ EM DAX TRÊN TRANG WEB DEVELOPER.IBM.COM VỚI CÁC MÔ HÌNH HỌC SÂU HIỆN ĐẠI. VÍ DỤ, CHÚNG TÔI ĐÃ PHẢI BỎ RA RẤT NHIỀU NỖ LỰC ĐỂ CÓ ĐƯỢC MỘT BỘ DỮ LIỆU CÓ THỂ SỬ DỤNG ĐỂ HUẤN LUYỆN MÔ HÌNH TAGGER ENTITY ĐƯỢC ĐẶT TÊN CỦA CHÚNG TÔI.

TẠI PHÒNG THÍ NGHIỆM IBM CO COITIT, CHÚNG TÔI DÀNH PHẦN LỚN THỜI GIAN CỦA MÌNH ĐỂ ĐÓNG GÓP CHO PHẦN MỀM NGUỒN MỞ LÀM NỀN TẢNG CHO CÁC HỆ THỐNG AI NGÀY NAY – CÁC DỰ ÁN NHƯ KUBEFLOW, TENSORFLOW, PYTORCH, APACHE SPARK VÀ JUPYTER. MỘT TRONG NHỮNG CHỨC NĂNG CHÍNH CỦA TỔ CHỨC CỦA CHÚNG TÔI LÀ GIÚP ĐẢM BẢO RẰNG VIỆC QUẢN TRỊ MÃ VÀ CHẤT LƯỢNG CỦA CÁC THÀNH PHẦN PHẦN MỀM AI NGUỒN MỞ NÀY TUÂN THEO CÁC TIÊU CHUẨN CỦA IBM. CHÚNG TÔI MUỐN MANG CÙNG MỨC CHẤT LƯỢNG CHO DỮ LIỆU NGUỒN MỞ MÀ BẠN CHẠY QUA PHẦN MỀM NGUỒN MỞ NÀY. VÌ VẬY, CHÚNG TÔI ĐÃ THEO MỘT CÁCH TIẾP CẬN ĐƯỢC KIỂM SOÁT NHIỀU HƠN VỚI DAX, SO VỚI CÁC KHO DỮ LIỆU KHÁC MÀ BẠN CÓ THỂ TÌM THẤY TRỰC TUYẾN.

MỖI TẬP DỮ LIỆU TRONG DAX ĐƯỢC BAO BỌC BỞI MỘT THÀNH VIÊN TRONG NHÓM CỦA CHÚNG TÔI VÀ ĐƯỢC XEM XÉT BỞI NHIỀU NGƯỜI KHÁC TRONG IBM. CHÚNG TÔI BẮT ĐẦU BẰNG CÁCH THU THẬP THÔNG TIN CHI TIẾT VỀ NGUỒN GỐC CỦA BỘ DỮ LIỆU VÀ LOẠI VẤN ĐỀ NÀO MÀ BỘ DỮ LIỆU SẼ PHÙ HỢP. KHI CÓ THỂ, CHÚNG TÔI TIẾP CẬN VỚI NGƯỜI TẠO DỮ LIỆU BAN ĐẦU. CHÚNG TÔI THU THẬP SIÊU DỮ LIỆU CHI TIẾT VỀ NGUỒN GỐC CỦA DỮ LIỆU. CHÚNG TÔI LÀM QUEN VỚI CÁC TÀI LIỆU NGHIÊN CỨU ĐẰNG SAU CÁC BỘ DỮ LIỆU. CHÚNG TÔI THẬM CHÍ NHÌN VÀO CÁC MỤC DỮ LIỆU THỰC TẾ ĐỂ KIỂM TRA CÁC VẤN ĐỀ PHÁP LÝ VÀ CHẤT LƯỢNG DỮ LIỆU TIỀM NĂNG. MỖI TẬP DỮ LIỆU ĐỀU TRẢI QUA QUY TRÌNH XEM XÉT PHÁP LÝ NỘI BỘ CỦA IBM. CHỈ SAU ĐÓ, MỘT BỘ DỮ LIỆU MỚI ĐƯỢC PHÁT TRỰC TIẾP TRÊN MẠNG.

VÀ CHÚNG TÔI KHÔNG DỪNG LẠI VỚI CHỈ ĐĂNG DỮ LIỆU ĐƯỢC HIỆU ĐÍNH NÀY. CÓ CÁC BƯỚC BỔ SUNG MÀ CHÚNG TÔI DỰ ĐỊNH THỰC HIỆN SAU KHI BỘ DỮ LIỆU ĐI LÊN TRÊN DAX ĐỂ TẠO THÊM NỘI DUNG SONG SONG. BẠN NÊN BẮT ĐẦU THẤY KẾT QUẢ CỦA NHỮNG NỖ LỰC NÀY SỚM. CHÚNG TÔI ĐÃ TẠO RA CÁC SỔ GHI CHÉP JUPYTER CHO BIẾT CÁCH ĐỌC VÀ PHÂN TÍCH NỘI DUNG CỦA TỪNG TẬP DỮ LIỆU, TRÊN MÁY TÍNH XÁCH TAY CỦA RIÊNG BẠN HOẶC TRÊN ĐÁM MÂY CỦA IBM. VÀ CHÚNG TÔI ĐÃ VIẾT CÁC KỊCH BẢN ĐÀO TẠO LÀM SẴN ĐỂ ĐÀO TẠO CÁC MÔ HÌNH HỌC TẬP SÂU VỀ DỮ LIỆU. NGƯỜI DÙNG SẼ CÓ THỂ DÙNG THỬ CÁC TẬP LỆNH NÀY MIỄN PHÍ TRÊN IBM WATSON MACHINE LEARNING, TẬN DỤNG ĐÁM MÂY ĐƯỢC TĂNG TỐC GPU CỦA CHÚNG TÔI.

Những loại dữ liệu khác được lên kế hoạch cho DAX?

Đối với mỗi tập dữ liệu hiện tại trên trang web, có khoảng ba hiện tại trong kế hoạch. Trong thời gian tới, chúng tôi đang tiếp tục tập trung vào dữ liệu Nghiên cứu của IBM. Một số bộ dữ liệu hiện đang chờ các bài báo đánh giá ngang hàng được xuất bản trước khi chúng tôi có thể đăng chúng. Các kiểu dữ liệu của dữ liệu mới trong hàng đợi chủ yếu là văn bản ngôn ngữ tự nhiên, nhưng cũng có một số dữ liệu hình ảnh và âm thanh sắp xuất hiện.

Các dịch vụ hiện tại trên DAX khá chiết trung – đặc biệt là bộ dữ liệu video con lắc đôi nổi bật. Bạn thấy các nhà phát triển sử dụng điều đó để làm gì?

Khi điều đó xảy ra, một trong những thành viên trong nhóm của chúng tôi đang tạo ra một cuốn sổ tay demo tuyệt vời cho bộ dữ liệu con lắc đôi. Nó sẽ được ra sớm.

Một số bộ dữ liệu trên DAX là để thúc đẩy khoa học cốt lõi, trong khi những bộ khác có nhiều ứng dụng kinh doanh ngay lập tức hơn. Bộ dữ liệu con lắc đôi có nhiều hơn trong danh mục trước đây và nó có một số ứng dụng khoa học thú vị. Thách thức đề xuất từ ​​các nhà nghiên cứu sản xuất bộ dữ liệu là một nhiệm vụ dự đoán chuỗi thời gian: tạo ra một mô hình dự đoán trạng thái của hệ thống con lắc hỗn loạn. Dự đoán các hệ thống hỗn loạn là một nhiệm vụ hữu ích để xác nhận các loại mô hình mới để dự đoán chuỗi thời gian số và phân tích ngôn ngữ tự nhiên (văn bản ngôn ngữ tự nhiên là một chuỗi các từ).

Bạn cũng có thể sử dụng video để kiểm tra độ tỉnh táo cho các thuật toán ước tính tư thế sâu. Cấu hình vật lý của con lắc được thiết kế sao cho các bộ phận của con lắc có thể được định vị với độ chính xác subpixel mà không cần sử dụng máy học. Một thuật toán học máy chung chung không có kiến ​​thức về miền mà vẫn có thể đạt được mức độ chính xác tương tự.

Các nhà phát triển có thể tải dữ liệu lên DAX không?

Chúng tôi chắc chắn có kế hoạch để thêm khả năng đó trong tương lai. Thách thức chính là duy trì mức độ giám tuyển hiện tại và làm cho toàn bộ quá trình mở. Có rất nhiều chiều sâu trong công ty mà chúng ta có thể rút ra để mở rộng bộ sưu tập dữ liệu chất lượng cao trong thời gian tới.

Trọng tâm hiện tại của chúng tôi là cho phép tiêu thụ bởi các nhà phát triển trên toàn thế giới. Có bộ sưu tập các bộ dữ liệu được hiệu đính này sẽ mở ra một số khả năng thú vị cho các phần liên quan khác của developer.ibm.com. Bây giờ chúng ta có thể thêm các Mẫu mã mới cho biết cách sử dụng các bộ dữ liệu này để bao gồm các trường hợp sử dụng từ đầu đến cuối. Ví dụ, bộ dữ liệu Ngân hàng Đề xuất Tài chính có một số ứng dụng thực sự tuyệt vời để phân tích các báo cáo hàng quý của công ty công cộng. Ngoài ra, chúng tôi có thể sử dụng bộ dữ liệu DAX làm điểm khởi đầu để các nhà phát triển đào tạo các phiên bản tùy chỉnh của mô hình Trao đổi tài sản mô hình bằng cách trộn dữ liệu DAX với một chút dữ liệu cục bộ của họ.

Theo thenextweb