Máy tính không khóc trong khi nghe những câu chuyện buồn nhưng chúng có thể biết khi nào con người sẽ khóc.

Bộ phim Sunspring ra mắt tại liên hoan phim SCI-FI LONDON năm 2016. Lấy bối cảnh ở một thế giới đen tối với tình trạng thất nghiệp hàng loạt, bộ phim đã thu hút được nhiều người hâm mộ, cụ thể một người xem đã đưa ra ý kiến nhận xét rằng bộ phim thật thú vị nhưng đầy khác lạ. Tuy nhiên, khía cạnh đáng chú ý nhất của bộ phim liên quan đến kịch bản của nó: một bot trí tuệ nhân tạo (AI) đã viết kịch bản cho bộ phim Sunspring.

Bộ phim Sunspring

“Rất tuyệt vời”, bạn nghĩ vậy. Máy móc có thể sẽ thay thế người kể chuyện, giống như những chiếc xe tự lái có thể thống trị trên các con đường. Tuy nhiên, việc xem xét kỹ hơn về bộ phim Sunspring có thể làm nảy sinh một số hoài nghi. Một nhân vật trong phim trợn mắt một cách khó hiểu, và một nhà phê bình cho rằng lời thoại của bộ phim thường có vẻ giống như “một chuỗi ngẫu nhiên các câu nói không liên quan đến nhau”. Chúng ta sẽ vẫn phải cần tới các nhà biên kịch “bù đầu” bên cạnh các bàn phím cho đến khi công nghệ phát triển hơn. Vì vậy, hãy hình dung về một kịch bản ít cực đoan hơn: Máy móc có thể hoạt động cùng với con người để cải thiện quá trình kể chuyện không?

Hãy tưởng tượng về cách sự hợp tác này có thể diễn ra trong môi trường video phong phú. Như thường lệ, những người kể chuyện sẽ tạo ra một kịch bản với những vòng xoắn cốt truyện thông minh và lời thoại thực tế. AI sẽ tăng cường công việc của họ bằng cách cung cấp những hiểu biết làm tăng sức hút cảm xúc của một câu chuyện, ví dụ, xác định một bản nhạc hoặc hình ảnh trực quan giúp mang lại cảm giác hy vọng. Công nghệ đột phá này sẽ hỗ trợ những người kể chuyện, giúp họ không ngừng đi lên trong một thế giới mà ở đó nhu cầu của khán giả dường như là vô hạn.

Phòng thí nghiệm truyền thông Media Lab của Viện Công nghệ Massachusetts (MIT) gần đây đã tìm hiểu về tiềm năng hợp tác người-máy đó trong hoạt động kể chuyện bằng video. Liệu máy móc có thể xác định các vòng cung cảm xúc phổ biến trong các câu chuyện video – sự thay đổi vận may điển hình với các nhân vật vượt qua thời kỳ gian khó, chiến thắng khó khăn, bị mất đặc ân, hoặc tuyên bố chiến thắng trước cái ác? Nếu vậy, những người kể chuyện có thể sử dụng thông tin này để dự đoán cách khán giả có thể phản ứng hay không? Những câu hỏi này có tác động cộng hưởng cho bất kỳ ai tham gia vào hoạt động kể chuyện bằng video, từ những người không chuyên đăng video lên YouTube cho đến giám đốc điều hành của các studio.

Các vòng cung cảm xúc: Yếu tố then chốt của câu chuyện

Trước khi đi vào nghiên cứu, hãy nói về các vòng cung cảm xúc. Những người kể chuyện bậc thầy, từ Sendak đến Spielberg, Proust hay Pixar, đều có kỹ năng khơi gợi cảm xúc của chúng ta. Với bản năng vốn có đọc được những mạch đập của chúng ta, họ điều chỉnh câu chuyện của mình để kích động niềm vui, nỗi buồn và nỗi tức giận vào những thời điểm quan trọng. Tuy nhiên, ngay cả những người kể chuyện giỏi nhất cũng có thể mang lại kết quả không đồng đều, cụ thể đối với một số vở kịch của nhà văn Shakespeare, các khán giả cảm thấy thờ ơ hoặc không được kết nối. (Không có nhiều người hâm mộ đối với bộ phim Cymbeline.) Điều gì giải thích cho sự biến đổi này? Chúng tôi đưa ra giả thuyết rằng vòng cung cảm xúc của một câu chuyện phần lớn giải thích lý do tại sao một số bộ phim gặt hái được nhiều giải thưởng và những bộ phim khác lại thất bại.

Ý tưởng về các vòng cung cảm xúc không phải là điều mới mẻ. Mọi bậc thầy về kể chuyện đều biết đến chúng, và một số người đã cố gắng xác định các mô hình phổ biến nhất. Hãy xem xét lời giải thích của Kurt Vonnegut về các cung bậc cảm xúc. Cung bậc phổ biến nhất, ông tuyên bố, theo mô hình được tìm thấy trong tác phẩm Cinderella (Cô bé Lọ Lem). Khi câu chuyện bắt đầu, nhân vật chính rơi vào tình huống tuyệt vọng. Tiếp theo đó là sự xuất hiện đầy bất ngờ của các vận may – trong trường hợp của cô bé Lọ Lem, đó là nhờ sự giúp đỡ của một bà tiên – trước khi những rắc rối tiếp theo xảy ra. Bất kể điều gì xảy ra, những câu chuyện kiểu cô bé Lọ Lem đều kết thúc với một cái kết có hậu trong đó nhân vật chính, nam hoặc nữ sống hạnh phúc mãi mãi.

Có bằng chứng cho thấy rằng vòng cung cảm xúc của một câu chuyện có thể ảnh hưởng đến sự tham gia của khán giả, ví dụ, có bao nhiêu người bình luận về đoạn video trên phương tiện truyền thông xã hội, hoặc khen ngợi video đó với bạn bè của mình. Trong một nghiên cứu của Đại học Pennsylvania, các nhà nghiên cứu đã đánh giá các bài báo của tờ New York Times để xem liệu các loại bài báo cụ thể có khả năng đưa ra danh sách được gửi email nhiều nhất của tờ này nhiều hơn hay không. Họ phát hiện ra rằng độc giả thường chia sẻ những câu chuyện tạo phản ứng cảm xúc mạnh, đặc biệt là những câu chuyện khuyến khích cảm xúc tích cực. Thật hợp lý khi nghĩ rằng những người xem phim có thể có phản ứng giống như vậy.

Máy móc được coi là người xem phim: Thử nghiệm mang tính cơ bản của MIT

Một số nhà nghiên cứu đã sử dụng học máy để xác định các vòng cung cảm xúc trong các câu chuyện. Một phương pháp, được phát triển tại Đại học Vermont, liên quan đến việc máy tính quét các văn bản – các đoạn video hoặc nội dung của cuốn sách – để phát triển các cung bậc cảm xúc.

Để tiến thêm một bước, Phòng thí nghiệm Lab for Social Machines của MIT và nhóm Truyền thông và Công nghệ tiêu dùng của McKinsey đã hợp tác để phát triển các mô hình học máy dựa trên các mạng nơ-ron chuyên sâu để “xem” các đoạn video ngắn – phim, TV, và các tính năng trực tuyến ngắn – và ước tính nội dung cảm xúc tích cực hoặc tiêu cực của chúng tính theo từng giây.

Những mô hình này xem xét tất cả các khía cạnh của một video – không chỉ là cốt truyện, nhân vật và lời thoại mà còn là những điểm nhấn tinh tế hơn, như cận cảnh khuôn mặt của một người hoặc một đoạn nhạc được phát trong cảnh ô tô rượt đuổi nhau. Khi nội dung của mỗi thước phim được xem xét tổng thể, vòng cung cảm xúc của câu chuyện xuất hiện.

Hãy suy nghĩ về điều này một lúc: máy móc có thể xem một video chưa qua chỉnh sửa và tạo ra một vòng cung cảm xúc cho câu chuyện dựa trên tất cả các yếu tố về âm thanh và hình ảnh của nó. Đó là điều mà chúng tôi chưa từng biết đến trước đây.

Hãy xem xét cảnh mở đầu nổi tiếng của bộ phim Up (Vút bay), một bộ phim hoạt hình 3D, một siêu phẩm rất nổi tiếng. Bộ phim tập trung vào ông lão Carl Fredricksen, cáu bẳn và đơn độc sống trong căn nhà biết bay với nỗi thương nhớ về người vợ Ellie mất vì bạo bệnh. Hàng nghìn quả bóng bay nâng bổng ngôi nhà với Carl thẳng tiến tới Thác Thiên đường – nơi hai vợ chồng từng khao khát đặt chân tới. Muốn dành phần lớn bộ phim cho việc tái hiện cuộc phiêu lưu của ông lão Carl, các nhà biên kịch đã khám phá ra một cách xử lý nhanh chóng để thể hiện câu chuyện sườn đầy phức tạp đằng sau chuyến đi của ông lão. Đó là nơi đoạn mở đầu phim xuất hiện. Khung cảnh hoàn toàn tĩnh lặng, ngoại trừ phần nhạc nền của bộ phim, và một vòng cung cảm xúc xuất hiện khi những cảnh về cuộc đời của Carl hiện ra trên màn hình. (Chúng tôi cũng đã xem xét vòng cung cảm xúc đối với toàn bộ bộ phim này nhưng đây là một cách hay để đánh giá nó trong khuôn hình thu nhỏ.)

Bạn có thể thấy các điểm cao và thấp đối với phần dựng phim trong biểu đồ (Hình 1). Trục x thể hiện thời gian, được đo bằng phút và trục y thể hiện hóa trị trực quan hoặc mức độ các hình ảnh gợi ra cảm xúc tích cực hoặc tiêu cực tại thời điểm cụ thể đó, được máy tính điểm. Điểm số càng cao, cảm xúc càng tích cực. Như với tất cả các phân tích của chúng tôi, chúng tôi cũng đã tạo ra các biểu đồ tương tự cho các phản hồi của máy đối với âm thanh và toàn bộ các video. Chúng tôi đang tập trung vào các biểu đồ trực quan, ở đây và ở nơi khác, vì đó là trọng tâm đối với các phân tích sau này của chúng tôi về sự gắn kết tình cảm.

Hình 1: Cung bậc cảm xúc trong cảnh mở đầu của bộ phim Up, đã được máy móc tính điểm, thể hiện các điểm cao và điểm thấp phù hợp với những khoảnh khắc tích cực hoặc tiêu cực.

Nguồn: McKinsey&Company

Hóa trị trực quan được đo theo thang điểm từ 0 đến 1, nhưng không phải bộ phim nào cũng có hình ảnh bao trùm toàn bộ phổ ảnh. Điều quan trọng là hóa trị tương đối – cách mà một cảnh phim tích cực hay tiêu cực được so sánh với các điểm khác trong bộ phim – cũng như hình dạng tổng thể của vòng cung cảm xúc. Như trong nhiều câu chuyện video, vòng cung cảm xúc trong cảnh dựng mở đầu của bộ phim Up bao gồm một loạt các thay đổi tâm trạng, thay vì một quỹ đạo lên hoặc xuống rõ ràng. Chẳng hạn, một trong những đỉnh cao nhất tương ứng với hình ảnh về ông lão Carl khi còn là một đứa trẻ hạnh phúc, nhưng ngay sau đó, độ cao sụt giảm mạnh khi cậu bé Ellie làm kinh hãi ông lão vào giữa đêm. Phản ứng tiêu cực của máy móc phản ánh sự sợ hãi của ông lão Carl. Các đỉnh khác xuất hiện nhiều hơn sau đó, khi cặp vợ chồng mới cưới dự định có con, hoặc khi cặp vợ chồng ôm nhau. Hóa trị giảm mạnh gần cuối bộ phim khi ông lão Carl trở về nhà một mình sau khi người vợ Ellie của mình qua đời.

Cảnh hai vợ chồng ông lão Carl trong phim Up

Các mô hình học máy của MIT đã xem xét hàng ngàn video và thiết lập các vòng cung cảm xúc cho từng video. Để đo lường độ chính xác của chúng, các tình nguyện viên được yêu cầu chú thích các đoạn phim với nhiều nhãn cảm xúc khác nhau. Hơn nữa, các tình nguyện viên phải xác định yếu tố video nào – như lời thoại, âm nhạc hoặc hình ảnh – gây ra phản ứng của họ, những hiểu biết này được sử dụng để tinh chỉnh các mô hình của mình.

Sau yếu tố vòng cung cảm xúc, những nhà nghiên cứu đã phát hiện ra điều gì khi sàng lọc dữ liệu từ các phân tích video? Đón đọc Phần 2 – AI trong hoạt động kể chuyện: Máy móc được coi là người đồng sáng tạo.

Hoài Thu

Lược dịch theo bài viết của McKinsey&Company


Ý tưởng về sự hợp tác giữa con người và máy móc không chỉ còn là câu chuyện viễn tưởng, tuy nhiên để đảm bảo sự đồng hành này được an toàn và đem lại những lợi ích quý giá đối với nhân loại, cần một cơ chế kiểm soát với các hành động của AI.  Trong Mô hình AIWS 7 lớp thuộc Sáng kiến Xã hội Trí tuệ nhân tạo (AIWS) phát triển bởi Viện Michael Dukakis, lớp đầu tiên tập trung vào xây dựng một quy chuẩn trách nhiệm để điều hành những công dân AI và đảm bảo rằng AI có thể hòa nhập một cách an toàn vào xã hội.