Các nhà nghiên cứu sử dụng Học sâu để thêm chuyển động chất lượng cao vào ảnh tĩnh

Các nhà nghiên cứu tại Đại học Washington đã phát triển một phương pháp học sâu mới về cơ bản tạo ra các ảnh phim chất lượng cao một cách tự động. Nhóm nghiên cứu cho biết phương pháp này có thể làm sinh động bất kỳ vật liệu nào đang chảy , bao gồm nước, khói, lửa và mây.

Các nhà nghiên cứu nói rằng phương pháp này liên quan đến một mạng lưới thần kinh cần được đào tạo để dự đoán tương lai và làm sinh động trạng thái của vật chất đang chảy sẽ như thế nào dựa trên một bức ảnh tĩnh duy nhất. Họ có thể ước tính điều này bằng cách đào tạo mạng lưới thần kinh trên hàng nghìn video về thác nước, sông, đại dương và các vật liệu khác có chuyển động linh hoạt. Theo Đại học Washington , quá trình đào tạo bao gồm việc cho mạng xem những video này và sau đó yêu cầu nó đoán chuyển động của video chỉ dựa trên khung hình đầu tiên.

Từ đó, mạng có thể tìm hiểu dựa trên các manh mối bối cảnh của hình ảnh cho thấy chuyển động sẽ trông như thế nào. Đầu ra của nó được so sánh với video thực tế và mạng từ từ học được những gì mong đợi từ các trạng thái khác nhau của vật chất.

Hình ảnh tĩnh gốc của Thác Snoqualmie | Sarah McQuate / Đại học Washington
Trình phát videohttps://petapixel.com/assets/uploads/2021/06/result_for_sarah.mp400:0000:0000:03Sử dụng các phím Mũi tên Lên / Xuống để tăng hoặc giảm âm lượng.

Ban đầu, nhóm đã cố gắng sử dụng một phương pháp được gọi là “phân tách” để tạo hoạt ảnh cho một bức ảnh, đây là một thuật ngữ đề cập đến việc di chuyển từng pixel theo một chuyển động được dự đoán. Thật không may, phương pháp này đã có một vấn đề.

“Hãy nghĩ về một thác nước đang chảy,” tác giả chính Aleksander Hołyński, một nghiên cứu sinh tiến sĩ tại Trường Khoa học Máy tính & Kỹ thuật Paul G. Allen, cho biết. “Nếu bạn chỉ di chuyển các pixel xuống thác nước, sau một vài khung hình của video, bạn sẽ không có pixel nào ở trên cùng!”

Hình ảnh ban đầu của Thác Palouse | Sarah McQuate / Đại học Washington
Trình phát videohttps://petapixel.com/assets/uploads/2021/06/video1.mp400:0000:0200:05Sử dụng các phím Mũi tên Lên / Xuống để tăng hoặc giảm âm lượng.

Để giải quyết vấn đề này, các nhà nghiên cứu đã tạo ra cái mà họ gọi là “phân tách đối xứng”, đây là một phương pháp về cơ bản dự đoán tương lai cho hình ảnh trong quá khứ và kết hợp chúng thành một hình ảnh động.

Tách đối xứng | Hołyński và cộng sự./CVPR

“Nhìn lại ví dụ về thác nước, nếu chúng ta di chuyển vào quá khứ, các pixel sẽ di chuyển lên thác nước. Vì vậy, chúng tôi sẽ bắt đầu nhìn thấy một cái lỗ gần đáy, ”Hołyński nói. “Chúng tôi tích hợp thông tin từ cả hai hoạt ảnh này để không bao giờ có bất kỳ lỗ hổng lớn nào trên hình ảnh bị cong vênh của chúng tôi.”

Từ đó, các nhà nghiên cứu đã thiết kế hệ thống để tạo ra một vòng lặp đơn giản, sạch sẽ cho phép hình ảnh động chuyển động không ngừng. Phương pháp này hoạt động tốt nhất với các vật thể có chuyển động chất lỏng có thể đoán trước được.

Phương pháp hiện tại chưa hiểu rõ về cách dự đoán phản xạ đối với nước chuyển động hoặc cách nước có thể làm biến dạng các vật thể bên dưới bề mặt. Tuy nhiên, những vấn đề này cũng chính là những vấn đề đã gây trở ngại cho các tác phẩm điện ảnh đầu tiên. Tuy nhiên, sự khác biệt ở đây dường như là trạng thái chuyển động của nước đáng tin cậy hơn nhiều so với việc có thể tạo ra bằng các công cụ phần mềm như Flixel .

“Khi chúng tôi nhìn thấy một thác nước, chúng tôi biết dòng nước sẽ hoạt động như thế nào. Điều này cũng đúng với lửa hoặc khói. Những loại chuyển động này tuân theo cùng một tập hợp các quy luật vật lý và thường có những dấu hiệu trong hình ảnh cho chúng ta biết mọi thứ sẽ chuyển động như thế nào, ”Hołyński nói. “Chúng tôi muốn mở rộng công việc của mình để hoạt động trên nhiều đối tượng hơn, như tạo hình động cho mái tóc của một người đang bay trong gió. Tôi hy vọng rằng cuối cùng những hình ảnh mà chúng tôi chia sẻ với bạn bè và gia đình sẽ không phải là hình ảnh tĩnh. Thay vào đó, tất cả chúng sẽ là những hình ảnh động giống như những hình ảnh mà phương pháp của chúng tôi tạo ra. ”

Chú thích: Palouse Falls Nhà cung cấp hình ảnh: Sarah McQuate / Đại học Washington
Trình phát videohttps://petapixel.com/assets/uploads/2021/06/video2.mp400:0000:0000:03Sử dụng các phím Mũi tên Lên / Xuống để tăng hoặc giảm âm lượng.

Nhóm đã chia sẻ một số ví dụ về các chất lỏng khác nhau di chuyển bằng cách sử dụng thuật toán học sâu mới và sự khác biệt chính giữa kết quả của nó và ảnh động không chỉ là biểu hiện chuyển động tốt hơn mà còn giảm nhận thức về thời điểm hoạt ảnh lặp lại. Nhóm chưa nói rõ họ dự định làm gì với công nghệ này, nhưng họ sẽ trình bày cách tiếp cận tại Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu vào ngày 22 tháng 6.

Trình phát videohttps://petapixel.com/assets/uploads/2021/06/11.mp400:0000:0000:06Sử dụng các phím Mũi tên Lên / Xuống để tăng hoặc giảm âm lượng.