Hiện tại, không ai thực sự biết mô hình video tạo sinh nào hữu ích, nhưng điều đó không ngăn cản các công ty như Runway, OpenAI và Meta đổ hàng triệu đô la vào việc phát triển chúng. Sản phẩm mới nhất của Meta được gọi là Movie Gen , và đúng như tên gọi của nó, nó biến lời nhắc văn bản thành video tương đối thực tế có âm thanh… nhưng may mắn là vẫn chưa có giọng nói. Và khôn ngoan thay, họ không phát hành sản phẩm này ra công chúng.
Movie Gen thực chất là một bộ sưu tập (hay “cast” như họ nói) các mô hình nền tảng, trong đó lớn nhất là bit text-to-video. Meta tuyên bố nó hoạt động tốt hơn Gen3 của Runway, phiên bản mới nhất của LumaLabs và Kling1.5, mặc dù như thường lệ, kiểu này chỉ để chứng tỏ rằng họ đang chơi cùng một trò chơi hơn là Movie Gen giành chiến thắng. Các thông số kỹ thuật có thể được tìm thấy trong bài báo mà Meta đưa ra mô tả tất cả các thành phần.
Âm thanh được tạo ra để phù hợp với nội dung của video, ví dụ như thêm tiếng động cơ tương ứng với chuyển động của ô tô, hoặc tiếng thác nước chảy ở phía sau, hoặc tiếng sấm nổ giữa video khi cần thiết. Nó thậm chí sẽ thêm nhạc nếu thấy phù hợp.
Nó được đào tạo trên "sự kết hợp giữa các tập dữ liệu được cấp phép và công khai" mà họ gọi là "độc quyền/nhạy cảm về mặt thương mại" và sẽ không cung cấp thêm chi tiết. Chúng tôi chỉ có thể đoán rằng có rất nhiều video trên Instagram và Facebook, cùng với một số nội dung của đối tác và rất nhiều nội dung khác không được bảo vệ đầy đủ khỏi các trình thu thập dữ liệu — hay còn gọi là "công khai". Terus được cho biết thêm.
Tuy nhiên, mục tiêu rõ ràng mà Meta hướng đến ở đây không chỉ là nắm bắt vương miện “hiện đại” trong một hoặc hai tháng, mà là một cách tiếp cận thực tế, từ đầu đến cuối, nơi một sản phẩm cuối cùng vững chắc có thể được tạo ra từ một lời nhắc ngôn ngữ tự nhiên rất đơn giản. Những thứ như “hãy tưởng tượng tôi là một thợ làm bánh đang làm một chiếc bánh hà mã sáng bóng trong cơn giông bão”.
Ví dụ, một điểm khó khăn đối với các trình tạo video này là chúng thường khó chỉnh sửa như thế nào. Nếu bạn yêu cầu một video về một người nào đó đi bộ qua đường, sau đó nhận ra rằng bạn muốn họ đi từ phải sang trái thay vì từ trái sang phải, thì rất có thể toàn bộ cảnh quay sẽ trông khác khi bạn lặp lại lời nhắc với hướng dẫn bổ sung đó. Meta đang thêm một phương pháp chỉnh sửa đơn giản dựa trên văn bản, trong đó bạn có thể chỉ cần nói "thay đổi nền thành một ngã tư đông đúc" hoặc "thay đổi quần áo của cô ấy thành một chiếc váy đỏ" và nó sẽ cố gắng thực hiện thay đổi đó, nhưng chỉ thay đổi đó.
Chuyển động của máy quay cũng được hiểu chung, với những thứ như "tracking shot" và "pan left" được tính đến khi tạo video. Điều này vẫn khá vụng về so với điều khiển máy quay thực tế, nhưng vẫn tốt hơn nhiều so với không có gì.
Những hạn chế của mô hình này hơi kỳ lạ. Nó tạo ra video rộng 768 pixel, một kích thước quen thuộc với hầu hết mọi người từ 1024×768 nổi tiếng nhưng đã lỗi thời, nhưng cũng gấp ba lần 256, khiến nó phát tốt với các định dạng HD khác. Hệ thống Movie Gen nâng cấp lên 1080p, đây là nguồn gốc của tuyên bố rằng nó tạo ra độ phân giải đó. Không thực sự đúng, nhưng chúng tôi sẽ bỏ qua vì việc nâng cấp có hiệu quả đáng ngạc nhiên .
Thật kỳ lạ, nó tạo ra tới 16 giây video… ở tốc độ 16 khung hình/giây, tốc độ khung hình mà không ai trong lịch sử từng muốn hoặc yêu cầu. Tuy nhiên, bạn cũng có thể tạo 10 giây video ở tốc độ 24 FPS. Hãy dẫn đầu với điều đó!
Còn về lý do tại sao nó không có giọng nói… thì Terus cho rằng có lẽ có hai lý do. Đầu tiên, nó cực kỳ khó. Việc tạo ra giọng nói hiện giờ rất dễ, nhưng việc khớp nó với chuyển động của môi, và chuyển động của môi với khuôn mặt, là một đề xuất phức tạp hơn nhiều. Tôi không trách họ vì đã để lại điều này cho đến sau, vì đó sẽ là trường hợp thất bại trong một phút. Ai đó có thể nói "tạo ra một chú hề đọc Diễn văn Gettysburg trong khi đạp một chiếc xe đạp nhỏ theo vòng tròn" — nhiên liệu ác mộng được chuẩn bị để lan truyền.
Lý do thứ hai có thể là chính trị: đưa ra thứ tương đương với một máy tạo deepfake một tháng trước cuộc bầu cử lớn là… không phải là cách tốt nhất cho quang học. Làm giảm khả năng của nó một chút để nếu những kẻ xấu cố gắng sử dụng nó, nó sẽ đòi hỏi một số công sức thực sự từ phía chúng, là một bước phòng ngừa thiết thực. Người ta chắc chắn có thể kết hợp mô hình tạo ra này với một máy tạo giọng nói và một máy đồng bộ hóa môi mở, nhưng bạn không thể chỉ để nó tạo ra một ứng cử viên đưa ra những tuyên bố hoang đường.
Một đại diện của Meta cho biết khi trả lời câu hỏi của TechCrunch: "Movie Gen hiện chỉ là một khái niệm nghiên cứu AI thuần túy và ngay cả ở giai đoạn đầu này, sự an toàn vẫn là ưu tiên hàng đầu giống như tất cả các công nghệ AI tạo hình khác của chúng tôi".
Không giống như các mô hình ngôn ngữ lớn Llama, Movie Gen sẽ không được công khai. Bạn có thể sao chép các kỹ thuật của nó một phần bằng cách làm theo bài nghiên cứu, nhưng mã sẽ không được công bố, ngoại trừ "bộ dữ liệu nhắc nhở đánh giá cơ bản", tức là bản ghi về những nhắc nhở nào đã được sử dụng để tạo video thử nghiệm.
Chúng tôi là công ty Công nghệ Terus, Terus Technology, Công ty thiết kế website uy tín tại Hồ Chí Minh và cung cấp các dịch vụ liên quan đến digital.