6 CÔNG CỤ AI TẠO VIDEO TỪ VĂN BẢN

Bên cạnh lĩnh vực tạo hình ảnh từ văn bản, tạo video từ văn bản cũng là một lĩnh vực cực kì nổi bật trong năm 2024. Chỉ sau hai năm, lĩnh vực này đã đạt được những tiến bộ đáng kể, được chuyên gia đánh giá cao về chất lượng siêu thực. Ngoài Sora của OpenAI đang tạo nên cơn sốt toàn cầu, nhiều mô hình trí tuệ nhân tạo khác như Lumiere, VideoPoet cũng nhận được đánh giá cao.

Mặc dù vẫn còn một số hạn chế chưa được khắc phục hoàn toàn, các công cụ trí tuệ nhân tạo đã thể hiện khả năng ấn tượng trong việc kiểm soát và tạo ra những video đa dạng với nhiều phong cách khác nhau.

1. Sora

Sora, sản phẩm mới ra mắt của OpenAI – “cha đẻ” của ChatGPT, đang thu hút sự chú ý của cộng đồng công nghệ. Với khả năng “thấu hiểu ngôn ngữ sâu sắc” và tạo ra các nhân vật có thể “thể hiện cảm xúc sinh động”, Sora hứa hẹn mang đến một cuộc cách mạng trong lĩnh vực sáng tạo video.

Clip minh họa cho thấy Sora có thể tạo ra những nhân vật với biểu cảm và hành động chân thực, mượt mà.

Sự chân thực của sản phẩm từ Sora cũng là đề tài được thảo luận sôi nổi trên nhiều hội nhóm mạng xã hội. Tuy nhiên, trước khi đưa Sora ra công chúng, OpenAI phải thực hiện nhiều biện pháp cẩn trọng để đảm bảo an toàn. Nhà phát triển thừa nhận rằng Sora vẫn còn một số vấn đề, như việc giữ cho hình ảnh chuyển động mượt mà hoặc phân biệt được giữa bên trái và bên phải.

2. Lumiere

Google đặt tên cho công nghệ sản xuất video của mình là Lumiere, sử dụng mô hình khuếch tán mang tên Space-Time-U-Net (STUNet). Lumiere có khả năng phân tích chi tiết trong video, theo dõi cả không gian và thời gian của chúng để hiểu cách chúng chuyển động và thay đổi đồng thời. Điều này giúp quá trình vận hành của Lumiere diễn ra mượt mà.

Hiện tại, Lumiere chưa sẵn sàng để ra mắt công chúng, nhưng Google đã thể hiện khả năng phát triển mô hình AI vượt trội so với các công cụ hiện tại như Runway hay Pika. Thực tế, trong khoảng hai năm gần đây, Google đã có những tiến bộ đáng kể trong lĩnh vực công nghệ video game sử dụng trí tuệ nhân tạo.

3. Video Poet

VideoPoet là một công cụ đầy tiềm năng trong lĩnh vực sáng tạo nội dung video. Công cụ này có thể giúp người dùng tạo ra video một cách nhanh chóng, dễ dàng và hiệu quả, mà không cần đến kỹ năng chuyên môn cao.

VideoPoet được đào tạo từ một nguồn lớn dữ liệu bao gồm video, ảnh, âm thanh và văn bản khổng lồ. Được xây dựng với khả năng thực hiện nhiều tác vụ tạo video khác nhau, VideoPoet có khả năng chuyển đổi đầu vào từ văn bản, ảnh, video thành nội dung video, làm nổi bật video theo phong cách, và thậm chí chuyển đổi video thành âm thanh.

4. Emu Video

Một công ty công nghệ hàng đầu khác – Meta, cũng đã giới thiệu mô hình AI của mình với tên gọi Emu Video. Công cụ này thực hiện quy trình làm việc theo hai bước: trước tiên, nó chuyển đổi hình ảnh thành văn bản, sau đó sử dụng cả văn bản và hình ảnh để tạo ra video.

Những đánh giá từ các chuyên gia tham gia vào chương trình này cho thấy 81% trong số họ ưa thích Emu Video hơn Imagen Video của Google, 90% lựa chọn công cụ này thay vì Pyoco (Nvidia), và 96% nhận xét rằng Emu Video vượt trội hơn Make-A-Video của chính Meta. Điều này thể hiện mô hình Emu Video không chỉ cạnh tranh mạnh mẽ với các đối thủ trực tiếp từ Google và Nvidia, mà còn “vượt lên” so với các lựa chọn khác như RunwayML và Pika Labs, theo thông tin từ Analyticsindiamag.

5. Phenaki

Phenaki Video là một mô hình AI mới cho phép tạo video từ văn bản. Mô hình này được phát triển bởi đội ngũ Phenaki, sử dụng Mask GIT – một công cụ do Meta AI phát triển để sản xuất video từ văn bản trong PyTorch.

Điểm độc đáo của Phenaki Video: Mô hình có thể tạo video từ nhiều loại văn bản khác nhau, bao gồm mô tả chi tiết, tóm tắt nội dung, hoặc chỉ đơn giản là một vài từ khóa. Phenaki Video cung cấp giao diện trực quan, dễ thao tác, giúp người dùng tạo video một cách nhanh chóng và dễ dàng. Mô hình có thể tạo video có độ dài tối đa hai phút.

Xem thêm: Kinh doanh sản phẩm số tạo thu nhập thụ động với ChatGPT và AI

6. CogVideo

CogVideo là một mô hình AI tạo video được phát triển bởi một nhóm nhà nghiên cứu từ Đại học Thanh Hoa, Trung Quốc. Mô hình này được đào tạo trên dữ liệu quy mô lớn và có khả năng tạo ra những video ấn tượng từ văn bản mô tả.

CogVideo được xây dựng dựa trên mô hình CogView2, một mô hình chuyển văn bản thành hình ảnh được huấn luyện trước. Nhờ vậy, CogVideo có thể tận dụng những kiến thức mà CogView2 đã học được để tạo ra những video chân thực và sinh động hơn.

Nghệ sĩ Glenn Marshall đã thử nghiệm CogVideo và tạo ra một đoạn video có tên The Crow. Đoạn video này đã nhận được nhiều đánh giá tích cực và thậm chí còn được tham dự giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).

Tham khảo khoá học: Combo AI Video Xây Kênh

Chia sẻ bài viết