Categories: Phong Thuỷ

Decode Sora – AI tạo video lan truyền của OpenAI

Published by

Sora không tạo video bằng cách ghép nhiều ảnh lại với nhau mà hiển thị pixel theo thời gian thực dựa trên sự hiểu biết về chuyển động vật lý.

Sora của OpenAI được giới chuyên môn đánh giá là công cụ AI cho ra những thước phim có chất lượng tốt nhất hiện nay. Tin tức ABC Đánh giá : “Sora đánh dấu bước nhảy vọt trong lĩnh vực chuyển đổi văn bản thành video” .

Trong khi đó, Thời gian cho biết trước khi Sora xuất hiện, thế giới đã có những mẫu AI làm video như Runway và Pika. Tuy nhiên, điểm yếu của họ là chất lượng video kém và thời lượng ngắn. Trong khi đó, Sora có thể tạo những video dài 60 giây với bối cảnh phức tạp nhưng vẫn đảm bảo độ mượt mà, logic dù còn một số lỗi.


Video do Sora tạo từ dòng chữ: Một đàn máy bay giấy bay qua rừng rậm, len lỏi quanh những tán cây như đang di cư. (Nguồn: OpenAI).

Bước đột phá của OpenAI

OpenAI chưa tiết lộ mô hình tạo video từ văn bản cho công chúng. Trong phần mô tả, công ty cũng đề cập rất ít về công nghệ đằng sau nó và nguồn dữ liệu được sử dụng để đào tạo.

công ty đằng sau ChatGPT cho biết : “Sora sử dụng mô hình khuếch tán, tạo video bằng cách bắt đầu bằng một video có độ phân giải thấp, nhiễu, sau đó loại bỏ nhiễu qua nhiều bước cho đến khi đầu ra đạt yêu cầu” . về cách Sora làm việc. Nhờ đó, AI này có khả năng tạo toàn bộ video cùng một lúc thay vì các đoạn ngắn và kết hợp chúng như các công cụ khác. Thuật toán cho phép mô hình dự đoán nhiều khung hình cùng lúc để đảm bảo chủ thể vẫn nguyên vẹn trong khi các chi tiết khác được tái tạo.

Mô phỏng cách Sora tạo video bằng cách loại bỏ nhiễu thông qua thuật toán. (Nguồn: Trung bình).

Theo OpenAI, Sora được xây dựng dựa trên nghiên cứu trước đây về tạo hình ảnh Dall-E và AI tạo văn bản ChatGPT. Tuy nhiên, Tiến sĩ Jim Fan, nhà nghiên cứu AI cấp cao tại Nvidia, nhận xét: “Nếu bạn vẫn nghĩ Sora chỉ là một món đồ chơi sáng tạo như Dall-E thì hãy nghĩ lại. Đó là một mô hình vật lý.” tìm hiểu các hệ thống dựa trên dữ liệu có thể mô phỏng cả thế giới thực và ảo.

Ông lưu ý rằng Sora là một mô hình máy biến áp khuếch tán từ đầu đến cuối. Bí mật của nó nằm ở khả năng hiểu sâu văn bản trước khi chuyển nó thành hình ảnh 3D. Từ đây, mô hình tiếp tục đưa ra dự đoán dựa trên các quy tắc chuyển động vật lý để biến đổi từng pixel cho video một cách chính xác nhất có thể.

“Trình giả lập của Sora không chỉ dựa trên dữ liệu đã học mà nó còn có thể tự đào tạo, tìm ra kết quả chính xác nhất để tiếp tục sáng tác,” Phân tích quạt. Ông nói, điều khiến Sora trở nên khác biệt là nó không tạo ra video bằng cách tập hợp một chuỗi các hình ảnh rời rạc mà hiển thị các tập hợp pixel trong thời gian thực.

Sora tung ra cùng lúc 5 video dựa trên yêu cầu miêu tả khung cảnh với 5 góc nhìn. Tác giả Bill Peebles cho biết ông không can thiệp mà AI tự động ghép lại đoạn video hoàn chỉnh.

Điều này khiến giới chuyên gia liên tưởng đến mô hình AI giải toán Olympic của 3 bác sĩ Việt Nam được công bố trên tạp chí khoa học. Thiên nhiên tháng trước. Trong phần mô tả hoạt động kỹ thuật của Sora, OpenAI cũng khẳng định mô hình tạo video này sẽ làm nền tảng để AI hiểu và mô phỏng thế giới thực.

“Chúng tôi tin rằng đây sẽ là một cột mốc quan trọng hướng tới việc đạt được AGI,” OpenAI đã tuyên bố.

Điểm yếu của Sora

Dựa theo Trung bình , tổng hợp văn bản thành video là một nhiệm vụ đầy thách thức vì nó đòi hỏi AI phải hiểu ý nghĩa và ngữ cảnh của văn bản cũng như các khía cạnh khác của hình ảnh, video và chuyển động vật lý. Một trong những lý do OpenAI giới hạn Sora trong một nhóm thử nghiệm nhỏ là vì nó vẫn còn một số hạn chế.

OpenAI thừa nhận : “Sora có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp. Nó có thể không hiểu đúng các tuyên bố về nguyên nhân và kết quả.” .

Ví dụ: công ty Sora có thể tạo video về một người cắn một chiếc bánh quy, nhưng chiếc bánh quy vẫn nguyên vẹn và không có vết cắn. Nó cũng có thể gây nhầm lẫn các chi tiết trái, phải, trước và sau, ví dụ như hình ảnh một người đàn ông đang chạy lùi trên máy chạy bộ.

Sora tạo ra hình ảnh một người đàn ông đang chạy lùi trên máy tập thể dục. (Nguồn: OpenAI).

Tuy nhiên, theo các nhà phân tích, mối quan tâm lớn nhất của Sora nằm ở sự đột phá của OpenAI. Các video được tạo ra chân thực đến mức nhiều người lo ngại mô hình này có thể bị lạm dụng để phát tán nội dung sai sự thật, vi phạm quyền riêng tư, phân biệt chủng tộc và thậm chí ảnh hưởng đến kết quả của các cuộc thi. tranh luận. bỏ phiếu. Dù bị cấm sử dụng Sora để tạo nội dung xấu nhưng công ty vẫn chưa tìm ra cách nhận biết hình ảnh nào do AI tạo ra và hình ảnh nào là thật để dán nhãn, phân loại.

Fred Havemeyer, người đứng đầu bộ phận nghiên cứu AI của Macquarie, cho rằng khả năng đáng kinh ngạc của Sora sẽ làm dấy lên nhiều lo ngại liên quan đến đạo đức và tác động xã hội. Theo ông, tác động tiêu cực của AI sẽ là chủ đề được tranh luận nhiều nhất vào năm 2024 và Sora là phát súng mở màn.

Dựa theo Thời báo New York OpenAI vẫn cẩn thận che giấu thông tin về nguồn gốc nội dung dùng để đào tạo Sora và bao nhiêu nội dung đó có bản quyền. “Có thể họ muốn giữ bí mật để duy trì lợi thế cạnh tranh, nhưng cũng có thể họ sợ bị kiện liên quan đến bản quyền, tương tự như rắc rối mà ChatGPT đang gặp phải” trang này viết.

Tuy nhiên, các nhà phân tích đều đồng ý rằng Sora đang mở ra một kỷ nguyên mới về sáng tạo video bằng AI, tương tự như cách ChatGPT xuất hiện. Khi chính thức được thương mại hóa, nó có thể tác động trực tiếp đến ngành công nghiệp điện ảnh, truyền thông và thiết kế trò chơi.

Reece Hayden, nhà phân tích cấp cao tại ABI Research, cho biết ở trên Tin tức CBS rằng trong tương lai, AI như Sora thậm chí sẽ thay đổi mô hình hoạt động của các nền tảng như Netflix khi người dùng có thể chỉnh sửa phần kết của câu chuyện. Hoặc tạo phim của riêng bạn chỉ bằng những dòng văn bản.

  • Chỉ với một lệnh, AI sẽ tạo ra những video chân thực như thế này
  • Gặp gỡ Kevin Frans – thực tập sinh tại Open AI của Elon Musk khi mới 15 tuổi
  • Cô gái dùng AI để nói chuyện với chính mình ngày xưa

Chia sẻ

This post was last modified on 24/02/2024 23:28

Published by

Bài đăng mới nhất

Dịch vụ thành lập Công Ty, Doanh Nghiệp Tư Nhân – 230.000Đ

Giới thiệu dịch vụ Bạn đang ấp ủ ý tưởng kinh doanh và muốn biến…

2 tháng ago

Dịch vụ thành lập công ty, doanh nghiệp

Thông báo đề nghị cập nhật, bổ sung thông tin đăng ký doanh nghiệp. –…

2 tháng ago

Dịch vụ thành lập công ty, doanh nghiệp giá rẻ chất lượng, uy tín

Thông báo đề nghị cập nhật, bổ sung thông tin đăng ký doanh nghiệp.– Cấp…

2 tháng ago

Những mỹ nữ bị gắn mác bình hoa di động

Nữ diễn viên Cúc Tịnh Y được mệnh danh là "vẻ đẹp 4.000 năm một…

4 tháng ago

Nếu làm IVF, bạn sẽ mang thai đôi và được lựa chọn giới tính thai nhi?

Xu hướng thụ tinh trong ống nghiệm (IVF) hiện nay ngày càng trở nên phổ…

4 tháng ago

Ô tô đắt nhất thế giới giá 3.600 tỷ đồng không phải Ferrari hay Lamborghini, không mạ vàng và đính kim cương

Chiếc xe này không hề dát vàng hay đính kim cương nhưng vẫn được bán…

4 tháng ago