Gemini Omni Flash canlı: metin, ses ve görüntüyü videoya dönüştürüyor — ama neden sadece 10 saniyelik sınır?

Google'ın bugün yayımladığı Gemini Omni Flash, metin, ses, görüntü ve videoyu aynı anda işleyerek tutarlı video üretebilen yapay zeka modeli olarak başladı. Gemini Plus, Pro ve Ultra aboneleri bugünden itibaren erişebiliyor — ancak üretebilecekleri videolar 10 saniyeyle sınırlı. YouTube Shorts'ta ücretsiz kullanım da açıldı.

Omni Flash bugün başlıyor: 10 saniyelik video sınırı tasarım kararı

Gemini Omni Flash, bugün itibariyle Gemini uygulaması, YouTube Shorts ve Google Flow'da aktif. Tüm Google AI Plus, Pro ve Ultra aboneleri bu modele erişebiliyor. YouTube Shorts'ta ücretsiz kullanım mümkün.

Üretilen tüm videolar 10 saniyeyle sınırlı, ancak bu sınırlama modelin teknik kapasitesinden kaynaklanmıyor. Google bu kararı kasıtlı olarak bir "tasarım kararı" olarak aldı. Şirket, 10 saniyelik bir çıktının hem güvenlik hem de hesaplama maliyeti açısından daha kontrol edilebilir olduğunu düşünüyor. Deepfake endişeleri ve sorumlu yapay zeka ilkeleri, bu karar üzerinde etkili olmuş görünüyor.

10 saniye YouTube Shorts formatına tam olarak uyuyor ve sosyal medya içerik üreticileri için pratik bir çözüm sunuyor. Ancak uzun biçimli video üretimi veya profesyonel prodüksiyon ihtiyaçları için bu limit ciddi bir engel. Google, daha yüksek performans göstermesi beklenen Omni Pro sürümünün çıkış tarihini henüz açıklamadı.

Metin, ses, görüntü, videoyu aynı anda işleyen ilk model

Gemini Omni'nin öne çıkan özelliği, metin, ses, görüntü ve video olmak üzere herhangi bir giriş kombinasyonundan video oluşturabilmesi. Ancak asıl yenilik, bu girdileri basitçe birleştirmesinde değil, bunların tamamında mantık yürüterek tutarlı çıktı üretmesinde.

Google DeepMind CEO'su Demis Hassabis, Omni'yi AGI'ye (Artificial General Intelligence) giden önemli bir adım olarak tanımladı. Bu iddia cesur — ve abartılmış olabilir.

Önceki video üretim modellerinden farklı olarak, Google Veo gibi araçlar yalnızca metinden videoyu dönüştürebiliyordu. Omni ise hem girdi hem de çıktı açısından çok modlu. Bir metin komutu, bir ses kaydı, bir görüntü ve bir video parçasını aynı anda anlayıp bunları tutarlı bir sahneye dönüştürebiliyor. Model, resimler, videolar ve metinlerden stil, hareket ve efekt uygulayarak referansları bir araya getirebilir.

Pratik olarak: Kullanıcı bir sahne tasvir eden bir metin yazabilir, istediği görsel stili bir başka videodan örnek olarak gösterebilir, arka plan için bir görüntü yükleyebilir ve sesi ayrı bir kaynaktan ekleyebilir. Omni, bu farklı girdileri yorumlayarak bunları tek bir uyumlu video sahnesinde birleştiriyor.

Metin düzenleme ve fizik anlayışı

Omni'nin video üretiminde fark yaratan bir özelliği, yerçekimi, kinetik enerji ve akışkan dinamikleri gibi fizik kavramlarını anlayarak daha gerçekçi sahneler oluşturması. Bir nesnenin düşüşü, suyun akışı veya bir aracın hareket dinamiği, modelin fizik anlayışı sayesinde daha inandırıcı görünüyor. Model ayrıca tarihsel olguları bağlam olarak anlayabiliyor.

Ancak Omni'yi kullanırken kritik bir nokta var: metin düzenleme komutları çok spesifik olmalı. Aksi takdirde model istenmeyen öğeleri değiştirebilir veya kullanıcının korumak istediği öğelere müdahale edebilir.

Kullanıcılar doğal dil komutları kullanarak videoları konuşma yoluyla düzenleyebilir. Arka planı değiştirme, stil değiştirme, açı ayarlama gibi işlemleri sohbet yoluyla yapabiliyorlar. Ancak örneğin "arka planı değiştir" yerine "karakteri olduğu gibi bırak, sadece arka plan rengini mavi yap" gibi daha ayrıntılı komutlar vermek gerekiyor.

Deepfake koruması: SynthID filigranı ve biometrik avatar kaydı

Google, Omni'yle birlikte deepfake riskini azaltmaya yönelik iki koruma mekanizması devreye aldı.

İlki, tüm Omni tarafından oluşturulan videolara otomatik olarak eklenen SynthID dijital filigranı. Bu filigran algılanamayan ve şifrelidir — video üzerinde görsel olarak bozulma yaratmıyor. Ancak Gemini uygulaması, Chrome'daki Gemini ve Google Search üzerinden doğrulanabilir.

Bu, bir videonun Omni tarafından üretilip üretilmediğini kontrol etmek isteyen kullanıcılar ve platformlar için bir şeffaflık katmanı sunuyor. Filigranın üzerine yazılması, kaldırılması veya atlatılmasına yönelik saldırıların başarılı olup olmayacağını ise henüz test edilmedi.

İkinci koruma katmanı avatar oluşturma sürecinde devreye giriyor. Omni Flash ile kullanıcılar dijital avatarlar (kendilerinin dijital benzerlerini) oluşturabiliyor. Ancak sahteciliği önlemek için kullanıcılar kendilerini kaydederken bir dizi rakam söylemek zorunda. Bu biometrik kayıt, kullanıcının gerçekten kendi görüntüsünü kullanmasını sağlamayı hedefliyor.

Google bu özelliği şu an sorumlu bir başlatış için test ediyor — yani henüz tüm kullanıcılar avatar oluşturamıyor.

Kurumsal API: reklam verenler ve yapımcılar önümüzdeki haftalarda erişim kazanıyor

Omni'nin bireysel kullanıcılar için sunduğu özellikler etkileyici olsa da, kurumsal API ekleme potansiyeli önemli. Google, Omni API'sini önümüzdeki haftalarda reklam verenler, yapımcılar ve yazılım geliştiriciler için erişime açacak.

Bir reklam ajansı, mevcut görsel varlıklarını ve marka rehberlerini girdi olarak kullanarak hızlı şekilde farklı varyasyonlarda video içerik üretebilir. Bir film yapımcısı, storyboard aşamasında sahneleri görselleştirmek için Omni'yi kullanabilir. Sosyal medya yönetim araçları, e-öğrenme platformları, içerik üretim yazılımları gibi ürünler Omni'yi kendi iş akışlarına dahil edebilir.

Ancak kurumsal müşteriler API'ye henüz erişmediği için, gerçek üretim ortamlarında modelin performansı belirsiz. Özellikle 10 saniyelik sınırlamanın API erişiminde kalkıp kalkmayacağı veya farklı bir fiyatlandırma modeliyle aşılıp aşılamayacağı açık değil.

Omni Pro'nun belirsiz piyasaya çıkış tarihi

Gemini Omni ailesi iki sürüm içeriyor: Flash ve Pro. Bugün başlayan Omni Flash, ilk erişim noktası. Ancak Google henüz Omni Pro modelinin ne zaman piyasaya çıkacağını açıklamadı.

Omni Pro'nun daha iyi performans göstermesi ve profesyonel kullanıcılar için tasarlanması bekleniyor — muhtemelen daha uzun video sürelerine, daha yüksek çözünürlüğe ve daha gelişmiş düzenleme seçeneklerine erişim anlamına geliyor. Ancak piyasaya çıkış tarihinin belirsiz olması, profesyonel içerik üreticilerinin alternatif çözümlerle ilerlemeye devam etmesine yol açabilir.

OpenAI'nin Sora'sı, Runway'in Gen-3'ü ve diğer profesyonel video yapay zeka araçları halihazırda piyasada aktif ve bazıları daha uzun videolar üretebiliyor. Omni Pro'nun gecikmesi, Google'ın bu yarışta avantaj kaybetmesi riskini taşıyor.

Google, Omni Pro'nun fiyatlandırması, erişim modeli (abonelik mi, token bazlı mı) ve kurumsal müşteriler için özel SLA (hizmet düzeyi anlaşması) seçenekleri hakkında da bilgi vermedi.

Kim şimdi deneyebilir, kimler beklemeli

Google AI Plus, Pro veya Ultra aboneliğin varsa, bugünden itibaren Gemini uygulamasından Omni Flash'a erişebilirsin. 10 saniyelik videolar üretebilir, metin, ses, görüntü ve video girdilerini birleştirebilir, düzenleme komutlarıyla sahne ayarlarını değiştirebilirsin. YouTube Shorts'ta ücretsiz kullanım da mümkün.

Profesyonel video prodüksiyonu yapıyorsan veya 10 saniyeden uzun içeriğe ihtiyacın varsa, şimdilik beklemeye devam etmen gerekecek. Omni Pro'nun çıkış tarihi belli olmadığı için, alternatif araçlara yatırım yapmanın daha mantıklı olabileceğini düşün. API erişimi için önümüzdeki haftalarda açıklanacak detayları takip et — özellikle fiyatlandırma ve video süresi sınırlamaları hakkında daha fazla bilgi geldiğinde.

Deepfake riski konusunda hassas bir projede çalışıyorsan, Omni'nin SynthID filigranı ve biometrik avatar kaydı özellikleri değer sunuyor. Ancak bu koruma katmanlarının uzun vadeli teknik direncini henüz test etmediğimizi unutma. Ürettiğin içeriği doğrulamak için SynthID kontrollerini rutin hale getir.

Kısa sosyal medya içeriği üretiyorsan Omni Flash bugün kullanılabilir. Uzun biçimli veya kurumsal proje için ise API detaylarını ve Omni Pro lansmanını bekle.

Gemini Omni Flash canlı: metin, ses ve görüntüyü videoya dönüştürüyor — ama neden sadece 10 saniyelik sınır?

Gemini Omni Flash canlı: metin, ses ve görüntüyü videoya dönüştürüyor — ama neden sadece 10 saniyelik sınır?

Omni Flash bugün başlıyor: 10 saniyelik video sınırı tasarım kararı

Metin, ses, görüntü, videoyu aynı anda işleyen ilk model

Metin düzenleme ve fizik anlayışı

Deepfake koruması: SynthID filigranı ve biometrik avatar kaydı

Kurumsal API: reklam verenler ve yapımcılar önümüzdeki haftalarda erişim kazanıyor

Omni Pro'nun belirsiz piyasaya çıkış tarihi

Kim şimdi deneyebilir, kimler beklemeli

Okumaya devam et

Microsoft'un Xbox işten çıkarması Bethesda oyunlarını erteledi—sendika grev hazırlıklarına başladı

Pokémon Go 10 yıl sonra nasıl hâlâ milyonları sokağa çıkarıyor: mekanik değil, etkinlik stratejisi

Google Tensor G6'da Samsung modemi bırakıyor: FCC belgesi MediaTek geçişini ortaya koydu