DeepSeek yeni yapay zekası tanıtıldı, uzun süredir merakla beklenen DeepSeek-V3-0324 modelini resmen duyurdu. MIT lisansı ile tamamen ücretsiz olarak kullanıma sunulan model, Hugging Face platformundan indirilebiliyor ve ticari kullanım için tamamen açık durumda.
Peki, DeepSeek’in yeni modeli neler sunuyor? İşte tüm detaylar.
Yeni model, 641 GB boyutunda olmasına rağmen tüketici sınıfı donanımlarda bile sorunsuz çalışabiliyor. Öyle ki, Apple’ın M3 Ultra çipine sahip Mac Studio cihazlarında bile verimli bir şekilde çalıştığı belirtiliyor.
685 milyar parametreye sahip
Mixture of Experts (MoE) mimarisini kullanıyor
Daha az işlem gücüyle yüksek performans sunuyor
MoE mimarisi sayesinde, model yalnızca en gerekli parametreleri aktif hale getirerek işlem süresini azaltıyor. 685 milyar parametreden yalnızca 37 milyarı aktif çalışıyor, bu da büyük dil modellerine kıyasla çok daha verimli bir kullanım sağlıyor.
DeepSeek Yeni Yapay Zekası: Anthropic’in Claude Sonnet 3.5 Modeline Rakip Olabilir
Yapay zeka araştırmacısı Xeophon, DeepSeek-V3-0324’ün özellikle Claude Sonnet 3.5 modeline ciddi bir rakip olabileceğini belirtiyor.
Claude Sonnet 3.5 yalnızca abonelikle erişilebiliyorken, DeepSeek modeli tamamen ücretsiz sunuluyor.
Bu durum, geliştiriciler ve araştırmacılar için büyük bir avantaj yaratıyor.
Açık kaynak olması nedeniyle modifiye edilebilir ve özel projelerde kullanılabilir.
Bu özellikleriyle DeepSeek-V3-0324, açık kaynak büyük dil modeli dünyasında yeni bir dönem başlatabilir.
Yeni Teknolojiler: MLA ve MTP ile Daha Hızlı Çıktılar
DeepSeek-V3-0324, iki önemli yapay zeka teknolojisini içeriyor:
Multi-Head Latent Attention (MLA): Uzun metinler arasında bağlamı daha iyi koruyarak daha anlamlı ve tutarlı yanıtlar üretiyor.
Multi-Token Prediction (MTP): Her adımda birden fazla token üreterek işlem hızını %80 oranında artırıyor.
Apple araştırmacılarından Awni Hannun, DeepSeek-V3-0324’ü Mac Studio üzerinde test ettiğini ve saniyede 20 token hızında çıktı alabildiğini açıkladı. Bu da önceki modellere kıyasla ciddi bir hız artışı anlamına geliyor.
DeepSeek modelleri genellikle insan benzeri ve konuşkan bir üslupla biliniyordu. Ancak kullanıcılar, V3-0324’ün daha teknik ve resmi bir dil kullandığını belirtiyor.
Bu değişiklik, modelin akademik araştırmalar, teknik belgeler ve profesyonel kullanımlar için daha uygun hale gelmesini sağlayabilir.
DeepSeek-V3-0324, açık kaynak yapay zeka modelleri arasında büyük bir adım olarak görülüyor. Ücretsiz erişim, düşük donanım gereksinimi ve yüksek performansı ile birçok geliştirici ve araştırmacının ilgisini çekebilir.
İlgili Haberler:
>> Microsoft Hackerlara Yapay Zekayla Savaş Açtı – Büyük Mücadele Başladı