Silikon Vadisi Çin malı yapay zeka modelini alkışlıyor
Silikon Vadisi, Çinli bir yapay zeka şirketinin programcılarının daha az gelişmiş çipler kullanmalarına rağmen Open AI gibi Amerikalı rakipleriyle nasıl boy ölçüşebildiğini dikkate izliyor.
Daha az sayıda ve daha az gelişmiş çiplerle çalışan Çinli DeepSeek’in yapay zekası ABD’li rakiplerini zorluyor
Dünya sıralamasında performans açısından ilk 10’a giren Çinli DeepSeek şirketinin yapay zeka modelleri Washington'un ihracat kısıtlamalarının Çin'deki hızlı gelişmeleri engellemekte zorlandığını ortaya çıkardı.
The Wall Street Journal gazetesinin haberi göre DeepSeek 20 Ocak'ta karmaşık problemlerin çözümü için tasarlanmış özel modeli R1’in lansmanı yaptı.
ABD B Başkan Trump'a danışmanlık yapan Silikon Vadisi girişim sermayedarı Marc Andreessen Cuma günü yaptığı bir sosyal medya paylaşımında “Deepseek R1 şimdiye kadar gördüğüm en şaşırtıcı ve etkileyici atılımlardan biri” dedi.
DeepSeek’i ülkesinin yapay zeka hamlesinin yüzü haline gelen hedge-fon yöneticisi Liang Wenfeng liderliğindeki bir ekip geliştirdi. Liang 20 Ocak'ta biraraya geldiği Çin başbakanıyla bir araya geldi ve ülkenin bu alanda faaliyet gösteren şirketlerinin ABD ile aradaki farkı nasıl kapatabileceğini anlattı.
Teknolojisi OpenAI ve Google'ın gerisinde
Uzmanlara göre DeepSeek'in teknolojisi hala OpenAI ve Google'ın gerisinde. Ancak daha az sayıda ve daha az gelişmiş çipler kullanmasına ve bazı durumlarda ABD'li geliştiricilerin gerekli gördüğü adımları atlamasına rağmen soluğunu enselerinde hissettikleri bir rakip.
DeepSeek, en son modellerinden birini eğitmenin 5,6 milyon dolara mal olduğunu açıkladı. Yapay zeka geliştiricisi Anthropic'in CEO'su Dario Amodei geçen yıl bir model oluşturmanın maliyetinin 100 milyon ila 1 milyar dolar aralığında olduğunu söylemişti. Yapay zeka donanımı üreten şirketler ise DeepSeek’ten övgüyle bahsediyorlar. Onlara göre DeepSeek'in yapay zeka modelinin arkasındaki yazılım kodunu ücretsiz olarak sunduğu açık kaynak modelleri “Çok havalı”.
Ancak Çin’deki baskıcı hava Deepseek’in geliştirdiği ürünlerde de kendisini gösteriyor. Örneğin DeepSeek'in Aralık ayında piyasaya sürdüğü son Amiral Gemisi V3 modelini kullananlar, Çin ve lideri Xi Jinping hakkındaki hassas siyasi sorularının cevaplanmasının reddedildiği gördüler. V3 bazı durumlarda, ChatGPT'nin yaptığı gibi hükümeti eleştirenlerin bakış açısını da dahil etmek yerine Pekin'in resmi propagandası doğrultusunda yanıtlar veriyor.
San Fransisco merkezli bir yapay zeka donanım şirketinin kurucularından Barrett Woodside “Bu yarım yamalak bir Çin Halk Cumhuriyeti sansürü. Ancak diğer geliştiriciler kodu serbestçe değiştirebildiği için bu kaldırılabilir” diyor.
Elon Musk'ın xAI'sinden Grok'u geride bıraktı
DeepSeek’e göre, R1 ve V3 önde gelen Batılı modellerden daha iyi ya da onlara yakın performans gösteriyor. Cumartesi günü itibariyle bu iki model, Berkeley'deki California Üniversitesi araştırmacıları tarafından chatbot performansını değerlendiren bir platform olan Chatbot Arena'da ilk 10'da yer alıyordu. Google Gemini modeli en üst sırada yer alırken, DeepSeek Anthropic'in Claude'unu ve Elon Musk'ın xAI'sinden Grok'u geride bıraktı.
DeepSeek, sermaye piyasalarındaki işlemerinde yapay zekadan yararlanmasıyla bilinen 8 milyar dolarlık varlığa sahip Hangzou merkezli Çinli bir hedge-fon ve yapay zeka şirketi olan High-Flyer'ın yapay zeka araştırma biriminden doğdu. Şirketin kurucularıda Liang 2019'da yaptığı bir konuşmada “İnsanların yatırım kararı vermesi bir sanattır ve bunu sadece içlerinden geldiği gibi yaparlar. Bilgisayar programları bu tür kararlar aldığında, bu bir bilimdir ve en uygun çözüme sahiptir” demişti.

Kendisini mühendis olarak tanımlıyor
Çin’in yapay zeka hamlesinin yüzü haline gelen Liang 1985 yılında doğmuş ve ülkenin güneydoğusundaki Guangdong eyaletinde büyümüş. Ülkenin en prestijli üniversitelerinden Zhejiang’ı Üniversitesi'ne gitti ve Türkçe’de "makine görüşü" olarak çevrilebilecek bir terimdir. Basitçe, bir bilgisayarın veya makinenin görüntüleri analiz etme ve bu görüntülerden anlam çıkarma yeteneğini ifade eden makine görüşü alanında uzmanlaşmış. Mezun olduktan birkaç yıl sonra, 2015 yılında iki üniversite arkadaşıyla birlikte High-Flyer'ı kurmuş.
Liang, kendisine yakın kişilere göre, sermaye piyasalarında işlem yapan biri yerine bir mühendis olarak kabul edilmeyi tercih ediyor. Kurucuları arasında bulunduğu High-Flyer, derin öğrenmeyi bilgisayarlarda çok büyük hacimdeki menkul kıymetlerin alım satımında kullanılması alanında Çin'de öncü oldu. İnsan beynini model alan bu teknik, bilgisayarların daha çeşitli veri türlerini analiz etmesine olanak tanıyor.
DeepSeek'in amiral gemisi modeli ücretsiz olsa da, şirket kendi uygulamalarını DeepSeek'in modeline ve bilgi işlem altyapısına bağlayan kullanıcılardan ücret alıyor. Örneğin müşterilerin sorularına yapay zekanın yanıtlaması DeepSeek’in teknolojiden yararlanmak isteyenler bir ücret ödüyorlar.
Geçen yılın başlarında bu hizmet için fiyatlarını diğer satıcıların çok altına çeken DeepSeek Çin’de bu alanda bir fiyat savaşının başlamasını neden oldu.
Finansal getirileri tahmin için üretken yapay zeka kullanan Silikon Vadisi merkezli bir girişimin kurucu ortağı olan Anthony Poo, şirketinin eylül ayında Anthropic'in Claude modelinden DeepSeek'e geçtiğini söyledi. Testler DeepSeek'in dörtte bir maliyetle benzer bir performans sergilediğini
DeepSeek’in yayınladığı teknik bir raporda, şirketin V3 modelini eğitmek için 2.000'den fazla Nvidia çipinden oluşan bir küme kullandığı başka şirketlerin ise benzer büyüklükteki modelleri eğitmek için on binlerce çip kullanıldığı ifade ediliyor. Ancak bazı araştırmacılar DeepSeek’in modelinin, uzun konuşmaların bağlamını takip gibi bazı konularda edaha pahalıya eğitilen rakiplerinin bazı yeteneklerinden yoksun olduğunu öne sürüyorlar.
Şirketin kısa süre önce lansmanını yaptığı R1, insan denetimi olmadan otomatik olarak öğrenebilen, kendini geliştirebilen bir büyük dil modeli. Yalnızca 60 günlük geliştirme süreci ve yaklaşık 5,6 milyon dolarlık bütçeyle gerçekleyştirilmiş. Bu başarının ardında yatan temel unsurlardan biri, FP8 (kayan nokta 8 bit) eğitimi. Bu yöntem, modeli çok daha az GPU ile eğitme imkânı tanıyarak maliyetleri düşürdü ve enerji verimliliğini artırdı.
DeepSeek'in başarısı, yalnızca teknolojik yeniliklerden değil, aynı zamanda Çin'in dış politikadaki zorluklara karşı gösterdiği stratejik adaptasyondan kaynaklanıyor. ABD'nin Çin'in gelişmiş yapay zeka çiplerine erişimini sınırlama çabaları, Çinli şirketleri inovasyon ve verimlilik üzerine yoğunlaşmaya teşvik etti. DeepSeek'in geliştirdiği bu ekonomik model, Amerikan teknoloji devlerinin yüksek maliyetli altyapılarına karşı bir alternatif olarak değerlendiriliyor.