Marek Meissner, ISBiznes.pl: DeepSeek wcale nie wprowadza rewolucji technologicznej

– Oficjalnie wygląda to tak, że DeepSeek obniżył koszty trenowania modeli językowych ze 100 milionów dolarów do 5 milionów. Wymagania sprzętowe spadły ze 100 tys. jednostek do 2 tys. jednostek procesowych. Innowacyjne podejście DeepSeek miało polegać na mniejszej precyzji obliczeń, czyli zamiast liczb zapisywanych na 32 bitach, zostały użyte liczby ośmiobitowe, a to zmniejsza zużycie pamięci o 75% – powiedział Marek Meissner, dziennikarz ISBiznes.pl w cotygodniowym komentarzu dla ISBnews.TV.

Podał, że multitoken pozwala na przetwarzanie całych fraz zamiast pojedynczych słów, co dwukrotnie przyspiesza działanie przy 90%-owej dokładności. Spółka wprowadziła system ekspertów, używają wyspecjalizowanych modułów aktywowanych wtedy, kiedy są potrzebne, a cała technologia jest open source i osiągnięta z zespołem mniejszym niż 200 osób. Meissner podkreślił, że należy jednak to poddać weryfikacji.
DeepSeek wcale nie obniżył kosztów trenowania modeli językowych. Podany koszt dotyczył pojedynczego etapu trenowanego. Zatem nie będzie to wcale 5 mln dolarów, a jako wielokrotność może być to nawet 50 mln dolarów. Zauważył również, że nie zmieniły się wymagania sprzętowe trenowania całych modeli, ponieważ to są dane dla jednego etapu, oznacza to mniejszą precyzję obliczeń: 8 bitów vs 32 bitów, a w kluczowych momentach dalej 32. Jak twierdzi – przełomu nie ma.

Po więcej informacji zachęcamy do obejrzenia materiału wideo.