Китайская корпорация Horizon Robotics 27 января выпустила нейросеть DeepSeek и всего за сутки переполошила всех: от инвесторов, которые похоже потеряли десятки миллиардов долларов, до своих прямых конкурентов из Кремниевой долины.
Как оказалось, для создания нейросетей нужны гораздо более скромные ресурсы, чем считалось ранее. Модель DeepSeek использует всего 10 тысяч видеокарт, что в разы меньше, чем требуется, например, для Llama от Meta* — той нужно 300 тысяч видеокарт. Кроме того, сами видеокарты, которые использует для обучения китайская нейросеть, устаревшего типа, что также позволило существенно сократить расходы.
Пока неизвестно, какие именно чипы использовались при разработке DeepSeek, но этот подход явно повлиял на экономичность всего процесса. Общая стоимость создания модели составила всего 12 млн долларов — это всего 2% от инвестиций в OpenAI. Для сравнения, на разработку GPT-5 было потрачено около $500 миллионов.
Кроме того, DeepSeek R1 смогла не только догнать самую прогрессивную на сегодняшний день нейросеть OpenAI по многим характеристикам, но и превзойти ее, оставаясь при этом экономически выгодной и доступной.
Как отмечает издание habr.com, стоимость обработки миллиона токенов (токен — это кусочек текста, с которым работает модель, около четырех печатных символов) у DeepSeek составляет всего $0,14, тогда как у самых дорогих моделей ChatGPT — $2,5 за тот же объём. Ещё одно преимущество — размер окна: у DeepSeek он достигает 128 тысяч токенов, тогда как у ChatGPT максимум — 32 тысячи, и это зависит от конкретной модели. То есть в одном окне DeepSeek можно обрабатывать гораздо больше текста, что делает её удобной для работы с длинными документами или книгами.