Под крилото на Китай: DeepSeek готви нов модел с изкуствен интелект

DeepSeek се стреми да се възползва максимално от предимството си. Китайският стартъп предизвика разпродажба за повече от 1 трлн. долара на световните пазари на акции с по-нискобюджетен модел с изкуствен интелект на намалени цени, който надмина много западни конкуренти.

Сега базираната в Ханджоу фирма ускорява пускането на наследника на модела R1 от януари според трима души, запознати с компанията. Deepseek планираше да пусне R2 в началото на май, но сега иска да излезе възможно най-рано, казаха двама от тях, без да предоставят подробности.

Компанията казва, че се надява новият модел да доведе до по-добро кодиране и да може да разсъждава на езици отвъд английския. Подробности за ускорената времева линия за пускането на R2 не са съобщавани досега.

DeepSeek не отговори на искане за коментар за тази история.

Съперниците все още разбират последиците от R1, който е създаден с по-малко мощни чипове на Nvidia, но е конкурентен на тези, разработени на цената на стотици милиарди долари от американските технологични гиганти. "Пускането на модела R2 на DeepSeek може да бъде ключов момент в AI индустрията", каза Виджаясимха Алилугатта, главен оперативен директор на индийския доставчик на технологични услуги Zensar. Успехът на DeepSeek в създаването на рентабилни модели на изкуствен интелект "вероятно ще насърчи компаниите по целия свят да ускорят собствените си усилия... прекъсвайки хватката на малкото доминиращи играчи в тази област", каза той.

R2 вероятно ще разтревожи правителството на САЩ, което определи лидерството в ИИ като национален приоритет. Пускането му може още повече да стимулира китайските власти и компании, десетки от които казват, че са започнали да интегрират модели на DeepSeek в своите продукти.

Малко се знае за DeepSeek, чийто основател Лян Уънфън стана милиардер чрез хедж фонда си High-Flyer. Лян, който беше описан от бивш работодател като "сдържан и интровертен", не е говорил с никоя медия от юли 2024 г.

"Ройтерс" интервюира дузина бивши служители, както и професионалисти от фондове, запознати с операциите на DeepSeek и нейната компания майка High-Flyer. Той също така прегледа статии в държавните медии, публикации в социалните мрежи от компаниите и научни статии, датиращи от 2019 г.

Те разказаха история за компания, която функционира повече като изследователска лаборатория, отколкото като предприятие с цел печалба и не е обременена от йерархичните традиции на китайската технологична индустрия с високо напрежение дори когато става отговорна за това, което много инвеститори смятат за най-новия пробив в изкуствения интелект.

Различен път

Лян е роден през 1985 г. в провинциално село в южната провинция Гуандун. По-късно получава дипломи за комуникационен инженер в елитния университет "Джъдзян".

Една от първите му работни места е управлението на изследователски отдел във фирма за интелигентна работа с изображения в Шанхай. Неговият тогавашен шеф, Джоу Чаоен, каза на държавните медии на 9 февруари, че Лян е наел наградени инженери по алгоритми и е работил с "плосък стил на управление".

В DeepSeek и High-Flyer Лян по сходен начин отбягва практиките на китайските технологични гиганти, известни със строго управление отгоре надолу, ниско заплащане за младите служители и "996" - работа от 9 сутринта до 9 вечерта, шест дни в седмицата.

Лян отвори своя офис в Пекин на пешеходно разстояние от университета "Цинхуа" и Пекинския университет, двете най-престижни образователни институции в Китай. Той редовно се задълбочаваше в технически подробности и беше щастлив да работи заедно със стажанти от Gen-Z и наскоро завършили студенти, които съставляваха по-голямата част от работната сила, според двама бивши служители. Те също така описаха обикновено осемчасов работен ден в атмосфера на сътрудничество.

"Лян ни даде контрол и се отнасяше с нас като с експерти. Той постоянно задаваше въпроси и се учеше заедно с нас", каза 26-годишният изследовател Бенджамин Лиу, напуснал компанията през септември. "DeepSeek ми позволи да владея критични части от поточната линия, което беше много вълнуващо."

Лян не отговори на въпроси, изпратени чрез DeepSeek.

Докато Baidu и други китайски технологични гиганти се надпреварваха да създадат своите ориентирани към потребителите версии на ChatGPT през 2023 г. и да печелят от глобалния бум на изкуствен интелект, Лян каза пред китайската медия Waves миналата година, че умишлено избягва да харчи много за разработка на приложения, фокусирайки се вместо това върху подобряването на качеството на AI модела.

Както DeepSeek, така и High-Flyer са известни с това, че плащат щедро, според трима души, запознати с техните практики за компенсиране. В High-Flyer не е необичайно старши учен по данни да печели 1.5 млн. юана годишно (около 206 хил. долара - бел. ред.), докато конкурентите рядко плащат повече от 800 хил., каза един от хората, конкурентен мениджър на фонд, който познава Лян.

Щедростта е финансирана от High-Flyer, който се превърна в един от най-успешните подобни фондове в Китай и дори след правителствени репресии срещу сектора все още управлява десетки милиарди юани, според двама души в индустрията.

Изчислителна мощ

Успехът на DeepSeek с евтин модел се основава на десетилетната и значителна инвестиция на High-Flyer в научни изследвания и изчислителна мощ, казаха трима души.

Фондът бе ранен пионер в търговията с изкуствен интелект. Високопоставен изпълнителен директор каза през 2020 г., че High-Flyer се впуска с пълни сили AI, като реинвестира 70% от приходите си, най-вече в изследвания на AI.

High-Flyer похарчи 1.2 млрд. юана за два суперкомпютърни клъстера за изкуствен интелект през 2020 г. и 2021 г. Вторият клъстер, Fire-Flyer II, се състои от около 10 хил. чипа Nvidia A100, използвани за обучение на модели.

DeepSeek не е бил създаден по това време, така че натрупването на изчислителна мощност привлече вниманието на китайските регулатори на ценни книжа, каза човек с пряко познаване на мисленето на служителите. "Регулаторите искаха да знаят: защо им трябват толкова много чипове?" каза събеседникът. "Как щяха да ги използват? Какво въздействие би имало това върху пазара?"

Властите решиха да не се намесват - ход, който щеше да се окаже решаващ за съдбата на DeepSeek: САЩ забраниха износа на A100 чипове за Китай през 2022 г., в който момент Fire-Flyer II вече беше в действие. Пекин сега празнува DeepSeek, но го инструктира да не се ангажира с медиите без одобрение според човек, запознат с китайското официално мислене.

Властите са помолили Лян да не говори, притеснени, че твърде много шум в медиите ще привлече ненужно внимание, каза събеседникът.

Кабинетът и министерството на търговията на Китай, както и китайският регулатор на ценните книжа не отговориха на искания за коментар.

Като една от малкото компании с голям клъстер A100, High-Flyer и DeepSeek успяха да привлекат някои от най-добрите изследователски таланти в Китай, казаха двама бивши служители. "Основното предимство на огромните (изчислителни) ресурси е, че позволява широкомащабно експериментиране", каза Лиу, бившият служител.

Някои западни предприемачи в областта като главния изпълнителен директор на Scale AI Александър Уанг, твърдят, че DeepSeek има до 50 хил. чипа Nvidia от по-висок клас, забранени за износ в Китай. Той не е представил доказателства за обвинението, нито е отговорил на исканията на "Ройтерс" да предостави доказателства.

DeepSeek не е отговорил на твърденията на Уан. Двама бивши служители приписват успеха на компанията на фокуса на Лян върху по-рентабилната архитектура на ИИ.

Стартъпът е използвал техники като Mixture-of-Experts (MoE) и многоглаво латентно внимание (MLA), които водят до много по-ниски изчислителни разходи, показват неговите изследователски документи.
Техниката MoE разделя AI модел на различни области на експертиза и активира само тези, свързани със заявка, за разлика от по-често срещаните архитектури, които използват целия модел.
Архитектурата на MLA позволява на модела да обработва различни аспекти на една част от информацията едновременно, като му помага да открива ключови детайли по-ефективно.

Докато конкуренти като френската Mistral са разработили модели, базирани на MoE, DeepSeek е първата фирма, която зависи силно от тази архитектура, като същевременно постига равенство с по-скъпите модели.

Цените при DeepSeek са 20 до 40 пъти по-евтино от тези за еквивалентни моделии на OpenAI, изчислиха анализатори от брокерската компания Bernstein в началото на февруари.

Засега западните и китайските технологични гиганти сигнализираха, че планират да продължат тежките разходи за ИИ, но успехът на DeepSeek с R1 и неговия по-ранен модел V3 накара някои да променят стратегиите.

OpenAI намали цените този месец, докато Gemini на Google въведе намалени нива на достъп. След пускането на R1, OpenAI пусна и модел O3-Mini, който разчита на по-малко изчислителна мощност.

Аднан Масуд от американския доставчик на технологични услуги UST каза пред "Ройтерс", че неговата лаборатория е провела бенчмарк тестове, установили, че R1 често използва три пъти повече токени или единици данни, обработени от AI модела, за разсъждения в сравнение с намаления модел на OpenAI.

Държавата приема

Още преди R1 да привлече световното внимание, имаше признаци, че DeepSeek е привлякъл благоволението на Пекин. През януари държавните медии съобщиха, че Лян е присъствал на среща с китайския премиер Ли Цян в Пекин като определен представител на сектора на ИИ преди лидерите на по-известни фирми.

Последвалите фанфари относно конкурентоспособността на разходите на неговите модели подкрепиха вярата на Пекин, че може да надмине иновациите в САЩ, като китайските компании и държавни органи възприемат моделите на DeepSeek с темпове, които не са предлагани на други фирми.

Най-малко 13 китайски градски управи и 10 държавни енергийни компании казват, че са внедрили DeepSeek в своите системи, докато технологичните гиганти Lenovo, Baidu и Tencent - собственик на най-голямото приложение за социални медии в Китай WeChat - са интегрирали моделите на DeepSeek в своите продукти.

Китайският лидер Си Цзинпин и Ли "сигналираха, че подкрепят DeepSeek", каза Алфред Ву, експерт по създаване на китайска политика в училището за публична политика Лий Куан Ю в Сингапур. "Сега всички просто го одобряват."

Приемането от Китай става в момент, когато правителства от Южна Корея до Италия премахват DeepSeek от националните магазини за приложения, позовавайки се на опасения за поверителността. "Ако DeepSeek се превърне в модела за AI в китайските държавни организации, западните регулатори може да видят това като още една причина за ескалиране на ограниченията върху AI чипове или софтуерни сътрудничества", каза Стивън Ву, експерт по изкуствен интелект и основател на хедж фонда Carthage Capital.

По-нататъшните ограничения върху усъвършенстваните AI чипове са предизвикателство, което Лян признава. "Нашият проблем никога не е бил финансирането", каза той пред Waves през юли. "Това е ембаргото върху чипове от висок клас."

Дневник лого

Дневник лого