Изкуственият интелект удря таван: OpenAI и други опитват да "очовечат" алгоритмите

Изкуственият интелект удря таван: OpenAI и други опитват да "очовечат" алгоритмите

Изкуственият интелект удря таван: OpenAI и други опитват да "очовечат" алгоритмите
Reuters
Компаниите за изкуствен интелект като OpenAI се стремят да преодолеят неочакваните забавяния и предизвикателства в търсенето на все по-големи големи езикови модели чрез разработване на техники за обучение, които използват по-човешки начини за "мислене" на алгоритмите.
Дузина учени, изследователи и инвеститори, занимаващи се с изкуствен интелект, казаха пред "Ройтерс", че вярват, че тези техники, които стоят зад наскоро пуснатия модел о1 на OpenAI, биха могли да променят надпреварата във въоръжаването с изкуствен интелект и да имат отражение върху видовете ресурси, търсенето на които е ненаситно сред компаниите за изкуствен интелект, от енергията към някои видове чипове.
OpenAI отказа да коментира тази история. След пускането на нашумелия чатбот ChatGPT преди две години, технологичните компании, чиито оценки спечелиха сериозно от бума на изкуствен интелект, публично твърдят, че "уголемяването" на настоящите модели чрез добавяне на повече данни и изчислителна мощност постоянно ще води до подобрени модели на изкуствен интелект.
Но сега някои от най-известните учени в областта на изкуствения интелект говорят за ограниченията на тази философия "по-голямото е по-добро".
Иля Суцкевер, съосновател на AI labs Safe Superintelligence (SSI) и OpenAI, каза наскоро пред "Ройтерс", че резултатите от увеличаване на предварителното обучение достигат плато. Той говори за фазата на обучаване на модел с изкуствен интелект, който използва огромно количество немаркирани данни, за да разбере езиковите модели и структури.
Суцкевер е широко признат като ранен защитник на постигането на огромни скокове в напредъка на генеративния изкуствен интелект чрез използването на повече данни и изчислителна мощност в предварителното обучение, което в крайна сметка създаде ChatGPT. Суцкевер напусна OpenAI по-рано тази година, за да основе SSI.
"Миналото десетилетие бе епохата на мащабирането, сега отново се връщаме в ерата на чудото и откритията. Всеки търси следващото нещо, каза Суцкевер. Мащабирането на правилното нещо сега е по-важно от всякога."
Суцкевер отказа да сподели повече подробности как екипът му се справя с проблема, освен че SSI работи върху алтернативен подход за увеличаване на предварителното обучение.
Зад кулисите изследователите в големите лаборатории за изкуствен интелект се сблъскват със забавяния и разочароващи резултати в надпреварата за пускане на голям езиков модел, който превъзхожда модела GPT-4 на OpenAI, който е на почти две години, според трима източници, запознати с частните въпроси.
Така наречените обучителни работи за големи модели могат да струват десетки милиони долари чрез едновременното изпълнение на стотици чипове. Те са по-склонни да получат повреда, причинена от хардуера, като се има предвид колко сложна е системата; изследователите може да не знаят как точно се представят моделите до края на серията, което може да отнеме месеци.
Друг проблем е, че големите езикови модели поглъщат огромни количества данни, а моделите с изкуствен интелект са изчерпали всички леснодостъпни данни по света. Недостигът на енергия също възпрепятства тренировките, тъй като процесът изисква огромно количество енергия.
За да преодолеят тези предизвикателства, изследователите проучват "изчисляване на тестово време", техника, която подобрява съществуващите модели с изкуствен интелект по време на така наречената фаза на "извод" или когато моделът се използва. Например вместо незабавен избор на един единствен отговор моделът може да генерира и оцени множество възможности в реално време, като в крайна сметка избира най-добрия път напред.
Този метод позволява на моделите да отделят повече процесорна мощност за предизвикателни задачи като математически или кодиращи проблеми или сложни операции, които изискват човешки разсъждения и вземане на решения.
"Оказа се, че ако един бот мисли само за 20 секунди в ръка на покер, се постига същото повишаване на производителността като при увеличаване на модела със 100 хил. пъти и удължаване на обучението му за 100 хил. пъти", каза Ноам Браун, изследовател в OpenAI, който работи по o1, на конференцията TED AI в Сан Франциско миналия месец.
OpenAI възприе тази техника в новоизлезлия модел, известен като o1, известен преди като Q* и Strawberry, за който "Ройтерс" съобщи за първи път през юли. O1 може да "мисли" върху проблемите по многоетапен начин, подобно на човешкия. Това също включва използване на данни и обратна връзка, подбрани от доктори и експерти от индустрията. Тайната съставка на серията о1 е друг набор от обучения, проведени върху "базови" модели като GPT-4, и компанията казва, че планира да приложи тази техника с повече и по-големи базови модели.
В същото време изследователи от други водещи лаборатории с изкуствен интелект, от Anthropic, xAI и Google DeepMind, също работят за разработването на свои собствени версии на техниката според петима души, запознати с усилията.
"Виждаме много ниско висящи плодове, които можем да откъснем, за да направим тези модели по-добри много бързо", каза Кевин Уейл, главен продуктов директор в OpenAI, на технологична конференция през октомври. "Докато хората наваксат изоставането, ние ще се опитаме да бъдем още три крачки напред."
"Гугъл" и xAI не отговориха на исканията за коментар, а Anthropic нямаше незабавен коментар.
Последствията биха могли да променят конкурентния пейзаж за хардуер за изкуствен интелект, досега доминиран от ненаситното търсене на чипове на Nvidia. Известни инвеститори на рисков капитал от Sequoia до Andreessen Horowitz, които са налели милиарди, за да финансират скъпоструващо разработване на модели в множество лаборатории за изкуствен интелект, включително OpenAI и xAI, забелязват прехода и претеглят въздействието върху солидните си залози.
"Тази промяна ще ни премести от свят на масивни клъстери за предварително обучение към облаци за изводи, които са разпределени, базирани в облак сървъри за изводи", каза Соня Хуанг, партньор в Sequoia Capital, пред "Ройтерс".
Търсенето на чипове с изкуствен интелект на Nvidia, които са най-модерните, подхрани нейния възход до превръщането ѝ в най-ценната компания в света, изпреварвайки "Епъл" през октомври. За разлика от тренировъчните чипове, където Nvidia доминира, гигантът на чиповете може да се сблъска с по-голяма конкуренция на пазара за изводи.
Запитан за възможното въздействие върху търсенето на нейните продукти, Nvidia посочи скорошни презентации на компанията относно важността на техниката зад модела o1. Нейният главен изпълнителен директор Дженсън Хуанг говори за нарастващо търсене за използване на нейните чипове за изводи.
"Сега открихме втори закон за мащабиране и това е законът за мащабиране в момент на извод... Всички тези фактори доведоха до невероятно високото търсене на Blackwell", каза Хуанг миналия месец на конференция в Индия, говорейки за най-новия чип с изкуствен интелект на компанията.