среда, 15 апреля 2026 г.

История nVidia

Мыслящие машины Дженсена Хуанга: История nVidia и мировой ИИ-революции



compilation by yurembo

История о парне в кожаной куртке

Эта история началась подобно рассказу про маленького мальчика. Дженсен (имя при рождении Жен-Сун) Хуанг родился 17-го февраля 1963-го года в городе Тайнань китайской республики Тайвань (все мы знаем, что остров  лишь временно независимый) в семье среднего достатка. Кроме него в семье был старший брат. Через некоторое время чета Хуангов вместе с детьми переехала в таиландский Бангкок. Там глава семейства получил работу на нефтеперерабатывающем заводе, а матушка устроилась учителем в школу.

По рассказам Дженсена, когда он учился в начальной школе в Таиланде, дорога в одну сторону занимала до трех часов, пролегала по непроходимым джунглям, составляла 30 км и выглядела примерно так:

В 60-е отец семейства по программе повышения профессиональной квалификации поехал в Нью-Йорк, США. По возвращению из штатов он был под большим впечатлением от них, и так как в то время обстановка в тихоокеанском регионе была напряженной из-за войны во Вьетнаме, пришел к решению отправить своих отпрысков для лучшей жизни последних в США к дяде с тётей.

В 1972 братья Хуанги отправились в США, штат Вашингтон, город Такома. От такой радости дядя определил обоих племянников в школу-интернат для трудных подростков. Со слов Дженсена уже там он проявил свой талант в мытье туалетов и драках с хулиганами.

Два года спустя, родители братьев так же переехали в США. Узнав, где учатся их сыновья, они перевели детей в нормальную школу "Алоха" в штате Орегон. Дженсен закончил школу раньше своих сверстников. Во время учебы в школе Хуанг заинтересовался вычислительными технологиями, поэтому для получения высшего образования выбрал университет штата Орегон и плотно занялся изучением информатики и проектирования интегральных схем. Вместе с тем он увлекается пинг-понгом и стает признанным игроком, заняв третье место на Чемпионате США.

После получения степени бакалавра в 1984-м году Дженсен поступил на работу в AMD на должность, как бы это ни было странно, проектировщика интегральных схем. В поте лица он проектировал новые процессоры на бумаге. Однако уже на следующий год он переметнулся в LSI Logic, где занялся равно тем же.

LSI Logic - это, на секундочку, такой же производитель интегральных схем, как AMD, Intel или Texas Instruments, только вместо архитектуры x86, компания использовала что-то более распространенное и открытое для коммерциализации. Так с конца 80-х она проектировала процессоры по архитектуре MIPS. Именно LSI Logic выступила чипмейкером для первой PlayStation в 1993-м году, создав для Sony не только центральный процессор консоли, но так же графический адаптер, ПДП контроллер, контроллеры шины и ввода/вывода.

В конце 80-х Sun Microsystems заключила контракт с LSI Logic на производство процессоров по собственной архитектуре SPARC в связи с тем, что собственных производственных мощностей у первой не было. В то время Sun Microsystems выпускала мощные рабочие станции, базирующихся на этих процессорах.

Во время работы с Sun Microsystems Дженсен познакомился с двумя высокопоставленными инженерами компании: Крисом Малаховски и Кёртисом Премом. Через некоторое время троица решила организовать новую компанию, специализирующуюся на разработке видеочипов для персональных компьютеров. Таким образом, в 1993-м году родилась компания nVidia. На роль её гендиректора единогласно был назначен Дженсен Хуанг, благодаря своему пробивному характеру, умению доносить до слушателя свою мысль и способности прикрикнуть на подчиненного в случае необходимости.

В качестве потенциального рынка сбыта своей продукции новоиспеченная компания метила в разрастающийся рынок PC-игроков, где вместе с новомодными хитами от id Software требовались видеоадаптеры нового поколения - 3D-ускорители.

В 90-е годы 20-го века рынок видеоадаптеров был очень конкурентным, на нем присутствовало много игроков. Среди них: ATI, 3dfx, PowerVR, Matrox, S3, Intel и другие. Многие из них существуют и по сей день. Однако они давно выбыли из гонки за лидерство в графике для PC, сконцентрировавшись на узконаправленных рынках. Кто-то из них был куплен фирмой nVidia вместе со всеми инновационными технологиями, как например, 3dfx.

Между тем первый блин от nVidia вышел комом. В 1995-м году видеочип NV1 получился  слабее решений конкурентов и оказался никому не нужным. Правда, им заинтересовалась японская SEGA для оснащения своей консоли Saturn. Но последняя получилась очень неоднозначной.

NV1 отображал четырехугольные полигоны. Кому они были нужны - не понятно. Поскольку, существовавший на то время графический API OpenGL, визуализировал посредством треугольников, и, выпущенный, спустя некоторое время, Microsoft Direct3D тоже использовал треугольники.

Короче, первый видеочип nVidia чуть не стал последним. NV2 создавался с прицелом оснащения новой консоли Sega Dreamcast, но этому не суждено было сбыться. Поэтому компания затянула пояса, уволила несколько десятков инженеров, провела работу над ошибками и в 1997-м году выпустила следующую - улучшенную и переработанную версию видеочипа - NV3. Он получил официальное название RIVA 128 и имел большой успех. После этого у nVidia поперло: RIVA TNT, RIVA TNT2 (это ж было совсем недавно). В том же 1999-м году nVidia выпустила GeForce 256 - крайне успешный видеочип, положивший начало замечательной линейки продуктов.

Я стал пользователем продуктов nVidia, начиная со второй версии GeForce в 2001-м году, которая имела лаконичное название GeForce 2. До этого я использовал видеокарту от Intel i740. По размерам последняя была в два раза больше первой. В последующие годы, кроме GeForce, у меня были видеоадаптеры от ATI, встройки от S3, Intel, Apple. Почему были? Они по сей день прекрасно работают.

В оригинале i740 была без вентилятора. Однако без него в ресурсоемких играх, например, Need for Speed 3, она грелась, намертво подвешивая Windows 98. Из-за чего пришлось поставить вентилятор. Во многом это спасло ситуацию. Но достаточно лирики.

По сути видеоадаптер внутри системного блока ПК представляет собой обособленный компьютер со своей системной платой, на которой находятся множество микропроцессоров, оперативная память и другие соответствующие компоненты. Однако процессор видеокарты имеет более узкое предназначение, нежели центральный процессор компьютера, поскольку по своей природе призван выполнять более простые операции. При этом вычислительных процессоров на видеокарте большое количество и, благодаря решению простых обособленных задач, эти вычисления работают параллельно в ситуации, когда, например, независимо производятся вычисления цвета нескольких вершин одного или множества полигонов.

Дженсена мучила мысль о том, что столько параллельной мощности остается не у дел, лишь в сравнительно редких случаях оно используется для визуализации изображений в играх.

Первым шагом, решил Хуанг, надо создать платформу, которая позволит разработчикам использовать возможности видеокарт. Так появилась CUDA - программно-аппаратная платформа параллельных вычислений. С её помощью программист, используя знакомые средства - синтаксически похожий на C язык, может писать программы, выполняемые на графических процессорах.

Из виду часто упускается то, что, если бы nVidia не пошла на этот шаг, она могла бы проиграть конкурентную гонку, поскольку примерно в то же самое время их главный конкурент, компания ATI, внедряла в свои видеочипы поддержку OpenCL, другими словами, аналога CUDA. Тем не менее OpenCL - это открытый стандарт, поэтому некоторое время спустя, nVidia тоже реализовала его поддержку в своих видеокартах.

На развитие платформы CUDA nVidia тратила миллиарды долларов, тем не менее очевидного эффекта не наблюдалось, и инвесторы высказывали недовольство Хуангу. Но парень в кожаной куртке раз от раза убеждал их, что за этой технологией будущее, и продолжал тратить деньги на развитие CUDA.

Примерно в это же самое время компания Ageia выпускает на рынок новое устройство PhysX - ускоритель физических вычислений, который работает в дополнение к CPU, не нагружая последний. В nVidia скоро смекнули, что физические вычисления - реальная работа для CUDA-ядер их видеокарт. Тем самым геймерам не понадобится отдельное устройство. Поэтому nVidia быстренько купила компанию Ageia. Вместе с приобретением чипа им достался PhysX SDK - программная платформа для реализации физических вычислений. Как уже стало понятно, nVidia отказалась от дополнительного устройства, переложив вычисления, связанные с физикой, на CUDA-ядра.

Однако инвесторы все равно не были удовлетворены: PhysX не намного увеличил ценность видеокарт nVidia. 

Лично я помню, как раз в то время я начал работать с игровым движком Torque 3D версии 1.0, демонстрационная игра этого движка ужасно тормозила на моем ATI Radeon, но при этом прекрасно работала на GeForce. В версии Torque 3D 1.1 расстановка сил сохранилась, но в версии Torque 3D 1.2 баланс силы был уравновешен: теперь игры на этом движке прекрасно стали работать на видеокартах обоих вендеров.

Уже во втором десятилетии 21-го века постепенно видеокартами стали дополняться суперкомпьютеры. Возникла наука о данных, где тензорные и cuda-ядра оказались как раз к месту. На них стало возможно проводить сложные вычисления, распределив на множество потоков.

В январе 2015-го года на выставке International Consumer Electronics Дженсен Хуанг представил очередное  (шестое) поколение систем на чипе (SOC) Tegra X1. Как энергоэффективное устройство, содержащее в одном чипе CPU, GPU, оперативную память, контроллеры ввода/вывода и прочее, оно используется в производстве различных мобильных интернет-устройств (MID), таких как: смартфоны, смартбуки, КПК, коммуникаторы. Tegra шестого поколения имеет четыре процессорных ядра ARM Cortex-A57, видеочип построен на собственной архитектуре Maxwell и содержит 256 ядер. Девайсом заинтересовалась компания Nintendo и 3-го марта 2017-го года на основе Tegra X1 выпустила одну из самых успешных своих консолей Switch.

Чуть позже выяснилось, что видеочипы вместе со специально написанными приложениями на CUDA, прекрасно справляются с вычислениями криптовалютных выражений. Это, словно по мановению волшебной палочки, подняло спрос на видеокарты, в результате чего, стоимость акций nVidia устремилась в потолок.

Но вскоре интерес к биткойну и прочим криптовалютам приутих. В то же время наука о данных никуда не делась. 

На протяжении десятилетий в среде ученых, работавших над созданием искусственного интеллекта, нейронные сети считались несерьезным занятием: исследования в этой области не финансировались, а результаты не публиковались в научных изданиях. Причина этого невозможность математического описания происходящих там процессов. В свою защиту авторы работ по нейронным сетям заявляли, что математически никому не удалось описать работу нейронов головного мозга, однако это не мешает им работать.

Еще в 2012-м году, начав с двух объединенных видеокарт GeForce, студентами университета в Торонто  была создана прародительница современных нейронных сетей AlexNet (ранее SuperVision). Она была создана для распознавания изображений и прекрасно справлялась со своей задачей.

За астрономическую сумму AlexNet была куплена Гуглом, в следствии чего проснулся новый интерес к нейронным сетям. В эту гонку включились прочие IT-гиганты: Microsoft, Baidu, Amazon, Oracle и ряд других.

Между тем нейронные сети все еще не могли похвастаться превосходным владением человеческим языком. Не смотря на огромную работу лингвистов и программистов, их усилия были тщетны. Всё изменилось, когда в стенах Google программист-лингвист Якоб Ушкорайт решил моделировать язык, используя только контекст. Он решительно отказался от всех механизмов памяти и заменил их простым семантическим графом знаний — по сути, сеткой контекстных связей между словами. Сами по себе слова по отдельности ничего не значили: они были лишь набором звуков. Единственным способом уловить их значение было установить связи между словами в тексте. Например, если у вас есть граф знаний, связывающий слова «прыгать», «зеленый», «язык», «мухи» и «земноводное», то вы можете догадаться, что слово в центре — «лягушка». Более того, такая структура графа должна была быть одинаковой в любом языке — немецком, французском, суахили или вьетнамском. Слово — это не просто буквы «л», «я», «г», «у», «ш», «к», «а»; буквы являются лишь знаками. Слово в когнитивном смысле подразумевает уникальную карту связей с остальной частью лексикона. Чтобы отразить эти взаимосвязи, Ушкорайт представил каждое слово в виде дерева статистических весов. Например, столкнувшись с предложением «Рыжий _______ поймал серую мышь», нейросеть может предположить, что, скорее всего, пропущено слово «кот», поскольку в обучающей выборке часто встречалась пара «кот–мышь». У слова «кот» также может быть довольно сильная связь со словами «поймал» и, возможно, «съел», но слабее со словом «серый». Если обучающих примеров достаточно, компьютер сможет также понять, что «рыжий» — это прилагательное, уточняющее существительное «кот», даже без явных грамматических указаний. Обычные существительные легко классифицировать подобным образом, но с некоторыми другими словами это было сложнее. Например, при анализе слова «несчастливый» носитель языка интуитивно распознает отрицательную приставку «не», корень «счаст» и окончание «ый», превращающее слово в прилагательное. Для более эффективного моделирования таких отношений Ушкорайт разделял некоторые слова на части-токены. Эти токены также формировали дерево статистических весов. Ушкорайт назвал этот механизм самовниманием. 

Однако в Google такую идею встретили прохладно: она казалась слишком простой, чтобы сработать. Тем не менее механизм самовнимания быстро доказал свою эффективность, и его элементы были интегрированы в поисковые и рекламные продукты Google. Чуть позже к Ушкорайту примкнули еще два исследователя из Google: Илья Полосухин и Ашиш Васвани, и к началу 2017 года они создали переводчик с английского на немецкий, основанный на механизме самовнимания. Новая модель, основанная на принципе самовнимания, получила название «трансформер».

В течение нескольких месяцев к команде примкнули еще четверо участников, и к февралю 2017 года немецко-английский переводчик уже мог соперничать с лучшими рекуррентными сетями. Тогда и появился в группе Ноам Шазир, восьмой и последний из ее членов, ветеран Google, работавший в компании с 2000 года. Шазир разочаровался в рекуррентных нейронных сетях и искал им альтернативу. Вместе с валлийским программистом Ллионом Джонсом он превратил трансформер из экспериментального проекта в полноценное программное решение. По мере того как команда передавала в трансформер все больше данных, его эффективность возрастала, превзойдя даже публичную платформу Google Translate. «Мы увидели, что с увеличением количества данных трансформер явно становится умнее, — рассказывает Шазир. Ранние нейронные сети пытались строить целые предложения или даже абзацы. Трансформер же на основе вероятностных данных предсказывал всего лишь одно слово, не заглядывая дальше.

Если AlexNet была первой ласточкой, хрупким доказательством концепции, то трансформер можно было сравнить с реактивным лайнером. Ранее исследователи полагали, что пройдет несколько десятилетий, прежде чем мы увидим ИИ, способный создавать связные тексты на английском!

Разработчики надеялись, что Google использует эту технологию в массовых продуктах, но руководство компании не увидело в ней ценности. Создатели трансформера начали уходить в стартапы. К 2023-му году все восемь членов команды покинули Google. 

Уже являясь сотрудником OpenAI, один из создателей AlexNet Илья Суцкевер на конференций по ИИ услышал доклад про технологию трансформера. Он сразу уловил потенциал новой архитектуры и, вернувшись в штаб-квартиру OpenAI, призвал коллег незамедлительно бросить работу над «искусственным игроком» и заняться тем, что может изменить мир. «Буквально на следующий день всем нам стало понятно, что трансформер позволяет преодолеть ограничения рекуррентных нейронных сетей, — рассказывает Суцкевер. — Мы немедленно переключились на эту модель». 

Суцкевер хотел создать на основе трансформера продукт, который мог бы генерировать качественный, легкочитаемый текст и отвечать на самые разные вопросы. Он видел, как Шазир и Кайзер доказали, что это возможно, на примере фейковых статей для «Википедии», и решил, что идея достойна развития. Он предполагал, что если модель обучить на обширной коллекции текстов, то она сможет создавать собственные. Так родился «генеративный предварительно обученный трансформер» (Generative Pre-trained Transformer), или GPT. Стоит упомянуть, что его бы не было без ускорителей nVidia.

В результате Трансформер стал ключевой технологией в создании современных нейронных сетей. Однако нельзя преуменьшать значимость и заслуги прочих разработок и создавших их людей.

Первая версия, GPT-1, была запущена в июне 2018 года. Она училась читать по библиотеке BookCorpus, состоящей из примерно 7000 бесплатных самиздатовских книг. В этой библиотеке преобладали произведения в жанре научной фантастики, любовные романы и фэнтези, изрядную часть составляли книги в стиле «Сумерек». Следовательно в ответ на запросы пользователей он, как правило, выдавал потоки дадаистского бреда. 

Версия GPT-2 появилась восемь месяцев спустя. Эта модель обучалась на совершенно ином наборе данных. Вместо романов о вампирах она проглотила около 8 миллионов веб-страниц общим объемом примерно 6 миллиардов слов. Конечный продукт порой уже мог создавать тексты, неотличимые от написанных человеком.

В 2020 году OpenAI представила GPT-3, обученный на текстовых данных объемом более терабайта, что составляло примерно 100 миллиардов слов. Подробности его обучения не разглашались, но впоследствии выяснилось, что OpenAI крайне вольно интерпретировала идею «добросовестного использования», включив в обучающий набор не только всю англоязычную «Википедию», но и обширные данные с защищенных авторским правом веб-сайтов, в том числе из архивов The New York Times начиная с 1851 года.

В марте 2023 года OpenAI представила на своем онлайн-портале обновленную модель: GPT-4. Для оценки уровня интеллекта своего творения разработчики OpenAI провели серию академических испытаний. GPT-4 успешно сдал экзамены на юриста и получил высшие баллы в продвинутых школьных программах по истории искусств, истории США, государственной системе США, биологии и статистике. 

Объединение архитектуры трансформера с гипермасштабируемыми параллельными вычислениями породило своего рода кембрийский взрыв в развитии ИИ-сервисов. Microsoft создала Copilot — инструмент автодополнения кода, ставший незаменимым для программистов. DeepMind создала AlphaFold2 — искусственный интеллект, который предсказывал трехмерную структуру белков на основе последовательностей аминокислот. Это приближало эру «программируемой биологии», в которой четыре азотистых основания, входящих в состав РНК, можно было заставить работать по принципу нулей и единиц в двоичном компьютерном коде.

Появилось множество синтезированных ИИ-продуктов, которые обещали произвести революцию в творческих профессиях, благодаря созданию контента по запросу. Такие программы, как DALL-E от OpenAI и конкурирующие с нею Midjourney и Stable Diffusion, способны за считаные минуты нарисовать произведение изобразительного искусства в стиле любого художника. Стартапы Udio и Suno разработали приложения для генерации музыки любого жанра. Jasper был рассчитан на разработку эффективных маркетинговых кампаний. Sora от OpenAI, представленная в 2024 году, могла в реальном времени создавать видео по описанию. И это только начало!

Все эти уже ставшие незаменимыми технологии работают на видеоадаптерах nVidia. Правда, не совсем видеоадаптерах, ясное дело, видео они не выводят, однако вычисления те же самые, что применяются для просчета графики в видеоиграх.

Комментариев нет:

Отправить комментарий