Анонс микропроцессора Cerebras ― Cerebras Wafer Scale Engine (WSE) либо движка Cerebras масштаба кремниевой пластинки ― состоялся в рамках каждогодней конференции Hot Chips 31. Смотря на этого кремниевого монстра поражает даже не то, что его смогли выпустить во плоти. Поражает смелость плана и труд разрабов, рискнувших создать кристалл площадью 46 225 квадратных мм со сторонами 21,5 см. На изготовка 1-го микропроцессора уходит целая 300-мм пластинка. При мельчайшей ошибке уровень брака составляет 100 %, а стоимость вопросца даже тяжело представить.
Выпуском Cerebras WSE занимается компания TSMC. Техпроцесс ― 16 нм FinFET. Этот тайваньский производитель тоже заслужил монумент за выпуск Cerebras. Создание подобного чипа потребовало высшего мастерства и решения массы заморочек, но оно того стоило, убеждают создатели. Чип Cerebras ― это практически суперкомпьютер на чипе с неописуемой пропускной способностью, наименьшим потреблением и умопомрачительным параллелизмом. В реальный момент это безупречное решение для машинного обучения, которое дозволит исследователям начать решать задачки чрезвычайной трудности.
Любой кристалл Cerebras WSE содержит 1,2 трлн транзисторов, организованных в 400 000 ИИ-оптимизированных вычислительных ядер и 18 Гбайт локальной распределённой памяти SRAM. Всё это соединено ячеистой сетью с общей производительностью 100 петабит за секунду. Пропускная способность памяти добивается 9 Пбайт/с. Иерархия памяти одноуровневая. Кеш-памяти нет, перекрытия нет, задержки воззвания малые. Это безупречная архитектура для убыстрения задач, связанных с ИИ. Нагие числа: в сопоставлении с самыми современными графическими ядрами чип Cerebras обеспечивает в 3000 раз больший объём памяти на кристалле и в 10 000 огромную скорость обмена с памятью.
Вычислительные ядра Cerebras ― SLAC (Sparse Linear Algebra Cores) ― стопроцентно программируемые и могут быть оптимизированы для работы с хоть какими нейронными сетями. Наиболее того, архитектура ядер вначале фильтрует данные, выставленные нулями. Это высвобождает вычислительные ресурсы от необходимости проводить холостые операции умножения на ноль, что для перегрузки разрежёнными данными значит убыстрение расчётов и предельную энергоэффективность. Тем процессор Cerebras оказывается в сотки либо даже тыщи раз эффективнее для машинного обучения в определениях задействованной площади кристалла и его употребления, чем животрепещущие решения для ИИ и машинного обучения.
Изготовка чипа подобного размера потребовало массу неповторимых решений. Его даже упаковывать в корпус пришлось чуть ли не вручную. Появились препядствия с подводом питания к кристаллу и его остыванием. Отвод тепла стал вероятен лишь жидкостью и только с организацией зональной подачи с вертикальной циркуляцией. Тем не наименее, все препядствия были решены и чип вышел рабочим. Будет любопытно выяснить о его практическом применении.