Die Silicon Valley Co | SwiftSummit Innovations Inc.

Wenn Sie einen Eindruck davon bekommen möchten, was Unternehmen wirklich mit der KI-Infrastruktur machen und mit welchen Problemen sie in Bezug auf Verarbeitungs- und Netzwerkkapazität, Stromversorgung und Kühlung konfrontiert sind, müssen Sie mit einigen Anbietern von Co-Location-Rechenzentren sprechen. Und so beginnen wir mit Colovore, das seinen Sitz in Santa Clara im Herzen des Silicon Valley hat und vielleicht der schlechteste Ort für den Betrieb eines Rechenzentrums ist.

Oder, wenn man es richtig macht, vielleicht der beste Ort, weil die Kundennachfrage enorm ist. Und genau so sieht es Ben Coughlin, Mitbegründer, Vorsitzender und Finanzvorstand von Colovore.

Auf Colovore sind wir aufmerksam geworden, weil Cerebras Systems dort seinen „Andromeda“-Cluster mit 16 seiner CS-2-Wafer-Computing-Systeme hostet, der über 1 Exaflops halbpräzise FP16-Gleitkomma-Mathematik für das Training von KI-Modellen liefert , das im Feature-Bild oben im Rechenzentrum am Space Park Drive in der Nähe des San Jose Mineta International Airport zu sehen ist – und seltsamerweise gegenüber vom UNIXSurplus Computer Store und nur einen Steinwurf von den Rechenzentren entfernt, die von Digital Realty, Equinix und Evocative betrieben werden und Tata Communications.

Colovore wurde 2012 gegründet, gerade als der GPU-beschleunigte KI-Boom begann. Bisher hat das Unternehmen 8 Millionen US-Dollar an Finanzmitteln eingesammelt und verfügt bisher nur über ein Rechenzentrum. Das SJC01-Rechenzentrum des Unternehmens wiegt 24.000 Quadratmeter und ist dank der Flüssigkeitskühlung kompakt. Es ist seit 2014 in Betrieb. Die SJC01-Anlage wurde schrittweise erweitert, wobei im Februar 2022 eine 2-Megawatt-Erweiterung innerhalb der Anlage durchgeführt wurde näher an die volle 9-Megawatt-Last herankommen. Die Racks begannen mit 20 Kilowatt Leistung und Kühlung und wurden auf 35 Kilowatt erweitert. Sein SJC02-Rechenzentrum, das im zweiten Quartal 2024 eröffnet werden soll, wird sich im UNIXSurplus-Gebäude befinden, das es von Ellis Partners gemietet hat. (Es gibt eine Metapher, falls wir jemals eine gesehen haben …) Es hat eine Fläche von etwa 29.000 Quadratmetern und wird wie SJC01 nur flüssigkeitsgekühlte Racks und möglicherweise etwas direkte Flüssigkeitskühlung bieten, wenn Kunden dies wünschen. (Und wir glauben, dass dies der Fall sein wird.) Die Racks im neuen Rechenzentrum sind von Anfang an auf 50 Kilowatt skalierbar.

Colovore wurde von Sean Holzknecht mitbegründet, der Vizepräsident für Betrieb bei Evocative war und einen weiteren Rechenzentrumsbetreiber namens Emerytech Data Center gründete, nachdem er mehrere Zentralbüros in San Francisco für Pacific Bell geleitet hatte. Coughlin ist der Geldmensch und war Partner bei Spectrum Equity Investors, einer Private-Equity-Firma mit einem Kapital von 5 Milliarden US-Dollar, die sich auf Telekommunikation und digitale Medien konzentriert. Peter Harrison, der dritte Mitbegründer von Colovore, verwaltete die globale Rechenzentrumspräsenz von Google, sein Fiber-to-Premises-Projekt und das Content-Delivery-Netzwerk von YouTube. Harrison war Betriebsleiter bei eBay und half Netflix auch beim Start seines Streaming-Videodienstes.

Coughlin hat sich an uns gewandt, weil er sieht, dass jeder mit KI anfangen möchte, sich aber mit den Kühlproblemen dieser Matrix-Mathe-Monster, die sie zum Antrieb von Empfehlungsmaschinen und großen Sprachmodellen benötigen, noch nicht ganz im Klaren ist. Colovore ist mittendrin und betreibt mitten im Geschehen eine 9-Megawatt-Anlage, die vollständig flüssigkeitsgekühlt ist und bereit ist, die dichteste Rechenleistung zu übernehmen, die seine Unternehmen benötigen. Wir sprechen nicht von den 100 Kilowatt pro Rack, die ein riesiger Supercomputer der Exascale-Klasse mit direkt angeschlossenen, flüssigkeitsgekühlten Kühlplatten heutzutage benötigen könnte, aber es kommt dem nahe. Und wenn Sie das brauchen, hat Coughlin das Team und die Einrichtung, die mitten im Silicon Valley bis an die Grenzen gehen können.

Ben Coughlin: Wir verfolgen Ihre Berichterstattung über diese Branche offensichtlich schon seit einiger Zeit. Und wir befinden uns in Colovore an einem interessanten Schnittpunkt, weil wir hier im Silicon Valley einen Großteil der neueren KI-Infrastruktur unterstützen – zum Teil, weil wir Flüssigkeitskühlung anbieten. Es gibt viele Diskussionen über das Wachstum der KI und darüber, wie sie auf den zugrunde liegenden Serverplattformen Innovationen hervorbringen, aber über das Rechenzentrum gibt es nur sehr wenige Diskussionen. Die überwiegende Mehrheit der Rechenzentren ist nicht für die Unterstützung dieser KI-Systeme ausgelegt. Wenn das Rechenzentrum das nicht unterstützen kann, Houston, dann haben wir hier ein kleines Problem.

Jeder betrachtet das Rechenzentrum im Allgemeinen als ein Gebäude, ein Grundstück. Nicht sehr aufregend, es macht nicht viel Spaß, darüber zu reden, sie sehen alle gleich aus und fühlen sich auch gleich an. Und im Großen und Ganzen stimmt das auch. Da sich diese Art von KI-Infrastruktur jetzt jedoch immer weiter ausbreitet, müssen sich die Dinge ändern.

Timothy Prickett Morgan: Okay, lass uns darüber reden. Sie verfügen über ein Rechenzentrum in Santa Clara, was bedeutet, dass Sie einige der rechen- und datenintensivsten Kunden bedienen, die erkannt haben, dass sie kein eigenes Rechenzentrum betreiben möchten. Sie haben sie genau dort, wo Sie sie haben wollen, und sie haben Sie genau dort, wo sie Sie haben wollen.

Warum zum Teufel sollten Sie also die kalifornischen Preise für Immobilien, Wasser und Strom zahlen? Das erscheint auf den ersten Blick verrückt, aber es gibt immer eine Grenze der Lichtgeschwindigkeit, die bestimmte Dinge dazu zwingt, einigermaßen lokal zu sein.

Ben Coughlin: Wir betreuen Startups bis hin zu den Fortune 500. Es ist wie bei einer ganzen Reihe von Kunden, von denen einige ein paar Tausend Dollar im Monat ausgeben, andere Hunderttausende pro Monat. Und eine Reihe unserer Kunden gehören zu den Fortune 500 – großen, börsennotierten Unternehmen mit enormen Marktkapitalisierungen, die die KI-Revolution anführen. Die Wahrheit ist jedoch, dass sie keine IT-Abteilungen haben, die Rechenzentren an entfernten Standorten tatsächlich verwalten können. Es ist schockierend für Unternehmen dieser Größe und Komplexität, aber wenn man die IT-Zwiebel bei diesen Unternehmen ein wenig zurückzieht und sich die technischen Mitarbeiter ansieht, die mit der Infrastruktur umgehen können, ist es bei weitem nicht so tiefgreifend, wie man denkt. Und das ist einer der stillen Gründe, warum nicht jeder einfach nach Fargo, North Dakota, geht oder sich eine Energiequelle beschafft, die viel billiger ist und an einem Ort liegt, der im Vergleich zum Silicon Valley viel einfacher zu errichten ist. Und deshalb gibt es immer noch eine große lokale Nachfrage.

TPM:Wie viel Prozent der Infrastruktur, die Sie derzeit bei SJC01 verwalten, ist KI-Material?

Ben Coughlin: Wenn ich die Anzahl der Rack-Einheiten auf alle Server im Rechenzentrum verteilte, macht die KI wahrscheinlich 80 Prozent aus. Wir haben hier einige fette Systeme mit Tausenden von GPUs.

TPM: OK, das heißt, ich muss diesen Anruf jetzt nicht beenden. Was gut ist.

Ben Coughlin: Als wir das Unternehmen vor zehn Jahren gründeten, hatten wir alle schon lange Rechenzentren betrieben. Und das, was wir vor Jahren gesehen haben, war Folgendes. Mit Blades und virtualisierten Umgebungen wurden die Serverplattformen immer kleiner und leistungsfähiger, man konnte den Platzbedarf verkleinern und auf kleinerem physischen Raum mehr erreichen. Und wir haben herausgefunden, dass dies Strom in einem Schrank und mehr Kühlung in einem Schrank erfordern würde. Niemand hat diese ganze KI-Revolution kommen sehen, aber da wir vom ersten Tag an mit der Flüssigkeitskühlung begonnen haben, waren wir bereit.

Hier ist die Sache: Letztlich geht es hier vor allem um die Kühlung im Rechenzentrum. Sie können jederzeit mehr Stromkreise an einen Standort liefern. Und darauf haben wir uns konzentriert.

TPM: Einen Augenblick. Ich dachte, bei euch im Valley und an anderen Orten wie Ashburn in Virginia sei der Strom begrenzt, und auch, dass es immer schwieriger sei, mehr Strom in die Racks zu bringen, selbst wenn man ihn ins Gebäude liefern könnte?

Ben Coughlin: Nicht wirklich. Als Energieversorger unterliegt Silicon Valley Power einigen Einschränkungen – nicht ganz so wie in Nord-Virginia, wo sie buchstäblich nicht mehr Strom abgeben können. Wenn Sie mehr Strom an den Standort im Rechenzentrum bringen möchten, ist dies im Allgemeinen möglich. Das Problem ist, wie man mit der Hitze umgeht.

TPM: Ich habe die Spezifikationen darüber gelesen, welche Leistung das SJC01-Rechenzentrum an Racks liefern kann – wo Sie angefangen haben und wo Sie sich heute befinden. Ich denke immer noch, dass 100 Kilowatt für ein Rack zu viel sind, sowohl aus Kühlungs- als auch aus Leistungsgründen. Was machen die Leute eigentlich?

Ben Coughlin: Ich gebe Ihnen die Bausteine. Die meisten gewöhnlichen Rechenzentren unterstützen 5 Kilowatt in einem Schrank.

TPM: Das ist blöd. Eine CPU leistet 400 Watt und eine GPU leistet 800 Watt.

Ben Coughlin: Hey, glauben Sie mir, Sie singen unsere Melodie. Aber vor zehn Jahren hatte ein typischer Server vielleicht 250 Watt und eine Server-CPU vielleicht 75 Watt, manchmal vielleicht 100 Watt.

TPM:Ja, ich erinnere mich, als die Leute ausflippten, dass eine CPU mehr Saft verbrennt als eine verdammte Glühbirne, und jetzt ist es, als wären sie ein Haartrockner und wir zucken nicht einmal mit der Wimper.

Ben Coughlin: Als wir die Türen zum ersten Mal öffneten, bauten wir jedes einzelne Rack für eine Leistung von 20 Kilowatt. Dann, ein paar Jahre später, als wir expandierten und unsere nächste Phase online starteten, bauten wir mit 35 Kilowatt. Jetzt unterstützen wir 50 Kilowatt. Allein in unserer Entwicklung im letzten Jahrzehnt sind wir 20 bis 35 bis 50 Jahre nach innen gegangen. Und wir können 250 Kilowatt pro Schrank liefern. Das ist wirklich eine Funktion dieser Plattformen und der Art und Weise, wie sie gekühlt werden. Dabei handelt es sich um direkt flüssigkeitsgekühlte Systeme, von denen wir mehrere in Betrieb haben. Einige lassen 35 Kilowatt oder 50 Kilowatt in einen Schrank fallen, aber wir entwickeln und implementieren gerade einen Kunden, der mehr als 200 Kilowatt pro Schrank hat. Und nein, es handelt sich nicht um Kryptomining, das einen schrecklichen Kundenstamm hat.

TPM: Könnte Ihnen nicht mehr zustimmen. Wenn Sie eine neue Währung starten möchten, gehen Sie mit Elon Musk zum Mars. Ich helfe euch beim Packen und fahre euch zur Startrampe. . . .

Ben Coughlin:Dies sind alles echte KI-Workloads von echten Unternehmen.

TPM: Du bist nur im Tal. Wie kommt es, dass Sie nicht an anderen Orten sind?

Ben Coughlin: Wissen Sie, Schritt für Schritt. Wir sind profitabel und wir wachsen. Ich bin schon lange im Silicon Valley und kenne das Risikokapitalmodell „Wachstum um jeden Preis“. Das ist nicht unser Ansatz.

Aber um es auf den Punkt zu bringen: Da wir sehen, dass die KI von der Prototypenerstellung zu frühen Tests und einigen Implementierungen übergeht, sehen wir, dass Kunden auf mehrere Schränke umsteigen. Es wächst alles ziemlich schnell, weshalb wir nebenan einen weiteren Standort bauen. Darüber hinaus denke ich, dass unser nächster Schritt etwas außerhalb des Marktes liegen würde, aber immer noch regionaler Natur wäre. Vielleicht fahren wir also nach Reno, dort gibt es eine Gegend, in der der Strom billiger ist, aber er ist immer noch relativ lokal. Der pazifische Nordwesten ist für uns ein guter Standort. Aber wir werden nicht in jeder NFL-Stadt eine Flagge hissen und dann durchdrehen. Ein Schritt auf einmal. . . .

TPM:Ich kenne eine Reihe von Unternehmen, die das glauben, und für Edge Computing würde ich wie VaporIO argumentieren, dass sie in jeder NFL-Stadt vorhanden sein sollten, da der Genehmigungs- und Bauaufwand für den Aufbau eines Edge-Netzwerks immens ist.

Anderes Thema: Wie viel vom Rechenzentrumsmarkt wird kooperieren? Ich denke, es könnte ein Drittel in der Cloud, ein Drittel vor Ort und ein Drittel lokal bei den längsten Läufen sein.

Ben Coughlin: Das ist eine gute Frage. Ich würde sagen, es ist größer als Sie denken, und hier ist der Teil, den Sie sich merken müssen. Vom Cloud-Fußabdruck – und ich weiß nicht genau, wie hoch dieser ist – laufen etwa 0 bis 40 Prozent ihrer Cloud-Rechenzentren tatsächlich in Co-Lo-Einrichtungen, die diese großen Jungs gemietet haben. Sie werden ihre eigenen Rechenzentren in Märkten errichten, in denen Strom und Land supergünstig sind und sie den Datenverkehr dorthin zurückleiten können. Aber sie leasen Kapazitäten von Co-Lo-Anbietern in den großen Metropolen, weil es für sie keinen Sinn macht, so viel Geld auszugeben und diese Prämie für Platz und Strom zu zahlen.

Ich war jahrelang der Meinung, dass die Wolken nicht das Allheilmittel für Co-Los sind. Wir haben immer gesagt, dass es tatsächlich eine steigende Flut ist. Ja, es gibt einige Leute, die sich für die reine Cloud entscheiden. Aber auch hier nutzen einige dieser Cloud-Anbieter Co-Los. . . .

TPM: Ich habe dieses Phänomen ignoriert und wirklich über die Global 20000 nachgedacht, die keine eigenen Clouds und Dienstanbieter betreiben, und darüber nachgedacht, was sie tun könnten. Niemand wird von On-Premise in die Cloud wechseln und dann wieder in On-Premise zurückkehren. Ich denke, sie werden auf ein Co-Lo-System zurückgreifen, wenn die Cloud-Kosten zu hoch werden.

Ben Coughlin: Erstens sind alle unsere Kunden hybride Kunden. Sie nutzen die Cloud für bestimmte Anwendungen und Co-Lo für bestimmte Anwendungen. Es ist wirklich eine Art Multiplattform. Insbesondere im Hinblick auf KI und diese Art von Workloads weist die Cloud einige Einschränkungen auf – und das betrifft nicht nur die Kosten. Jeder weiß, dass die Cloud extrem teuer ist. Aber das ist nur eine Variable, auch wenn sie sehr wichtig ist.

TPM:Wie viel günstiger können Sie KI für Ihre Kunden einsetzen?

Ben Coughlin: Auf monatlicher Basis sparen die meisten unserer Kunden 50 bis 70 Prozent gegenüber ihrer monatlichen Cloud-Rechnung. Beim Kauf der Ausrüstung wird zunächst investiert, aber die Amortisation kann sich bereits nach drei bis sechs Monaten amortisieren. Aus wirtschaftlicher Sicht ist also klar, dass der ROI enorm ist.

Wenn Sie sich nur die finanziellen Aspekte ansehen, ist die Cloud für diese Art von KI-Workloads nicht sinnvoll. Aber auch hier gibt es noch andere Variablen: Sie müssen über die nötigen Fähigkeiten verfügen, um Ihre Infrastruktur zu betreiben. Die Mitarbeiter vieler dieser Cloud-Unternehmen sind 20-jährige Kinder, die noch nie einen Server berührt haben und nicht einmal wissen, wie er funktioniert. Manche Leute haben die CapEx-OpEx-Sache. Die Latenz ist ein weiterer Aspekt, und was die KI betrifft, sehen wir die Latenz als einen großen Vorteil für Co-Los. Die Leute reden über selbstfahrende Autos und ChatGPT, was in Ordnung ist, aber das ist nur ein sehr kleiner Teil der KI-Arbeitslast. Aber für Echtzeitanwendungen ist es nicht ideal, die Cloud zu nutzen, die Infrastruktur mitten im Land zu haben und man muss hin und her gehen. Für einige dieser Anwendungen spielt die Latenz eine Rolle. Daher ist die Cloud für KI-Sachen in verschiedenen Dimensionen nicht perfekt.

Hier ist das Ding. Was auch immer Sie tun, Sie benötigen diese Dichte an Rechenmaschinen in den Metropolen, denn dort werden die Daten generiert. Dort muss es analysiert und gespeichert werden. Und der beste Weg, dies zu erreichen, besteht darin, diese Rechenzentren so zu gestalten, dass sie sich an die Entwicklung der Serverplattform anpassen und diese kleiner und leistungsfähiger machen. Letztendlich ahmen wir nach, was auf diesen Servern vor sich geht. Wir verkleinern lediglich das Rechenzentrum und machen es insgesamt effizienter. Und dazu nutzen wir Wasser. Wir müssen diese Cadillacs nicht mit Hunderten und Hunderttausenden Quadratmetern bauen.

Wir haben ein perfektes Beispiel direkt gegenüber von uns in einer Anlage von Digital Realty, die sechs Stockwerke hoch und 150.000 Quadratmeter groß ist. Wir sind 25.000 Quadratmeter groß und haben genau die gleiche Leistung wie sie. Das bedeutet, dass sie bei gleicher Rechenleistung sechsmal größer sind als wir.

TPM:Wie hoch sind Ihre Zusatzkosten und wie hoch sind die Zusatzkosten, die an den Kunden weitergegeben werden?

Ben Coughlin: Es ist billiger. Es gibt noch einen weiteren Trugschluss. Denn normalerweise gilt beim Bau luftgekühlter Rechenzentren ein linearer Ablauf: Je mehr Kapazität ich habe, desto mehr kostet mich das. Aber da Wasser ein so effizientes Kühlmedium ist und über eine so große Kapazität verfügt, müssen Sie nicht immer mehr bauen. Da gibt es Skaleneffekte. Wenn wir uns also unsere Kosten für die Bereitstellung eines Megawatt kritischen Stroms ansehen, der vom Kunden verbraucht wird, sind wir 30 Prozent günstiger als die Branche, weil unser Fußabdruck kleiner ist.

Außerdem müssen Sie bedenken, dass in unserer Rechenzentrumsbranche viele Giganten Immobilienprofis sind. Sie haben Gebäude gebaut und wissen, wie sie ihre Gebäude bauen und ihre Rechenzentren so betreiben, dass es für sie funktioniert. Und wenn sie in dieser Größenordnung bauen, haben sie eine Herangehensweise und auf diese Weise eliminieren sie sie. Sie sind nicht besonders flexibel, wenn es um die Integration einiger dieser neuen Technologien wie Liquid in das Rechenzentrum geht. Was für Sie und mich also sehr logisch und notwendig erschien – Flüssigkeitskühlung im Rechenzentrum – gibt ihnen Anlass zum Nachdenken. Allerdings beginnen wir, einige Risse zu erkennen. Digital Realty sagte in seiner letzten vierteljährlichen Telefonkonferenz schließlich, dass diese High-Density-Technologie in unseren Rechenzentren immer wichtiger wird.

In der Zwischenzeit werden wir unbemerkt weitermachen und uns schrittweise weiterentwickeln und in die richtige Richtung gehen.

TPM:Letzte Frage: Wenn ich meine Systeme direkt mit Flüssigkeit kühlen möchte, können Sie das tun oder nicht?

Ben Coughlin: Wir haben heute mehrere Megawatt mit direkt flüssigkeitsgekühlten Servern in Betrieb, die verschiedene Methoden verwenden. Es gibt viele verschiedene Möglichkeiten, diese Katze zu häuten.

Was wir bisher gesehen haben, ist, dass die Servergehäuse selbst flüssigkeitsgekühlt sind und intern über eigene Wärmetauscher verfügen. Daher versorgen wir das Gehäuse mit Wasser, das dann im Inneren verarbeitet wird. Wir sehen ein größeres Interesse an Kühlplatten, um das Wasser noch tiefer in das System zu verteilen. Und im Moment ist es ein bisschen wie im Wilden Westen. Um ehrlich zu sein, gibt es derzeit noch keine große Standardisierung, weil sie noch in den Kinderschuhen steckt.

Wichtig ist, dass wir das Wasser und die Leitungen haben, um es verteilen zu können. Wenn Sie in unser Rechenzentrum kommen und unter den Boden schauen, sehen wir dort unten drei bis vier Fuß Rohrleitungen.

Aber das ist der schwierigste Teil von all dem, den die Leute nicht ganz verstehen und der meiner Meinung nach für Sie interessant sein könnte. In allen Rechenzentren gibt es Wasser. Die Klimaanlagen basieren auf Wasser. Es geht nicht nur darum, Wasser dorthin zu bringen – man muss das Wasser filtern, Chemikalien hinzufügen und sicherstellen, dass das Wasser rein ist, damit es keine Korrosion gibt. Aber das Größte bei der Wasserverteilung ist, dass Sie viele Entscheidungen darüber treffen müssen, wie groß Ihre Rohre sind, wie hoch die Durchflussrate des Wassers ist, wie hoch die Temperatur des Wassers ist und dass sich diese Dinge direkt auf die direkt flüssigkeitsgekühlten Rohre auswirken Plattformen.

Sobald Sie sich also mit den wirklichen Details des Wassermanagements befassen, müssen Sie viele Entscheidungen in Bezug auf diese Variablen treffen. Und das geht auf den Kommentar zurück, den ich zu den Standards gemacht habe. Wenn einer dieser CDU-Anbieter sagt, er wolle superschnelles Wasser in dünnen Rohren, unter hohem Druck und bei wirklich kalten Temperaturen, dann erfordert das einen Aufbau der Infrastruktur. Wenn jemand anderes sagt, gib mir einfach einen großen Lazy River, also einen langsamen Fluss bei gemäßigterer Temperatur, dann erfordert das etwas anderes. Wenn Sie das eine oder das andere haben, ist es für das Rechenzentrum nicht so einfach, den Ansatz zu wechseln.

Glücklicherweise handelt es sich bei unserem System um ein Lazy-River-System mit größeren Rohren, und was wir bisher bei den meisten Kühlplattformen gesehen haben, strebt nach Wassereinträgen mit geringeren Durchflussraten.

Mit Highlights, Analysen und Geschichten der Woche direkt von uns in Ihren Posteingang, ohne dass etwas dazwischen liegt. Jetzt abonnieren

Ben Coughlin: Timothy Prickett Morgan: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: