Ich habe heute einen Vortrag zur Frage gehalten, ob man in die Cloud ziehen soll oder nicht. Das war eigentlich eine interne Schulungsveranstaltung, aber sie hatten auch ein paar externe Sprecher, unter anderen mich. Ich pack die Folien online, wenn ich Zeit habe.

Jedenfalls gehe ich bei solchen Vorträgen immer ähnlich vor: Ich schreibe mir meine Punkte auf, auf die ich selber komme, und dann spreche ich meine Kumpels an und frage die nach ihrer Meinung. In diesem Fall habe ich u.a. meinen Kumpel Kris gefragt, und der hat nicht nur ein Essay geantwortet sondern seine Ausführungen zu meiner Kernfrage auch direkt nochmal in sein Blog gepackt. Absolut faszinierende Einsichten, auch wenn ich an einigen Stellen zu anderen Ergebnissen komme, bzw. Schritte, die Kris logisch zwingend fand, weniger kritisch sehe.

Er argumentiert, dass Prozessoren nicht mehr schneller (im Sinne der Taktrate) werden sondern nur noch dicker (d.h. mehr Caches und vor allem mehr Cores). Das beschleunigt hie und da auch noch mal ein bisschen was, aber im Wesentlichen müsste man alle Cores ausnutzen, um so ein Monstrum zu nutzen.

Das ist auch mein Stand.

Dann findet er, man müsse als Firma das zweitteuerste Modell kaufen, weil das der Sweet Spot im Preis ist, und erzählt von einer Firma, die 50.000 Blade-Server im Einsatz hatte. Und wenn du das zweitgrößte Modell kaufst, hast du halt direkt 128 Cores oder so in der Hand. Wenn eine Anwendung nur so auf 8 Cores skaliert (mal angenommen jetzt), dann müsstest du auf dem Teil 16 VMs laufen lassen mit je einer Anwendung drin. Wenn also die Kiste umkippt, dann sind 16 Anwendungen mit gestorben, und deine ganze Firma ist vermutlich platt.

Diese Schlussfolgerungskette finde ich nicht so stringent wie er. Die Hardwarekosten sind gegenüber den Personal- und Aufräumkosten in Krisen geradezu vernachlässigbar. Ich überspitze jetzt ein bisschen, aber das ist im Wesentlichen auch eine These von Kris. Wenn das so ist, dann kauf halt dickere Hardware und nutze die nur zu 1/4 oder was auch immer. Dann hast du auch die "Skalierung", die die Cloud verspricht, direkt in house mit eingekauft, wenn ein Lastpeak reinkommt.

Kris meint, die optimale Lösung wäre dann die Cloud, denn die kann deine VMs jeweils auf anderen Rechnern mit den VMs anderer Leute unterbringen, und so die Leistung der Hardware nutzen, ohne dass bei dem Ausfall einer Kiste gleich mehr als eine VM pro Kunde kaputt ist.

Das stimmt alles, aber aus meiner Sicht muss deine Infrastruktur auch mit dem Ausfall von zwei oder 16 VMs umgehen können, insbesondere wenn du 50.000 Rechner da stehen hast. Bei kleineren Infrastukturen finde ich die Argumentation nachvollziehbarer, aber da kaufst du dann halt dickere Hardware als du brauchst. Machen wir alle ständig. Zählt mal die Cores auf euren Smartphones und erzählt mir, dass ihr die wirklich braucht.

Abgesehen davon sind das aber faszinierende Einblicke für Leute, die ein paar Verständnis-Voraussetzungen mitbringen. Viel Spaß bei der Lektüre, und nochmal vielen Dank an Kris, dass er so ausführlich geantwortet hat.

Update: Eine Bemerkung noch. Wenn du einen Rechner mit einer CPU mit 64 Cores hast, und du benutzt nur 8 davon, dann können die höher takten als wenn du alle 64 benutzt. Und wenn die rumidlen, geht auch der Stromverbrauch drastisch zurück. Es ist also nicht so, als ob man hier die ganze Zeit laufende Kosten für nicht abgerufene Leistung hat.

01.10.2024