AI Server / KI Server / 72 GB VRAM / RTX 4090 / ChatGPT / DeepSeek / Llama /Qwen

Qwen 3.5 122B mit Q4 bei 72 Tokens/s. Der Server ist optimiert, indem er beide Grafikkarten mit PCIE-4 auf 8 Lanes anspricht, siehe Screenshot. llama.cpp funktioniert dadurch wesentlich schneller, als auf einem normalen Mainboard wo die zweite Grafikkarten normal nur PCIE-4 auf 2 Lanes ansprechen kann.

eBay