Qwen 3.5 122B mit Q4 bei 72 Tokens/s. Der Server ist optimiert, indem er beide Grafikkarten mit PCIE-4 auf 8 Lanes anspricht, siehe Screenshot. llama.cpp funktioniert dadurch wesentlich schneller, als auf einem normalen Mainboard wo die zweite Grafikkarten normal nur PCIE-4 auf 2 Lanes ansprechen kann.
eBay