Zuerst klonst du das Repository mit git. Zum konvertieren ist im llama.cpp Hauptverzeichnis ein Python Script.
python convert.py <path-to-model-files>
Dann kannst du es mit llama.cpp testen.
main -m <path-to-ggml-file> -p "You are a perfect Bot! Q: What is general relativity? A: "
Um das ganze zu quantisieren gibt es das Programm "quantize" im Llama.cpp Ordner.
quantize <new-model-bin-path> <ggml-model-path> <quantization-type>
So sollte das dann eigentlich funktionieren, bei mir tut es das.