🇩🇪 Bel KI v1


🔗 BEL-KI – Wahrheit ohne Kompromiss | Deutsche KI Revolution

🔒 Security & Integrity

SHA256 Checksum (Q4_K_M): 8B97EC63954565EBF6BB8F495E854957FD9D605EB84FAF7795D5FFB101BD0624

Verify the file integrity after downloading to ensure security. Run Get-FileHash Bel-KI-v1-Q4_K_M.gguf in PowerShell to check.

Sovereign German Language Model

Model Size Quantization Language License

Training Loss Dataset Framework Hardware


Präzision · Ehrlichkeit · Datensouveränität

Ein deutschsprachiges KI-Modell, das Fakten über Fiktion stellt

Schnellstart · Architektur · Benchmarks · Verwendung


Wir ruhen uns nicht auf den Lorbeeren von Bel KI v1 aus.
Der Trainingsprozess für Version 1.5 läuft bereits auf Hochtouren – und die Änderungen sind fundamental.

Während v1 auf ~13.000 hochwertigen GermanQuAD-Samples basierte, skalieren wir nun um den Faktor 20+.


🏗️ Neue Trainingsarchitektur (Current Progress)

Das Training von Bel KI v1.5 erfolgt vollständig lokal und ist in drei rigorose Phasen unterteilt:

🔹 PHASE 1 – Gehirn & Sprache (Knowledge Injection)

Initiales Supervised Fine-Tuning (SFT) auf 225.000+ neuen, hochwertigen deutschsprachigen Datensätzen.

Ziel:
Tiefe Sprachkompetenz, Faktenverständnis, Kontextrobustheit.

🔄 Status: Running …50 Stunden ca.


🔹 PHASE 2 – Charakter & Haltung

Gezieltes Fine-Tuning zur Ausbildung eines direkten, ehrlichen und souveränen Charakters.

Fokus:

  • Keine ausweichenden Antworten
  • Kein Corporate-Blabla
  • Klare Aussagen bei Unsicherheit

🔹 PHASE 3 – Alignment (DPO)

Direct Preference Optimization (DPO) zur mathematischen Feinjustierung auf Wahrhaftigkeit, Konsistenz und logische Kohärenz.

Ziel:
Nicht „nett“, sondern richtig.


🎯 Das Ziel von Bel KI v1.5

Bel KI v1.5 wird:

  • 📈 signifikant präziser
  • 🧠 kontextstärker
  • 🗣️ menschlicher & direkter
  • 🛡️ robuster gegenüber Halluzinationen

Wir bewegen uns weg von einem reinen Q&A-Modell hin zu einem souveränen deutschen Assistenten mit Haltung.

🧪 Release-Politik:
GGUF-Dateien werden erst veröffentlicht, wenn der finale Loss-Wert meinen Qualitätsstandards entspricht.



📦 Verfügbare Formate

Dieses Repository enthält alle Formate von Bel KI v1:

Format Dateien Größe Verwendung
🔥 GGUF Q4_K_M Bel-KI-v1-Q4_K_M.gguf ~4.9 GB LM Studio, Ollama, llama.cpp
📱 GGUF IQ2_M Bel-KI-v1-IQ2_M.gguf ~2.8 GB Mobile, Low-RAM Geräte
📊 16-bit (FP16) model-0000X-of-00004.safetensors ~15 GB Transformers, vLLM, Forschung
🔧 LoRA Adapter adapter_model.safetensors ~168 MB Merge mit Base-Model

📱 NEU: IQ2_M für Mobile Devices

Die IQ2_M Quantisierung wurde speziell für Smartphones und Geräte mit begrenztem RAM optimiert:

Eigenschaft Wert
Dateigröße ~2.8 GB
RAM-Bedarf ~4 GB
Zielgeräte Android/iOS Smartphones, Tablets, Raspberry Pi
Qualität Leicht reduziert vs. Q4_K_M, aber nutzbar für einfache Aufgaben
Kompression bf16 → IQ2_M (sehr aggressive Quantisierung)

👑 Bel KI v1 Master (FP16 - Full Precision)

Dies ist die hochpräzise Master-Version von Bel KI. Sie dient als Basis für alle weiteren Quantisierungen und Anwendungen, die maximale mathematische Genauigkeit erfordern.

📋 Master Details

Eigenschaft Wert
Format Safetensors (FP16)
Parameter 8 Milliarden
Dateien 4 Shards (~15 GB total)
Training Finetuned auf GermanQuAD (13k Samples)
Status ✅ Final Master
Verwendung Transformers, vLLM, Forschung, Weiter-Training

🔒 Integrität (SHA256 Checksums)

Um die Integrität der Master-Dateien zu gewährleisten, vergleiche die Hashes nach dem Download:

Datei SHA256 Hash
model-00001-of-00004.safetensors E29C7521F403A244F558A1A7DB4B0C646A7EF3677B80B3E74A55DE2AF94FE00F
model-00002-of-00004.safetensors A6359CD242837A0272F1A019957AEA0D43D3809BFA4A9B80F86DFDABD92A34BD
model-00003-of-00004.safetensors 4B643D7B3075DC1A196D318CDA3266D7A0B7191563662790B12CF6E6B6EAA91B
model-00004-of-00004.safetensors F3035F0DAF6C283D967C22B4B17BCCC32927E3830A37121B814D536E5F8A4024

Verifizierung (Linux/Mac):

sha256sum model-*.safetensors

Verifizierung (Windows PowerShell):

Get-FileHash model-00001-of-00004.safetensors -Algorithm SHA256

🚀 Master vs. GGUF - Was brauche ich?

Anwendungsfall Empfehlung
Chat auf eigenem PC (LM Studio, Ollama) GGUF Q4_K_M (~4.9 GB)
Mobile / Smartphone / Low-RAM GGUF IQ2_M (~2.8 GB)
Python/Hugging Face Transformers FP16 Master (~15 GB)
Eigenes Fine-Tuning / Weiter-Training FP16 Master
Maximale Qualität (Server mit viel VRAM) FP16 Master
Neue Quantisierungen erstellen FP16 Master

💻 Master in Python laden

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_path = "Beko2210/Bel-KI-v1-GGUF"  # oder lokaler Pfad

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto"
)

# Inference
inputs = tokenizer("Was ist die Hauptstadt von Bayern?", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📋 Übersicht

🎯 Was ist Bel KI?

Bel KI v1 ist ein spezialisiertes deutschsprachiges Large Language Model, entwickelt für:

  • Faktentreue — Präzise Antworten ohne Halluzinationen
  • Transparenz — Ehrliche Eingeständnisse bei Wissensgrenzen
  • Datenschutz — 100% lokale Ausführung möglich
  • Effizienz — Optimiert für Consumer-Hardware

🚀 Highlights

Merkmal Spezifikation
Basismodell Llama 3.1 8B
Sprache Deutsch (primär)
Format GGUF Q4_K_M / IQ2_M
Dateigröße 2.8 - 4.9 GB
RAM-Bedarf 4 - 8 GB
GPU VRAM 4 - 6 GB

🏗️ Architektur

Pipeline: Meta Llama 3.1 8B (4-bit) → Unsloth Fine-Tune (SFT) → GGUF Export (Q4_K_M / IQ2_M)

Komponente Details
Basismodell Meta Llama 3.1 8B
Parameter 8 Milliarden
Training-Dataset GermanQuAD (~13K QA-Paare)
Ausgabe-Formate Q4_K_M (Desktop), IQ2_M (Mobile)

Modellspezifikationen

📊 Detaillierte Architektur-Parameter
Parameter Wert
Architektur LlamaForCausalLM
Hidden Size 4096
Intermediate Size 14336
Attention Heads 32
Key-Value Heads 8 (GQA)
Hidden Layers 32
Vocabulary Size 128,256
Max Position Embeddings 131,072
RoPE Theta 500,000
Activation Function SiLU

📈 Training & Performance

Trainingskonfiguration

Kategorie Details
Dataset GermanQuAD (deepset)
Trainingssamples ~13,000 QA-Paare
Sprache 100% Deutsch
Quelle Wikipedia-basierte Fakten
GPU NVIDIA GeForce RTX 3070 (8GB VRAM)
System WSL2 (Windows Subsystem for Linux)
Framework Unsloth + Hugging Face Transformers

Training Metrics

Metrik Wert
Epochen 1
Batch Size 2
Gradient Acc. 4
Learning Rate 2e-4
Warmup Steps 5
Optimizer AdamW 8-bit
Final Loss 0.5342

Quantisierungsvergleich

Format Größe Qualität Geschwindigkeit Empfehlung
F16 ~16 GB ⭐⭐⭐⭐⭐ ⭐⭐ Server
Q8_0 ~8 GB ⭐⭐⭐⭐ ⭐⭐⭐ Workstation
Q4_K_M ~4.9 GB ⭐⭐⭐⭐ ⭐⭐⭐⭐ ✅ Desktop
IQ2_M ~2.8 GB ⭐⭐⭐ ⭐⭐⭐⭐⭐ 📱 Mobile
Q4_0 ~4.3 GB ⭐⭐⭐ ⭐⭐⭐⭐⭐ Legacy

📊 Training & Benchmarks

Training Metrics

Metric Value Details
Final Loss 0.5342 Exceptional convergence after 1 epoch
Base Model Llama-3.1-8B Unsloth optimized 4-bit loading
Hardware NVIDIA RTX 3070 Local Finetuning (WSL2)

🏆 Validation Scores (GermanQuAD)

Tested on the official validation split using src/evaluate.py.

Metric Bel KI v1 (8B) Significance
F1 Score 87.64% Very high factual accuracy & content overlap
Exact Match 70.00% Perfect word-for-word answers in 7 out of 10 cases

💻 Verwendung

Schnellstart

🖥️ LM Studio (Empfohlen)

# 1. Download der GGUF-Datei
Bel-KI-v1-Q4_K_M.gguf

# 2. In LM Studio importieren
# 3. System Prompt setzen (siehe unten)
# 4. Chat starten

🦙 Ollama

# Modelfile erstellen
cat > Modelfile << 'EOF'
FROM ./Bel-KI-v1-Q4_K_M.gguf
SYSTEM "Du bist Bel KI, ein präziser deutscher Assistent."
PARAMETER temperature 0.7
PARAMETER top_p 0.9
EOF

# Modell erstellen & starten
ollama create bel-ki -f Modelfile
ollama run bel-ki

Welches Format brauche ich?

Anwendungsfall Empfohlenes Format
Chat auf eigenem PC GGUF Q4_K_M
Smartphone / Tablet / Low-RAM GGUF IQ2_M
Python/Hugging Face Transformers 16-bit Safetensors
Eigenes Weiter-Training LoRA Adapter
Maximale Qualität (Server) 16-bit Safetensors

System Prompt

Du bist Bel KI, eine präzise und ehrliche deutsche KI.

KERNPRINZIPIEN:
• Antworte sachlich, klar und faktenbasiert
• Spekuliere nicht — gib Unsicherheiten offen zu
• Priorisiere Genauigkeit über Eloquenz
• Nutze präzise Fachterminologie wo angemessen

ANTWORTFORMAT:
• Strukturiere komplexe Antworten logisch
• Verwende Aufzählungen für Übersichtlichkeit
• Belege Aussagen mit Kontext wenn verfügbar

Python Integration

from llama_cpp import Llama

# Modell laden
llm = Llama(
    model_path="./Bel-KI-v1-Q4_K_M.gguf",
    n_ctx=4096,           # Kontextfenster
    n_gpu_layers=-1,      # Alle Layer auf GPU
    verbose=False
)

# System Prompt
system = "Du bist Bel KI, ein präziser deutscher Assistent."

# Anfrage
response = llm.create_chat_completion(
    messages=[
        {"role": "system", "content": system},
        {"role": "user", "content": "Was ist die Hauptstadt von Bayern?"}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response['choices'][0]['message']['content'])
# Output: München ist die Hauptstadt des Freistaats Bayern.

🎯 Anwendungsfälle

✅ Geeignet für

  • Deutsches Question Answering
  • Faktenbasierte Recherche
  • Wissensabfragen
  • Textanalyse & -verständnis
  • Datenschutzkritische Anwendungen
  • Lokale/Offline Systeme
  • Bildungsanwendungen

⚠️ Eingeschränkt

  • Kreatives Schreiben
  • Langtexte (>2000 Wörter)
  • Multilinguale Aufgaben
  • Code-Generierung
  • Mathematische Berechnungen

❌ Nicht geeignet

  • Rollenspiele
  • Fiktive Erzählungen
  • Spekulative Inhalte
  • Nicht-deutsche Sprachen
  • Safety-kritische Systeme

📊 Beispiel-Outputs

🔍 Faktenfrage

User: Wann wurde die Berliner Mauer gebaut?

Bel KI: Die Berliner Mauer wurde am 13. August 1961 errichtet. Sie trennte West-Berlin von Ost-Berlin und dem umgebenden Gebiet der DDR bis zu ihrem Fall am 9. November 1989.

🤔 Wissensgrenzen

User: Was passierte gestern in der Bundesliga?

Bel KI: Ich verfüge nicht über aktuelle Informationen zu gestrigen Ereignissen. Mein Wissensstand endet mit den Trainingsdaten. Für aktuelle Bundesliga-Ergebnisse empfehle ich offizielle Sportportale wie kicker.de oder die Bundesliga-Website.

📚 Komplexe Erklärung

User: Erkläre das deutsche Grundgesetz kurz.

Bel KI: Das Grundgesetz (GG) ist die Verfassung der Bundesrepublik Deutschland, in Kraft seit dem 23. Mai 1949.

Kernelemente:

  • Artikel 1-19: Grundrechte (Menschenwürde, Freiheitsrechte, Gleichheit)
  • Artikel 20: Staatsstrukturprinzipien (Demokratie, Rechtsstaat, Sozialstaat, Föderalismus)
  • Artikel 79 Abs. 3: Ewigkeitsklausel — schützt Artikel 1 und 20 vor Änderungen

Das GG wurde bewusst als "Grundgesetz" statt "Verfassung" bezeichnet, da es ursprünglich als Provisorium bis zur deutschen Wiedervereinigung gedacht war.


⚠️ Limitationen & Hinweise

Limitationen

  • Optimiert für Faktentreue, nicht Kreativität
  • Performance bei nicht-deutschen Inputs reduziert
  • Kein explizites Safety-Alignment über Dataset hinaus
  • Wissensstand limitiert auf Trainingsdaten
  • IQ2_M: Reduzierte Qualität durch aggressive Quantisierung

Verantwortungsvolle Nutzung

  • Keine Verwendung für kritische Entscheidungen ohne Verifikation
  • Ausgaben stets auf Faktentreue prüfen
  • Nicht für automatisierte Systeme ohne menschliche Aufsicht

📜 Lizenz & Attribution

Lizenz

Dieses Modell unterliegt der Llama 3.1 Community License.

Die Nutzung erfordert Einhaltung der Meta Llama 3.1 Lizenzbestimmungen.

Kommerzielle Nutzung: Erlaubt unter Lizenzbedingungen

Danksagungen

  • Meta AI — Llama 3.1 Basismodell
  • deepset — GermanQuAD Dataset
  • Unsloth — Effizientes Fine-Tuning Framework
  • llama.cpp — GGUF Quantisierung

👨‍💻 Entwickler

Entwickelt von Belkis Aslani

📍 Freiberg am Neckar, Deutschland


"Democratizing high-quality German-language AI through local, transparent, and independent development."


GitHub Hugging Face


Bel KI v1 · Made in Germany 🇩🇪 · 2025

Souveräne KI für souveräne Nutzer

Downloads last month
153
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train Beko2210/Bel-KI-v1-GGUF