🇩🇪 Bel KI v1
🔗 BEL-KI – Wahrheit ohne Kompromiss | Deutsche KI Revolution
🔒 Security & Integrity
SHA256 Checksum (Q4_K_M): 8B97EC63954565EBF6BB8F495E854957FD9D605EB84FAF7795D5FFB101BD0624
Verify the file integrity after downloading to ensure security. Run Get-FileHash Bel-KI-v1-Q4_K_M.gguf in PowerShell to check.
Sovereign German Language Model
Präzision · Ehrlichkeit · Datensouveränität
Ein deutschsprachiges KI-Modell, das Fakten über Fiktion stellt
Wir ruhen uns nicht auf den Lorbeeren von Bel KI v1 aus.
Der Trainingsprozess für Version 1.5 läuft bereits auf Hochtouren – und die Änderungen sind fundamental.
Während v1 auf ~13.000 hochwertigen GermanQuAD-Samples basierte, skalieren wir nun um den Faktor 20+.
🏗️ Neue Trainingsarchitektur (Current Progress)
Das Training von Bel KI v1.5 erfolgt vollständig lokal und ist in drei rigorose Phasen unterteilt:
🔹 PHASE 1 – Gehirn & Sprache (Knowledge Injection)
Initiales Supervised Fine-Tuning (SFT) auf 225.000+ neuen, hochwertigen deutschsprachigen Datensätzen.
Ziel:
Tiefe Sprachkompetenz, Faktenverständnis, Kontextrobustheit.
🔄 Status: Running …50 Stunden ca.
🔹 PHASE 2 – Charakter & Haltung
Gezieltes Fine-Tuning zur Ausbildung eines direkten, ehrlichen und souveränen Charakters.
Fokus:
- Keine ausweichenden Antworten
- Kein Corporate-Blabla
- Klare Aussagen bei Unsicherheit
🔹 PHASE 3 – Alignment (DPO)
Direct Preference Optimization (DPO) zur mathematischen Feinjustierung auf Wahrhaftigkeit, Konsistenz und logische Kohärenz.
Ziel:
Nicht „nett“, sondern richtig.
🎯 Das Ziel von Bel KI v1.5
Bel KI v1.5 wird:
- 📈 signifikant präziser
- 🧠 kontextstärker
- 🗣️ menschlicher & direkter
- 🛡️ robuster gegenüber Halluzinationen
Wir bewegen uns weg von einem reinen Q&A-Modell hin zu einem souveränen deutschen Assistenten mit Haltung.
🧪 Release-Politik:
GGUF-Dateien werden erst veröffentlicht, wenn der finale Loss-Wert meinen Qualitätsstandards entspricht.
📦 Verfügbare Formate
Dieses Repository enthält alle Formate von Bel KI v1:
| Format | Dateien | Größe | Verwendung |
|---|---|---|---|
| 🔥 GGUF Q4_K_M | Bel-KI-v1-Q4_K_M.gguf |
~4.9 GB | LM Studio, Ollama, llama.cpp |
| 📱 GGUF IQ2_M | Bel-KI-v1-IQ2_M.gguf |
~2.8 GB | Mobile, Low-RAM Geräte |
| 📊 16-bit (FP16) | model-0000X-of-00004.safetensors |
~15 GB | Transformers, vLLM, Forschung |
| 🔧 LoRA Adapter | adapter_model.safetensors |
~168 MB | Merge mit Base-Model |
📱 NEU: IQ2_M für Mobile Devices
Die IQ2_M Quantisierung wurde speziell für Smartphones und Geräte mit begrenztem RAM optimiert:
| Eigenschaft | Wert |
|---|---|
| Dateigröße | ~2.8 GB |
| RAM-Bedarf | ~4 GB |
| Zielgeräte | Android/iOS Smartphones, Tablets, Raspberry Pi |
| Qualität | Leicht reduziert vs. Q4_K_M, aber nutzbar für einfache Aufgaben |
| Kompression | bf16 → IQ2_M (sehr aggressive Quantisierung) |
👑 Bel KI v1 Master (FP16 - Full Precision)
Dies ist die hochpräzise Master-Version von Bel KI. Sie dient als Basis für alle weiteren Quantisierungen und Anwendungen, die maximale mathematische Genauigkeit erfordern.
📋 Master Details
| Eigenschaft | Wert |
|---|---|
| Format | Safetensors (FP16) |
| Parameter | 8 Milliarden |
| Dateien | 4 Shards (~15 GB total) |
| Training | Finetuned auf GermanQuAD (13k Samples) |
| Status | ✅ Final Master |
| Verwendung | Transformers, vLLM, Forschung, Weiter-Training |
🔒 Integrität (SHA256 Checksums)
Um die Integrität der Master-Dateien zu gewährleisten, vergleiche die Hashes nach dem Download:
| Datei | SHA256 Hash |
|---|---|
model-00001-of-00004.safetensors |
E29C7521F403A244F558A1A7DB4B0C646A7EF3677B80B3E74A55DE2AF94FE00F |
model-00002-of-00004.safetensors |
A6359CD242837A0272F1A019957AEA0D43D3809BFA4A9B80F86DFDABD92A34BD |
model-00003-of-00004.safetensors |
4B643D7B3075DC1A196D318CDA3266D7A0B7191563662790B12CF6E6B6EAA91B |
model-00004-of-00004.safetensors |
F3035F0DAF6C283D967C22B4B17BCCC32927E3830A37121B814D536E5F8A4024 |
Verifizierung (Linux/Mac):
sha256sum model-*.safetensors
Verifizierung (Windows PowerShell):
Get-FileHash model-00001-of-00004.safetensors -Algorithm SHA256
🚀 Master vs. GGUF - Was brauche ich?
| Anwendungsfall | Empfehlung |
|---|---|
| Chat auf eigenem PC (LM Studio, Ollama) | → GGUF Q4_K_M (~4.9 GB) |
| Mobile / Smartphone / Low-RAM | → GGUF IQ2_M (~2.8 GB) |
| Python/Hugging Face Transformers | → FP16 Master (~15 GB) |
| Eigenes Fine-Tuning / Weiter-Training | → FP16 Master |
| Maximale Qualität (Server mit viel VRAM) | → FP16 Master |
| Neue Quantisierungen erstellen | → FP16 Master |
💻 Master in Python laden
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_path = "Beko2210/Bel-KI-v1-GGUF" # oder lokaler Pfad
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16,
device_map="auto"
)
# Inference
inputs = tokenizer("Was ist die Hauptstadt von Bayern?", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📋 Übersicht
🏗️ Architektur
Pipeline: Meta Llama 3.1 8B (4-bit) → Unsloth Fine-Tune (SFT) → GGUF Export (Q4_K_M / IQ2_M)
| Komponente | Details |
|---|---|
| Basismodell | Meta Llama 3.1 8B |
| Parameter | 8 Milliarden |
| Training-Dataset | GermanQuAD (~13K QA-Paare) |
| Ausgabe-Formate | Q4_K_M (Desktop), IQ2_M (Mobile) |
Modellspezifikationen
📊 Detaillierte Architektur-Parameter
| Parameter | Wert |
|---|---|
| Architektur | LlamaForCausalLM |
| Hidden Size | 4096 |
| Intermediate Size | 14336 |
| Attention Heads | 32 |
| Key-Value Heads | 8 (GQA) |
| Hidden Layers | 32 |
| Vocabulary Size | 128,256 |
| Max Position Embeddings | 131,072 |
| RoPE Theta | 500,000 |
| Activation Function | SiLU |
📈 Training & Performance
Trainingskonfiguration
| Kategorie | Details |
|---|---|
| Dataset | GermanQuAD (deepset) |
| Trainingssamples | ~13,000 QA-Paare |
| Sprache | 100% Deutsch |
| Quelle | Wikipedia-basierte Fakten |
| GPU | NVIDIA GeForce RTX 3070 (8GB VRAM) |
| System | WSL2 (Windows Subsystem for Linux) |
| Framework | Unsloth + Hugging Face Transformers |
Training Metrics
| Metrik | Wert |
|---|---|
| Epochen | 1 |
| Batch Size | 2 |
| Gradient Acc. | 4 |
| Learning Rate | 2e-4 |
| Warmup Steps | 5 |
| Optimizer | AdamW 8-bit |
| Final Loss | 0.5342 |
Quantisierungsvergleich
| Format | Größe | Qualität | Geschwindigkeit | Empfehlung |
|---|---|---|---|---|
| F16 | ~16 GB | ⭐⭐⭐⭐⭐ | ⭐⭐ | Server |
| Q8_0 | ~8 GB | ⭐⭐⭐⭐ | ⭐⭐⭐ | Workstation |
| Q4_K_M | ~4.9 GB | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ✅ Desktop |
| IQ2_M | ~2.8 GB | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 📱 Mobile |
| Q4_0 | ~4.3 GB | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Legacy |
📊 Training & Benchmarks
Training Metrics
| Metric | Value | Details |
|---|---|---|
| Final Loss | 0.5342 | Exceptional convergence after 1 epoch |
| Base Model | Llama-3.1-8B | Unsloth optimized 4-bit loading |
| Hardware | NVIDIA RTX 3070 | Local Finetuning (WSL2) |
🏆 Validation Scores (GermanQuAD)
Tested on the official validation split using src/evaluate.py.
| Metric | Bel KI v1 (8B) | Significance |
|---|---|---|
| F1 Score | 87.64% | Very high factual accuracy & content overlap |
| Exact Match | 70.00% | Perfect word-for-word answers in 7 out of 10 cases |
💻 Verwendung
Schnellstart
🖥️ LM Studio (Empfohlen)
|
🦙 Ollama
|
Welches Format brauche ich?
| Anwendungsfall | Empfohlenes Format |
|---|---|
| Chat auf eigenem PC | GGUF Q4_K_M |
| Smartphone / Tablet / Low-RAM | GGUF IQ2_M |
| Python/Hugging Face Transformers | 16-bit Safetensors |
| Eigenes Weiter-Training | LoRA Adapter |
| Maximale Qualität (Server) | 16-bit Safetensors |
System Prompt
Du bist Bel KI, eine präzise und ehrliche deutsche KI.
KERNPRINZIPIEN:
• Antworte sachlich, klar und faktenbasiert
• Spekuliere nicht — gib Unsicherheiten offen zu
• Priorisiere Genauigkeit über Eloquenz
• Nutze präzise Fachterminologie wo angemessen
ANTWORTFORMAT:
• Strukturiere komplexe Antworten logisch
• Verwende Aufzählungen für Übersichtlichkeit
• Belege Aussagen mit Kontext wenn verfügbar
Python Integration
from llama_cpp import Llama
# Modell laden
llm = Llama(
model_path="./Bel-KI-v1-Q4_K_M.gguf",
n_ctx=4096, # Kontextfenster
n_gpu_layers=-1, # Alle Layer auf GPU
verbose=False
)
# System Prompt
system = "Du bist Bel KI, ein präziser deutscher Assistent."
# Anfrage
response = llm.create_chat_completion(
messages=[
{"role": "system", "content": system},
{"role": "user", "content": "Was ist die Hauptstadt von Bayern?"}
],
temperature=0.7,
max_tokens=512
)
print(response['choices'][0]['message']['content'])
# Output: München ist die Hauptstadt des Freistaats Bayern.
🎯 Anwendungsfälle
✅ Geeignet für
|
⚠️ Eingeschränkt
|
❌ Nicht geeignet
|
📊 Beispiel-Outputs
🔍 Faktenfrage
User: Wann wurde die Berliner Mauer gebaut?
Bel KI: Die Berliner Mauer wurde am 13. August 1961 errichtet. Sie trennte West-Berlin von Ost-Berlin und dem umgebenden Gebiet der DDR bis zu ihrem Fall am 9. November 1989.
🤔 Wissensgrenzen
User: Was passierte gestern in der Bundesliga?
Bel KI: Ich verfüge nicht über aktuelle Informationen zu gestrigen Ereignissen. Mein Wissensstand endet mit den Trainingsdaten. Für aktuelle Bundesliga-Ergebnisse empfehle ich offizielle Sportportale wie kicker.de oder die Bundesliga-Website.
📚 Komplexe Erklärung
User: Erkläre das deutsche Grundgesetz kurz.
Bel KI: Das Grundgesetz (GG) ist die Verfassung der Bundesrepublik Deutschland, in Kraft seit dem 23. Mai 1949.
Kernelemente:
- Artikel 1-19: Grundrechte (Menschenwürde, Freiheitsrechte, Gleichheit)
- Artikel 20: Staatsstrukturprinzipien (Demokratie, Rechtsstaat, Sozialstaat, Föderalismus)
- Artikel 79 Abs. 3: Ewigkeitsklausel — schützt Artikel 1 und 20 vor Änderungen
Das GG wurde bewusst als "Grundgesetz" statt "Verfassung" bezeichnet, da es ursprünglich als Provisorium bis zur deutschen Wiedervereinigung gedacht war.
⚠️ Limitationen & Hinweise
Limitationen
- Optimiert für Faktentreue, nicht Kreativität
- Performance bei nicht-deutschen Inputs reduziert
- Kein explizites Safety-Alignment über Dataset hinaus
- Wissensstand limitiert auf Trainingsdaten
- IQ2_M: Reduzierte Qualität durch aggressive Quantisierung
Verantwortungsvolle Nutzung
- Keine Verwendung für kritische Entscheidungen ohne Verifikation
- Ausgaben stets auf Faktentreue prüfen
- Nicht für automatisierte Systeme ohne menschliche Aufsicht
📜 Lizenz & Attribution
LizenzDieses Modell unterliegt der Llama 3.1 Community License. Die Nutzung erfordert Einhaltung der Meta Llama 3.1 Lizenzbestimmungen. Kommerzielle Nutzung: Erlaubt unter Lizenzbedingungen |
Danksagungen
|
👨💻 Entwickler
Entwickelt von Belkis Aslani
📍 Freiberg am Neckar, Deutschland
"Democratizing high-quality German-language AI through local, transparent, and independent development."
Bel KI v1 · Made in Germany 🇩🇪 · 2025
Souveräne KI für souveräne Nutzer
- Downloads last month
- 153