---
license: apache-2.0
language:
- de
tags:
- ocr
- german
- document-ai
- layout
- onnx
- cpu
- bbox
- vision
pipeline_tag: image-to-text
library_name: g-ocr
---

# GOCR — schnelle, kleine deutsche OCR-/Vision-Schicht (CPU)

GOCR liest ein **ganzes Dokument** zu **Text + Position (bbox)** als strukturiertes JSON —
**schnell, ~30 MB, reine CPU (kein GPU)**.

Gedacht als **Vision-/OCR-Schicht für (text-only) LLM-Pipelines** und als **Tooling**:
präzise Layout-Boxen + Text rein → dein LLM macht Verständnis/Extraktion.

```bash
pip install g-ocr           # Bilder: png/jpg/webp/tiff/bmp ...
pip install "g-ocr[pdf]"    # + PDF (optionales Plugin)
```
```python
import g_ocr
ocr = g_ocr.from_pretrained()
res = ocr.read("dokument.png")            # ein Bild      -> {text, regions:[{text, box, quad, score}]}
doc = ocr.read_document("rechnung.pdf")   # PDF/mehrseitig -> {n_pages, pages:[...], text}
```
🔗 Demo: **[huggingface.co/spaces/Keyven/GOCR-Demo](https://huggingface.co/spaces/Keyven/GOCR-Demo)** · 🌐 **[german-ocr.de](https://german-ocr.de)**

## Wofür GOCR stark ist
- 🎯 **Präzise Bounding-Boxes + ganzes Dokument** (Lesereihenfolge) → strukturiertes JSON
- ⚡ **CPU, bis ~16× schneller als EasyOCR** — kein GPU
- 📦 **~30 MB** (Detektor + Recognizer, ONNX)
- 🧱 **Fraktur-robust** (3× genauer als EasyOCR, s. u.) · on-prem / DSGVO-freundlich
- 🤖 **LLM-ready**: sauberes JSON (`text` + `box` + `quad`) als Input für text-only LLMs
- 🗂️ **Bilder + PDF**: png/jpg/webp/tiff/bmp … und PDF (bis ~500 Seiten) — ein API-Aufruf, JSON je Seite

## Benchmarks (deutsche Eval-Sets, CPU)

**KSVTRv3-de** — deutscher Recognizer, eigene deutsche Eval-Sets (NED ↑ = Zeichen-Ähnlichkeit, höher = besser):

| Set | NED ↑ | ~CER |
|---|--:|--:|
| Modernes Deutsch (clean) | **0,91** | ~9 % |
| Degradierte Scans (Augraphy) | **0,85** | ~15 % |
| Fraktur (NewsEye, real) | **0,74** | ~26 % |

**Einordnung:** KSVTRv3-de ist ein **deutscher Spezialist** — robust auf echten/verrauschten Scans und Fraktur (Realismus-Training mit Augraphy). Trainiert auf deutschen Korpora (Leipzig) + Domänenfeldern (Rechnung/IBAN/USt-IdNr) + 2642 Dokument-Fonts. Auf sauberem modernem Deutsch sind dedizierte Engines (z. B. Tesseract) bei reiner Zeichengenauigkeit teils vorn; GOCRs Stärke ist die **robuste, on-prem, integrierte** Dokument→JSON-Schicht (CPU, klein, LLM-ready).

## JSON-Schema
```json
{
  "engine": "GOCR", "version": "0.2.0",
  "image": {"width": 1414, "height": 2000},
  "text": "…Volltext in Lesereihenfolge…",
  "n_regions": 50,
  "regions": [
    {"id": 0, "text": "Rechnungsnummer", "score": 0.99,
     "box": [217, 723, 465, 752], "quad": [[217,723],[465,723],[465,752],[217,752]]}
  ]
}
```

## Nutzung
```bash
g-ocr dokument.png              # JSON (Text + box + quad)
g-ocr dokument.png --text-only  # nur Text (Lesereihenfolge)
```

## Architektur
Zwei Stufen, reines ONNX/CPU: **GOCR-Detektor** (DB-basiert) + **KSVTRv3-de-Recognizer** (SVTR-Encoder + CTC, deutscher Charset).

![GOCR Architektur](assets/gocr_architecture_v2.png)

So entsteht der deutsche Recognizer (Daten-Foundation → Training → Deploy):

![GOCR Training-Pipeline](assets/gocr_training_pipeline_v2.png)

## Limitationen
- Fokus ist die **Layout-+-Text-Schicht** für Pipelines, nicht der Spitzenwert bei reiner Modern-DE-Texterkennung.
- **Wort-Spacing**: Wortgrenzen sind nicht immer korrekt (schwächeres Bag-of-Words) — Zeichengenauigkeit (CER) ist davon kaum betroffen.
- Sehr kleine/verrauschte Schrift + extreme Layouts können Detektion/Erkennung erschweren.
- Reine OCR — kein Sprachverständnis (das macht das nachgelagerte LLM).

## Credits & Upstream
GOCR baut auf hervorragender Open-Source-Arbeit auf (jeweils **Apache-2.0**):
- **OpenOCR** ([Topdu/OpenOCR](https://github.com/Topdu/OpenOCR)) — Detektor (DB) + Recognizer (RepSVTR / SVTR-Familie) und Trainings-Framework.
- **PaddleOCR** ([PaddlePaddle/PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR)) — Zeichen-Dictionary (`ppocr_keys_v1`).

Beide stehen unter Apache-2.0; die Lizenz- und Urheberhinweise gelten fort (siehe `NOTICE`).

> **Aktuelles Modell:** Der Recognizer ist **KSVTRv3-de** (deutscher Charset, 144 Zeichen), via Transfer-Learning vom OpenOCR-Encoder auf deutschen Korpora + Domänendaten + Scan-Realismus (Augraphy) trainiert.

## Lizenz
**Apache-2.0** — siehe `LICENSE` und `NOTICE`.

---
**Das KI-Büro für Ihre Dokumente** → **[german-ocr.de](https://german-ocr.de)**