MULTIMODAL
API Verfügbar

GPT-4o

OpenAI
Überblick

OpenAIs schnellstes multimodales Modell. Text, Bild und Audio in Echtzeit. GPT-4o ('o' für 'omni') ist das vielseitigste Modell von OpenAI.

Multimodal
Echtzeit
Vision
Audio
Schnell
Video Review & Tutorial
Lerne GPT-4o in Aktion kennen
Vorteile
  • Sehr schnelle Antwortzeiten
  • Echte Multimodalität (Text, Bild, Audio)
  • Gute Preis-Leistung
  • Hervorragende Vision-Fähigkeiten
  • Natürliche Sprachinteraktion
Nachteile
  • Weniger leistungsfähig als GPT-4 Turbo bei komplexen Aufgaben
  • Begrenzte Vision bei Detail-Erkennung
  • Audio noch nicht in allen Regionen verfügbar
Benchmarks
Leistung in unabhängigen Tests

mmlu

88.7%

humaneval

90.2%

math

76.6%

gpqa

53.6%

drop

83.4%

gsm8k

95.8%

Benchmark-Erklärungen

MMLU
Massive Multitask Language Understanding - Wissen in 57 Fächern
HumanEval
Code-Generierung und Problemlösung
MATH
Mathematisches Reasoning auf Wettkampfniveau
GPQA
Graduate-Level Google-Proof Q&A für Expertenwissen
Anwendungsfälle
Ideale Einsatzgebiete für GPT-4o

Sprachassistenten

Natürliche Sprachinteraktion in Echtzeit

Bildanalyse

Objekterkennung, OCR, Diagramme lesen

Live-Chat

Schnelle Kundenservice-Interaktionen

Bildbeschreibung

Detaillierte Bildanalyse und Beschreibung

Technische Daten
Kontextfenster128k Tokens
Input Preis$0.005/1M
Output Preis$0.015/1M
Release13.5.2024
Ideal für
Echtzeit-Anwendungen
Bildanalyse
Sprachassistenten
Chatbots
Preis-Rechner
Input:$0.005 / 1M tokens
Output:$0.015 / 1M tokens

Verwende den Preis-Rechner auf der Startseite für detaillierte Kalkulationen.