MULTIMODAL

API Verfügbar

GPT-4o

OpenAI

Überblick

OpenAIs schnellstes multimodales Modell. Text, Bild und Audio in Echtzeit. GPT-4o ('o' für 'omni') ist das vielseitigste Modell von OpenAI.

Multimodal

Echtzeit

Vision

Audio

Schnell

Video Review & Tutorial

Lerne GPT-4o in Aktion kennen

Vorteile

Sehr schnelle Antwortzeiten
Echte Multimodalität (Text, Bild, Audio)
Gute Preis-Leistung
Hervorragende Vision-Fähigkeiten
Natürliche Sprachinteraktion

Nachteile

Weniger leistungsfähig als GPT-4 Turbo bei komplexen Aufgaben
Begrenzte Vision bei Detail-Erkennung
Audio noch nicht in allen Regionen verfügbar

Benchmarks

Leistung in unabhängigen Tests

mmlu

88.7%

humaneval

90.2%

math

76.6%

gpqa

53.6%

drop

83.4%

gsm8k

95.8%

Benchmark-Erklärungen

MMLU: Massive Multitask Language Understanding - Wissen in 57 Fächern
HumanEval: Code-Generierung und Problemlösung
MATH: Mathematisches Reasoning auf Wettkampfniveau
GPQA: Graduate-Level Google-Proof Q&A für Expertenwissen

Anwendungsfälle

Ideale Einsatzgebiete für GPT-4o

Sprachassistenten

Natürliche Sprachinteraktion in Echtzeit

Bildanalyse

Objekterkennung, OCR, Diagramme lesen

Live-Chat

Schnelle Kundenservice-Interaktionen

Bildbeschreibung

Detaillierte Bildanalyse und Beschreibung

Technische Daten

Kontextfenster128k Tokens

Input Preis$0.005/1M

Output Preis$0.015/1M

Release13.5.2024

Ideal für

Echtzeit-Anwendungen

Bildanalyse

Sprachassistenten

Chatbots

Preis-Rechner

Input:$0.005 / 1M tokens

Output:$0.015 / 1M tokens

Verwende den Preis-Rechner auf der Startseite für detaillierte Kalkulationen.

Ähnliche Modelle

GPT-4 Turbo

OpenAI

Claude 3.5 Sonnet

Anthropic

Gemini Pro 1.5

Google