MMTB Task Explorer

sort

meta-category

Media ProductionEnterprise & CompliancePerformance & CoachingPersonal & EducationOperations & Research

modality

🔊 audio📄 document🖼 image📝 text🎥 video

difficulty tier

unsolvedfrontierhardmoderateeasy

native requirement

🖼 image🔊 audio🎥 video

family (22)

audio_productionaudio_visual_auditav_qacaptioningclip_mining_retrievalclip_retrievalcompliancedataset_annotationdocument_extractiongameplay_qalecture_understandinglong_form_clip_extractmedia_productionmedia_qameeting_comprehensionoffice_workflowpersonal_workflowretrievalspeaker_attributionspoken_mediaspoken_media_perceptionui_event_audit

keyword tags

audiovideojoint-avspeechimageperceptualuimusiceducationocrcomplianceemotionsttlecturepost-productioncross-modallip-syncstructured-extraction

pro-ladder partition

audio-unlockedimage-unlockedmultimodal-unlockedtext-tool-solvableunresolved-by-Pro

codex × pro-mm

Codex-only (CLI-strategy evidence)MM-only (omni-necessary evidence)both-failboth-solve

baseline outcome

Pro·T2 ✓ Pro·T2 ✗ Pro·KIRA ✓ Pro·KIRA ✗ Pro·MM ✓ Pro·MM ✗ GPT5.2·Codex ✓ GPT5.2·Codex ✗ Sonnet·CC ✓ Sonnet·CC ✗ Flash·MM ✓ Flash·MM ✗

105 / 105 tasks

2-speaker-diarized-transcript-from-podcast-audio

Produce a diarized transcript labeling each utterance with its speaker for a 2-person podcast clip

Media Production frontier 🔊1 · 3.2m

🔊 audio native A

Pro·T2.00Pro·KIRA.00Pro·MM.58GPT5.2·Codex.00audio-unlocked

accessibility-sync-audit

Accessibility tester audits a 47 s benefits-portal screen-reader walkthrough and produces a 6-row desync log of screen-reader vs visible-focus mismatches.

2-speaker-diarized-transcript-from-podcast-audio

accessibility-sync-audit

adr-edit-detection

animation-narration-audit

articulation-deviation-detection

audience-ringtone-detection

audio-visual-dub-detection

av-desync-detection

av-desync-offset-repair

av-identity-leak-detect

av-privacy-exposure

b-roll-pool-assignment

batch-media-qc-audit

birthday-money-shot

blind-audition-match

blood-test-pdfs-to-csv

boss-cooldown-cheat-audit

broadcast-package-edit

bug-repro-claim-audit

call-center-disclosure-audit

caption-nonspeech-enrichment

caption-speech-mismatch

chapter-repair

code-review-comment-attribution

comping-chord-substitution

constant-hum-attenuation

constant-offset-srt

cooking-instruction-alignment

coop-voice-callout-audit

creator-voiceover-lipsync-mismatch

crm-compliance-audit

cross-channel-privacy-leak

cursor-deictic-thumbnails

dead-air-removal

debate-attribution

deictic-ui-reference

delivery-clip-defect-triage

design-review-approval-audit

design-review-version-approval

dialogue-exchange-match

dub-speaker-mismatch

emotional-arc-match

external-mic-sync-repair

fugal-subject-entry-labeling

game-alert-mismatch

game-outcome-qa

interview-music-ducking-audit

interview-srt-refine

invoice-estimate-pdfs-to-xlsx

lecture-demo-clip-extract

lecturer-visual-term-ref

lexical-stress-classification

line-failure-annotation

lipsync-drift-correction

long-form-clip-miner

mock-call-automation

multi-mic-bleed-attribution

multi-utterance-pronunciation-errors

multicam-active-speaker-cut

musical-mood-shot-pick

narration-drift-qc

narration-mars-rover

narration-music-ducking

narration-visual-align

near-duplicate-frame-dedup

ornament-classification-detection

page-photo-to-text

partial-srt-resync

phone-level-pronunciation-errors

phoneme-confusion-patterns

piano-practice-feedback

podcast-episode-assembly

polyphonic-piano-feedback

polyrhythm-accuracy-detection

pronunciation-error-flagging

proof-step-note

prosody-multi-dim-selection

prosody-take-selection

question-statement-intonation

quote-clip-retrieval