Wang und ihr Team haben daher neue Benchmarks erstellt, um KI-Systeme anhand von zwei verschiedenen Dimensionen zu bewerten, sogenanntes Unterschiedsbewusstsein und kontextbezogenes Bewusstsein.
Die Besonderheit, es handelt sich nicht mehr um einfache Textaufgaben, wie sie klassische Benchmarks nutzen, sondern um Aufgaben mit realen Anforderungen und komplexen Formaten.