Si vous n’avez pas encore regardé l’événement OpenAI d’hier, je vous recommande fortement de le faire. La grande nouvelle était que le dernier modèle GPT-4o fonctionne de manière transparente avec n’importe quelle combinaison de texte, d’audio et de vidéo.
Cela inclut la possibilité de « montrer » à l’application GPT-4o un enregistrement d’écran que vous prenez à partir d’une autre application – et c’est cette capacité que la société a montrée avec une démo de tuteur iPad AI assez folle…
GPT-4o
OpenAI a déclaré que le « o » signifie « omni ».
GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine beaucoup plus naturelle : il accepte comme entrée n’importe quelle combinaison de texte, d’audio et d’image et génère n’importe quelle combinaison de sorties de texte, d’audio et d’image.
Il peut répondre aux entrées audio en aussi peu que 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain(opens in a new window) dans une conversation. […] Le GPT-4o est particulièrement meilleur en termes de compréhension visuelle et audio par rapport aux modèles existants.
Même l’aspect vocal est un gros problème. Auparavant, ChatGPT pouvait accepter la saisie vocale, mais il la convertissait en texte avant de l’utiliser. GPT-4o, en revanche, comprend réellement la parole et ignore donc complètement l’étape de conversion.
Comme nous l’avons noté hier, les utilisateurs gratuits bénéficient également de nombreuses fonctionnalités auparavant réservées aux abonnés payants.
Démo du tuteur IA sur iPad
L’une des capacités démontrées par OpenAI était la capacité de GPT-4o à regarder ce que vous faites sur l’écran de votre iPad (en mode écran partagé).
L’exemple montre l’IA qui donne des cours particuliers à un élève ayant un problème de mathématiques. Vous pouvez entendre qu’au départ, GPT-4o a compris le problème et a voulu le résoudre immédiatement. Mais le nouveau modèle peut être interrompu, et dans ce cas, il a été demandé d’aider l’étudiant à le résoudre lui-même.
Cette démo est folle.
Un étudiant partage l’écran de son iPad avec le nouveau ChatGPT + GPT-4o, et l’IA parle avec lui et l’aide à apprendre en *temps réel*.
Imaginez donner cela à tous les étudiants du monde.
L’avenir est tellement brillant. pic.twitter.com/t14M4fDjwV
–Mckay Wrigley (@mckaywrigley) 13 mai 2024
Une autre capacité observée ici est que le modèle prétend détecter les émotions dans la parole et peut également exprimer lui-même les émotions. À mon goût, c’était plutôt exagéré dans la version démo, et cela se reflète ici – l’IA est peut-être un peu condescendante. Mais tout est réglable.
En effet, chaque étudiant dans le monde pourrait avoir un tuteur privé doté de ce type de capacités.
Dans quelle mesure Apple va-t-il en intégrer ?
Nous savons que l’IA est l’objectif principal d’iOS 18 et qu’il est en train de finaliser un accord pour apporter les fonctionnalités OpenAI aux appareils Apple. Alors qu’à l’époque cela était décrit comme étant pour ChatGPT, il semble maintenant assez probable que l’accord réel concerne l’accès à GPT-4o.
Mais nous savons également qu’Apple travaille sur ses propres modèles d’IA, avec ses propres centres de données exécutant ses propres puces. Par exemple, Apple a travaillé sur sa propre méthode pour permettre à Siri de donner un sens aux écrans des applications.
Nous ne savons donc pas exactement quelles capacités GPT-4o la société apportera à ses appareils, mais celle-ci semble si parfaitement Apple que je dois croire qu’elle sera incluse. Il s’agit véritablement d’utiliser la technologie pour responsabiliser les personnes.
Image : OpenAI. Benjamin Mayo a contribué à ce rapport.
Envie de vous détendre un peu ? Voici un reportage très intéressant sur l’intelligence artificielle :

