Intéressante question. Apparemment, il y a débat :
L'existence des diphtongues en français moderne peut faire l'objet de deux analyses divergentes, selon le point de vue adopté (plutôt phonétique ou plutôt phonologique) et de la francophonie envisagée (phénomène de diphtongaison, notamment au Québec). Ces points de vue apparemment contradictoires tiennent avant tout à la définition exacte qui est donnée aux deux termes employés :
français moderne (norme générale en usage ou variantes régionales, créolisées ou historiques)
à la notion de « diphtongue » en elle-même.
Position usuelle, traditionnelle et dominante
Selon la définition communément admise et qui est reprise dans tous les ouvrages usuels : « Les diphtongues n'existent plus en français moderne. » Les mêmes sources font le constat suivant : « En français, ni les voyelles en hiatus (exemple : chaos), ni les successions voyelle/semi-consonne (exemple : travail), ni les successions semi-consonne/voyelle (exemple : oui) ne sont des diphtongues. »
[...]
Une théorie concurrente
La position traditionnelle sur les diphtongues du français semble venir d'une approche essentiellement phonétique directement transposée sur le plan phonématique. Étant donné qu'il n'est pas interdit en phonétique d'utiliser plusieurs graphèmes pour affiner la description d'un phénomène sonore, alors si une phonation glissante a, tant comme point de départ que comme point d'arrivée d'autres phones déjà connus par la langue, on aura tendance à la noter phonétiquement par les mêmes signes que les phones simples de la langue quitte à utiliser ou introduire des semi-consonnes (c'est-à-dire l'idée que certaines voyelles sont en fait utilisées localement comme des consonnes). Cette notation par plusieurs graphèmes entre crochets aura naturellement tendance à se reporter dans la notation phonématique entre barres obliques, si on saute l'étape de l'examen phonématique notamment. Étant donné le problème inhérent à la notation phonématique soulevé plus haut, la notation obtenue, du fait de la règle « un symbole = un phonème » sera automatiquement interprétée à rebours comme une suite de deux phonèmes.
Différents arguments sont en faveur de cette théorie.
[...]
On constate que, du point de vue phonologique, le digramme <oi> paraît bien noter une diphtongue en français car cette hypothèse est une explication beaucoup plus économique que celle en faisant deux phonèmes. Cette position est également corroborée par l'étude lexicale et la comparaison des langues apparentées. Enfin, d'autres phonèmes que /wa/, comme ceux qui sont proposés comme diphtongues sur la page en anglais, peuvent être testés de la même manière.
Rien ne semble avoir plus varié de définition que la diphtongue. Suivons l'Académie dans les éditions successives du dictionnaire :
1694 : Jonction de deux voyelles, qui ne font qu’un mesme son. La premiere syllabe du mot œcumenique est une diphtongue.
1718 : Jonction de deux voyelles qui ne font qu’un mesme son. A & u, o & u font une diphthongue. la premiere syllabe d’Oeconomie est une diphthongue, moy, toy, luy, sont des diphthongues.
1762 : Terme de Grammaire. Réunion de deux sons qui ne font qu’une syllabe d’usage. Ciel, nuit, oui. On appelle encore communément & improprement Diphthongue, La réunion de plusieurs voyelles qui ne forment qu’un son. Feu. Eau.
1835 : T. de Gram. Syllabe qu’on prononce en faisant entendre, d’une seule émission de voix, le son de deux voyelles, comme ie, ui, oui, dans Ciel, nuit, fouine.
Il se dit quelquefois, improprement, de La réunion, dans l’écriture, de deux ou plusieurs voyelles qui ne forment qu’un son unique dans la prononciation, comme ai, au, eau, eu, au. Pour indiquer que deux voyelles ne forment point diphthongue, on met un tréma sur la seconde, comme dans faïence.
1935 : T. de Grammaire. Syllabe qu’on prononce en faisant entendre, d’une seule émission de voix, le son de deux voyelles. Ao est une diphtongue dans Chaos, Extraordinaire.
Il se dit improprement, par extension, de l’Ensemble de deux ou plusieurs voyelles qui ne forment qu’un son unique dans la prononciation, comme ai, au, eau, eu, ou, oi, oua, oué, oui, ia, ié, io, ieu.
Aujourd'hui : phonétique.
1. Voyelle qui, au cours de son émission, subit une variation de timbre de sorte que l’on peut entendre deux sons vocaliques dont l’un est plus fermé que l’autre. À la différence de certaines langues étrangères, le français moderne ne comporte pas de diphtongues au sens exact du terme.
2. Nom donné par abus à la juxtaposition graphique de deux voyelles, comme ai, au, eu, ou, qui, dans la prononciation, ne forment qu’un son unique (il est préférable de dire Digramme).