Afin de pouvoir traiter les formes vocalisées, partiellement vocalisées et complètement vocalisées, nous identifions tout d'abord la forme non vocalisée (par élimination des voyelles) et le schéma vocalique de l’entrée. Cette étape ne nécessite que la liste des voyelles arabes. Par exemple, la procédure de dévoyellation de la chaîne (يَقْرَؤونَ : YaQRaÜûNa) « ils lisent » fournit la forme non vocalisée (يقرؤون : YQRÜWN) et le schéma vocalique32 (َ???َ?ْ?َ? : ?a??a??u?a).
Dans le schéma vocalique, chaque consonne est remplacée par un point d'interrogation à son emplacement dans le mot.