W 2017 r. Microsoft wykazał, że jego system rozpoznawania mowy konwersacyjnej osiągnął wskaźnik błędów słowa wynoszący 5,1%, co odpowiada ludzkiej wydajności zadania Switchboard, które obejmuje transkrypcję rozmów telefonicznych. Około jedna trzecia interakcji z komputerem na całym świecie odbywa się obecnie za pomocą głosu, a nie klawiatury; Skype zapewnia tłumaczenie mowy na mowę w czasie rzeczywistym w dziesięciu językach. Alexa, Siri, Cortana i Google oferują asystentów, którzy mogą odpowiadać na pytania i wykonywać zadania dla użytkownika; na przykład usługa Google Duplex wykorzystuje rozpoznawanie i syntezę mowy do dokonywania rezerwacji w restauracjach dla użytkowników, prowadząc płynną rozmowę w ich imieniu.