Ir al menú de navegación principal Ir al contenido principal Ir al pie de página del sitio

Transformada Wavelet packet y Perceptrón Multicapa para identificación de voces con grado leve de desvío vocal

Wavelet packet transform and multilayer perceptron to identify voices with a mild degree of vocal deviation



Abrir | Descargar


Sección
Artículos de investigación

Cómo citar
1.
Transformada Wavelet packet y Perceptrón Multicapa para identificación de voces con grado leve de desvío vocal. Rev. Investig. Innov. Cienc. Salud [Internet]. 2022 Mar. 8 [cited 2024 Nov. 21];4(1):16-25. Available from: https://riics.info/index.php/RCMC/article/view/126

Dimensions
PlumX
Licencia
Creative Commons License

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.

Mateus Morikawa
    Danilo Hernane Spatti
      María Eugenia Dajer

        Introducción. Los trastornos laríngeos se caracterizan por un cambio en el patrón vibratorio de los pliegues vocales. Este trastorno puede tener un origen orgánico, descrito como la modificación anatómica de los pliegues vocales, o de origen funcional, provocado por abuso o mal uso de la voz. Los métodos de diagnóstico más comunes se realizan mediante procedimientos invasivos que causan malestar al paciente. Además, los desvíos vocales de grado leve no impiden que el individuo utilice la voz, lo que dificulta la identificación del problema y aumenta la posibilidad de complicaciones futuras.

        Objetivo. Por esas razones, el objetivo de esta investigación es desarrollar una herramienta alternativa, no invasiva para la identificación de voces con grado leve de desvío vocal aplicando Transformada Wavelet Packet (WPT) y la red neuronal artificial del tipo Perceptrón Mutlicapa (PMC).

        Métodos. Fue utilizado un banco de datos con 78 voces. Fueron extraídas las medidas de energía y entropía de Shannon usando las familias Daubechies 2 y Symlet 2 para después aplicar la red neuronal PMC.

        Resultados. La familia Symlet 2 fue más eficiente en su generalización, obteniendo un 99.75% y un 99.56% de precisión mediante el uso de medidas de energía y entropía de Shannon, respectivamente. La familia Daubechies 2, sin embargo, obtuvo menores índices de precisión: 91.17% y 70.01%, respectivamente.

        Conclusión. La combinación de WPT y PMC presentó alta precisión para la identificación de voces con grado leve de desvío vocal.


        Visitas del artículo 586 | Visitas PDF 196


        1. Imamura R, Tsuji DH, Sennes LU. Fisiologia da laringe. In Pinho S, Tsuji DH, Bohadana S, editors. Fundamentos de Laringologia e Voz. 1st ed. Rio de Janeiro: Revinter Ltda; 2006.
        2. Behlau M, Rocha B, Englert M, Madazio G. Validation of the Brazilian Portuguese CAPE-V Instrument—Br CAPE-V for Auditory-Perceptual Analysis. J Voice. 2020. doi: https://doi.org/10.1016/j.jvoice.2020.07.007
        3. Patel S, Shrivastav R. Perception of dysphonic vocal quality: some thoughts and research update. Perspect Voice Voice Dis. 2007;17:3–6. doi: https://doi.org/10.1044/vvd17.2.3
        4. Eadie T, Sroka A, Wright DR, Merati A. Does knowledge of medical diagnosis bias auditory-perceptual judgments of dysphonia? J Voice. 2011;25:420–429. doi: https://doi.org/10.1016/j.jvoice.2009.12.009
        5. Yamasaki R, Madazio G, Leão SHS, Padovani M, Azevedo R, Behlau M. Auditory-perceptual Evaluation of Normal and Dysphonic Voices Using the Voice Deviation Scale. J Voice. 2016;31:67-71. doi: https://doi.org/10.1016/j.jvoice.2016.01.004
        6. Webb AL, Carding PN, Deary IJ, MacKenzie K, Steen N, Wilson JA. The reliability of three perceptual evaluation scales for dysphonia. Eur Arch Otorhinolaryngol. 2004;261:429-434. doi: https://doi.org/10.1007/s00405-003-0707-7
        7. Karnell MP, Melton SD, Childes JM, Coleman T, Dailey S, Hoffman H. Reliability of clinician-based (GRBAS and CAPE-V) and patient-based (V-RQOL and IPVI) documentation of voice disorders. J Voice. 2007;21:576-590. doi: https://doi.org/10.1016/j.jvoice.2006.05.001
        8. Kempster GB, Gerratt BR, Verdolini Abbott K, Barkmeier-Karemer J, Hillman RE. Consensus auditory-perceptual evaluation of voice: development of a standardized clinical protocol. Am J Speech Lang Pathol. 2009;18:124-132. doi: https://doi.org/10.1044/1058-0360(2008/08-0017)
        9. Tan BT, Fu M, Spray A, Dermody P. The use of wavelet transforms in phoneme recognition. Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP '96; 1996 Out 3 – Out 6; Philadelphia, USA. IEEE; 2002. p. 2431-2434. doi: https://doi.org/10.1109/ICSLP.1996.607300
        10. Lima AAM, Barros FKH, Yoshizumi VH, Spatti DH, Dajer ME. Optimized Artificial Neural Network for Biosignals Classification Using Genetic Algorithm. J Control Autom Electr. 2019;30:371-379. doi: https://doi.org/10.1007/s40313-019-00454-1
        11. Oliveira HM. Análise de Fourier e Wavelets: Sinais Estacionários e não Estacionários. Recife: Editora Universitária, UFPE; 2007.
        12. Jiao S, Shi W, Liu Q. Self-adaptative partial discharge denoising based on variation mode decomposition and wavelet packet transform. Chinese automation congress; 2017 Out 20 – Out 22; Jinan, China. IEEE; 2018 Jan. p. 6. doi: https://doi.org/10.3390/en12173242.
        13. Ramirez-Villegas JF, Ramirez-Moreno DF. Wavelet packet Energy, Tsallis entropy and statistical parameterization for support vector-based and neural-based classification of mammographic regions. J Neurocomputing. 2012;77(1):82-100. doi: https://doi.org/10.1016/j.neucom.2011.08.015.
        14. Zhang Y, Dong Z, Wang S, Ji G, Yang J. Preclinical diagnosis of magnetic resonance (MR) brain images via discrete wavelet packet transform with Tsallis entropy and generalized eigenvalue proximal support vector machine (GEPSVM). J Entropy. 2015;17(4):1795-1813. doi: https://doi.org/10.3390/e17041795
        15. Barizão H, Fermino MA, Dajer ME, Liboni LHB, Spatti DH. Voice disorder classification using MLP and wavelet packet transform. 2018 International Joint Conference on Neural Networks (IJCNN); 2018 Jul 8 – Jul 13; Rio de Janeiro, Brazil; IEEE; 2018. p. 8. doi: https://doi.org/10.1109/IJCNN.2018.8489121
        16. Alves M, Silva G, Bispo BC, Dajer ME, Rodrigues PM. Voice Disorders Detection Through Multiband Cepstral Features of Sustained Vowel. J Voice. 2021;35(5):1-10. doi: https://doi.org/10.1016/j.jvoice.2021.01.018
        17. Silva IND, Spatti DH, Flauzino RA. Redes Neurais Artificiais para engenharia e ciências aplicadas. São Paulo: Artliber; 2010.
        18. Haykin S. Redes Neurais: Princípios e Prática. 2nd ed. Hamilton: Bookman; 2001.
        19. Souzanchi-K M, Owhadi-Kareshk M, Akbarzadeh-T MR. Control of elastic joint robot based on electromyogram signal by pre-trained Multi- Layer Perceptron. 2016 International Joint Conference on Neural Networks (IJCNN); 2016 Jul 24 – Jul 29; Vancouver, Canada; IEEE; 2016. doi: https://doi.org/10.1109/IJCNN.2016.7727891
        20. Baracho SF, Pinheiro DJLL, de Melo VV, Coelho RC. A hybrid neural system for the automatic segmentation of the interventricular septum in echocardiographic images. 2016 International Joint Conference on Neural Networks (IJCNN); 2016 Jul 24 – Jul 29; Vancouver, Canada; IEEE; 2016. doi: https://doi.org/10.1109/IJCNN.2016.7727868
        21. Bevilacqua V, Salatino AA, Di Leo C, Tatolli G, Buongiorno D, Signorile D, et al. Advanced classification of Alzheimer's disease and healthy subjects based on EEG markers. 2015 International Joint Conference on Neural Networks (IJCNN); 2015 Jul 12 – Jul 17; Killarney, Ireland; IEEE; 2015. doi: https://doi.org/10.1109/IJCNN.2015.7280463
        22. Silva EHD, Morikawa M, Suterio VB, et al. Aplicação De Rede Neural Artificial Especialista Em Reconhecimento De Transtornos Vocais Moderados. In: Dallamuta J, Ajuz Holzman H, organizers. Engenharia Elétrica: Comunicação Integrada no Universo da Energia. 1st ed. Ponta Grossa: Atena Editora; 2021. doi: https://doi.org/10.22533/at.ed.3732123021
        23. MATLAB. version 9.3 (R2017b). Natick, Massachusetts: The MathWorks Inc.; 2017.
        24. Zambon FC. Estratégias de enfrentamento em professores com queixa de voz. [thesis]. [São Paulo]: Universidade Federal de São Paulo; 2011.
        25. Paliwal KK, Lyons JG, Wójcicki KK. Preference for 20 40 ms window duration in speech analysis. 2010 4th International Conference on Signal Processing and Communication Systems; 2010 Dec 13 – Dec 15; Gold Coast, Austrália; IEEE; 2011. doi: https://doi.org/10.1109/ICSPCS.2010.5709770
        26. Lima AAM. Classificação de Disfonias Utilizando Redes Neurais Artificiais e Transformadas Wavelet Packet. [Bachelor’s thesis]. [Cornélio Procópio]: Universidade Tecnológica Federal do Paraná; 2018.
        27. Lever J, Krzywinski M, Altman N. Classification evaluation. Nat Methods. 2016;13:603–604. doi: https://doi.org/10.1038/nmeth.3945.
        28. Medeiros JdaSA, Santos SMM, Teixeira LC, Cortes Gama AC, de Medeiros AM. Sintomas vocais relatados por professoras com disfonia e fatores associados. J Audiol Commun Res. 2016;21:1-8. doi: https://doi.org/10.1590/2317-6431-2015-1553
        29. Giannini SSP, Ferreira LP. Voice disorders in teachers and the International Classification of Functioning, Disability and Health (ICF). Rev. Investig. Innov. Cienc. Salud [Internet]. 2021 Aug. 3 [cited 2022 Feb. 5];3(1):33-47. doi: https://doi.org/10.46634/riics.60
        30. Cantor-Cutiva LC, Cuervo-Diaz DE, Hunter EJ, Moreno-Angarita M. Impairment, disability, and handicap associated with hearing problems and voice disorders among Colombian teachers. Rev. Investig. Innov. Cienc. Salud [Internet]. 2021 Aug. 3 [cited 2022 Feb. 5];3(1):4-21. doi: https://doi.org/10.46634/riics.48
        Sistema OJS 3.4.0.7 - Metabiblioteca |