首页 > 文献资料
-
基于熵和支持向量机的病态嗓音识别
为了更好地分析实际短数据带噪的病态嗓音信号,利用近年来提出的样本熵、多尺度熵、模糊熵和分层熵的方法来提取嗓音的熵特征参数,并借鉴分层分解方法,提出分层多尺度熵和分层模糊熵,分别对测试集39例正常嗓音和36例病态嗓音进行支持向量机(SVM)识别.实验结果表明:三层分层熵、分层多尺度熵、分层模糊熵的识别率和稳定性均较分层前有提高.在耗时较短的情况下,提取2 000点病理嗓音数据的6种熵特征都能达到较好且较稳定的识别率.提取2 000点病理嗓音数据的三层分层模糊熵特征,能得到较好且较稳定的SVM识别率97.33%,较分层前的模糊熵特征识别率提高约4.00%.熵分析方法可推进病态嗓音研究向临床的应用,为临床分析诊断实时、短数据的带噪病理嗓音提供一定的参考.
-
病态嗓音特征的神经网络选择
病态嗓音自动检测和评价的关键是有效提取相关的特征,但一般的提取原则是尽可能的把相关特征纳入特征集,其结果就很难避免各种特征的相关和冗余信息,并对随后的识别效率和检测带来负面影响,因此特征优选工作就显得非常重要.本研究对待识别嗓音样本分别提取出两种特征参数(传统声学参数和基于小波变换提出的特征参数)后,利用神经网络分别对这两种特征参数进行了特征选择和优化,并分别对选出的各组特征进行了识别,结果表明基于神经网络的特征选择方法是有效的,从基于小波变换提出的特征中选出的7维特征矢量完全能取代原始特征矢量,并取得了正常95.06%,病态92.85%的识别结果.
-
病态嗓音的定量分析及人工神经网络识别
目的:探讨临床病态嗓音的特征及计算机自动识别病态嗓音的可行性.方法:选择129例声带息肉患者为病态嗓音组,同期选取125例社区正常嗓音人群为对照组.应用Praat软件采集分析2组病例获得相关声学参数值,包括基频微扰、振幅微扰、谐噪比、信噪比、声门噪声.采用该病态嗓音组与对照组病例作为神经网络检测的训练集和测试集.同样方法另外收集140例病态嗓音及正常嗓音数据作为验证集.应用SPSS Modeler软件进行人工神经网络建模,计算模型对病态嗓音的识别率.结果:本研究根据不同性别分组计算,病态嗓音组在基频微扰、振幅微扰、声门噪声方面数值比对照组增大(P<0.05),谐噪比、信噪比方面数值比对照组减少(P<0.05).人工神经网络模型对病态嗓音的识别率为75.7%.结论:客观嗓音分析有助于病态嗓音的鉴别,人工神经网络在病态嗓音的识别上准确率较高,有很好的临床应用价值.
-
病态嗓音主观评价与声学分析的相关性研究
目的 研究嗓音听感知一致性评估(consensus auditory-perceptual evaluation of voice,CAPE-V)与嗓音声学分析结果的相关性.方法 对武汉大学人民医院耳鼻咽喉头颈外科2010年3月至2010年8月因嗓音异常入院的39名患者(异常嗓音组)行嗓音声学分析和CAPE-V评估,以22名正常嗓音者作为对照组,将两组CAPE-V结果模拟GRBAS分级分为四级,1~4级分别为0~25 mm、26~50 mm、51~75 mm、76~100 mm,1~4级表示声嘶程度逐渐加重,对不同级别间嗓音声学分析结果行独立样本t检验,并对CAPE-V结果和嗓音声学分析结果行相关性分析.结果 异常嗓音组CAPE-V值明显高于对照组(P<0.01);异常嗓音组CAPE-V 1~4级患者的基频微扰(jitt)、振幅微扰(shim)、噪/谐比(NHR)逐渐升高,而基频(F0)逐渐降低,差异有统计学意义(P<0.05);CAPE-V各级与jitt、shim、嗓音振动指数(VTI)呈正相关,相关系数分别为0.254、0.235、0.307(P<0.05).结论 CAPE-V结果能间接反映嗓音声学分析指标的变化,两者之间具有一定相关性.
-
传统声学特征和非线性特征用于病态嗓音的比较研究
本文通过分析嗓音的发音机制,提取正常与病态嗓音的传统声学参数[基频、Mel倒谱系数(MFCC)、线性预测系数(LPCC)、频率微扰、振幅微扰]与非线性动力学特征参数[熵(样本熵、模糊熵、多尺度熵)、计盒维数、计维截距和Hurst参数],作为病态嗓音识别的特征矢量集.应用支持向量机(SVM)对/a/音的78例正常嗓音与73例病态嗓音和/i/音的78例正常嗓音与80例病态嗓音进行建模与识别.结果表明,相对于传统的声学特征参数,非线性特征参数能更好地区分正常与病态嗓音;实验提取的所有参数中,除了多尺度熵,/a/音的正常与病态嗓音的识别率均高于/i/音,因此为了达到识别病态嗓音的目的,国内外相关研究大多采用/a/音数据;多尺度熵特征对/i/音的正常与病态嗓音的识别率较/a/音高,它或能为评价声带代偿功能状态的研究提供有益的启发.
-
基于非线性动力学和高斯混合模型/支持向量机的病态嗓音识别与研究
传统的病态嗓音的识别研究中,通常采用线性分析技术分析嗓音的特性,将嗓音产生过程用一个经典的线性模型来近似,然而,这样却忽略了嗓音产生过程中的非线性特性.本文基于非线性动力学的分析方法,定量分析并提取了嗓音的7维非线性特征——Hurst参数、时间延迟、第二阶Rényi熵、香农熵、关联维、Kolmogorov熵(K熵)、大Lyapunov指数.实验结果表明,非线性动力学的方法能够弥补传统分析方法的不足,较好分析正常与病态嗓音;应用高斯混合模型(GMM)和支持向量机(SVM)的模式识别方法,分别对测试集39例正常嗓音和36例病态嗓音进行识别,均得到较好的识别率,分别为97.22%和97.30%.