2021-11-03 09:38:55 索煒達(dá)電子 1403
項(xiàng)目編號(hào):B392
文件大?。?.2M
源碼說(shuō)明:帶中文注釋
開(kāi)發(fā)環(huán)境:Python
簡(jiǎn)要概述:
項(xiàng)目概述
題目背景
用樸素貝葉斯分類器進(jìn)行數(shù)字手寫體識(shí)別(基于MINIST數(shù)據(jù)集),因此在這里用樸素貝葉斯在語(yǔ)音上做一個(gè)小應(yīng)用——分辨聲音是男性還是女性。具體題目可以參考https://www.kaggle.com/primaryobjects/voicegender
數(shù)據(jù)集
數(shù)據(jù)集可自行在https://www.kaggle.com/primaryobjects/voicegender下載或附件。這個(gè)數(shù)據(jù)集是基于對(duì)男女語(yǔ)音段進(jìn)行合理的聲音預(yù)處理而得到的語(yǔ)音特征(并不包含原始語(yǔ)音段)。集合中共有3168條數(shù)據(jù),男女各1584條,每條數(shù)據(jù)可視作一個(gè)長(zhǎng)度為21的一維數(shù)組。其中前20個(gè)數(shù)值是這條語(yǔ)音的20個(gè)特征值,這些特征值包括了語(yǔ)音信號(hào)的長(zhǎng)度、基頻、標(biāo)準(zhǔn)差、頻帶中值點(diǎn)/一分位頻率/三分位頻率等;最后一個(gè)數(shù)值是性別標(biāo)記。元數(shù)據(jù)集中直接以字符串,即male和female進(jìn)行標(biāo)注。使用7:3劃分?jǐn)?shù)據(jù)集。
任務(wù)描述
通過(guò)樸素貝葉斯方法,可以先對(duì)所有特征值做統(tǒng)計(jì),并且通過(guò)連續(xù)性參數(shù)估計(jì)(高斯分布)方法得到參數(shù)。之后使用預(yù)測(cè)函數(shù)預(yù)測(cè)測(cè)試集。
設(shè)計(jì)報(bào)告:
目錄
一、項(xiàng)目題目 3
二、項(xiàng)目概述 3
題目背景 3
數(shù)據(jù)集 3
任務(wù)描述 3
評(píng)測(cè)標(biāo)準(zhǔn) 3
三、算法設(shè)計(jì) 4
高斯樸素貝葉斯算法原理簡(jiǎn)述 4
具體實(shí)現(xiàn)過(guò)程 4
拓展分析構(gòu)想 5
四、實(shí)驗(yàn)環(huán)境與平臺(tái) 6
五、程序?qū)崿F(xiàn) 6
高斯樸素貝葉斯python源代碼 6
拓展分析中基于sklearn的四種分類器實(shí)現(xiàn)的python源代碼 10
六、實(shí)驗(yàn)結(jié)果 13
七、結(jié)果分析 14
八、拓展分析 15
抽樣方式比較 15
各個(gè)屬性的分析 16
特征篩選后的結(jié)果 19
多種分類器實(shí)現(xiàn)及比較 20
參考文獻(xiàn) 22
運(yùn)行結(jié)果:
data_analyse.py是繪制各個(gè)屬性分布圖的代碼;
demo.py是初步實(shí)現(xiàn)高斯貝葉斯的代碼;
Four_sorters_sklearn.py是基于sklearn實(shí)現(xiàn)的四種分類器代碼;
GNB_python.py是整理后的高斯貝葉斯代碼;
report.docx是項(xiàng)目報(bào)告;
voice.csv是數(shù)據(jù)集;
目錄│文件列表:
└ ML_Project
│ data_analyse.py
│ demo.py
│ Four_sorters_sklearn.py
│ GNB_python.py
│ report.docx
│ voice.csv
└ __pycache__
└ sklearn.cpython-37.pyc