Y Wladwriaeth o Gydnabod Llais Linux

Cyflwyniad

Rydw i'n treulio llawer o amser yn ymchwilio i erthyglau ac yn aml iawn rwy'n meddwl am y pwnc ar gyfer erthygl wrth gerdded i'r orsaf drenau neu pan fyddwn allan yn gyffredinol.

Un noson wrth gerdded yr 1.5 milltir i'r orsaf o'm gwaith, roeddwn i'n meddwl "na fyddai'n dda pe bawn i'n cofnodi yr hyn yr oeddwn am ei ddweud ac yna ei drawsgrifio'n awtomatig i ffeil testun y gallwn ei olygu a'i fformat yn ddiweddarach" .

Rwyf wedi treulio llawer o oriau hir yn edrych ar y gwahanol opsiynau sydd ar gael ar gyfer cydnabyddiaeth llais a phenderfyniad gan gynnwys cofnodi'n uniongyrchol drwy feicroffon gan ddefnyddio meddalwedd pennu yn Linux, gan gofnodi'r ffeil i fformat MP3 neu WAV a'i drawsnewid trwy'r llinell orchymyn, yn ogystal â defnyddio Chrome a cheisiadau Android.

Mae'r erthygl hon yn amlygu fy nghanfyddiadau ar ôl diwrnodau o lafur caled.

Dewisiadau Linux

Nid yw ceisio dod o hyd i feddalwedd dyfarniad a chydnabyddiaeth llais yn Linux mor hawdd ag y gallai fod ac nid yw'r opsiynau sydd ar gael yn glyfar.

Mae gan y dudalen wikipedia hon restr o opsiynau posibl gan gynnwys CMU Sphinx, Julius a Simon.

Rwy'n defnyddio SparkyLinux sydd wedi'i seilio ar Brofi Debian ar hyn o bryd a gallaf ddweud wrthych mai'r unig becyn adnabod llais sydd ar gael yn yr ystadelloedd yw Sphinx.

Y rhaglenni Linux brodorol a gefais i mi oedd PocketSphinx, a ddefnyddiais i drosi ffeiliau WAV i destun a Freespeech-VR sy'n gais python sy'n eich galluogi i gofnodi'n syth o feicroffon.

Rwyf hefyd wedi rhoi cynnig ar gwpl o apps Chrome gan gynnwys VoiceNote II a Dictanote.

Yn olaf, ceisiais y Apps Android "Dictation and Email" a "Talk And Talk Dictation".

Freespeech-VR

Nid yw Freespeech-VR ar gael yn yr ystadfeydd safonol. Fe wnes i lawrlwytho'r ffeiliau yma.

Ar ôl lawrlwytho a thynnu cynnwys y ffeil zip, agorais derfynell ac fe'i cyfeiriwyd at y ffolder lle cafodd y ffeiliau eu dynnu.

Teipiais y gorchymyn canlynol i agor freespeech-vr.

sudo python freespeech-vr

Mae gen i bâr o glustffonau gyda meicroffon gweddol ddewladwy ac acen Saesneg eithaf clir.

Ymddangosodd y testun canlynol yn y ffenestr freespeech-vr:

Croeso i gŵn yr uned o'r canlyniad Heddiw Wedi sicrhau bod Profion Rheoledig Rhaid i chi brofi Pan I destun Defnyddio'r system system Lleferydd I'r Un i bob un Dim ond Mewn I I obaith o aros Ac i Ffrwythau Un ieir yn aur fel system Yr Ea pan fydd fy enw i, mae'r orchymyn nesaf yn ffonio'r ffeil Ffeil ddigon o achosion yn ffonio i Hands- Gofod y sffinx Going Nid yw ffonau yn cael eu rhannu Wedi'i hyfforddi ac offer Defnyddio siarad Pan fyddwch chi'n gorffen Dweud Ffeil a ddefnyddir Last stori A A defnyddio a gan y Pryd y mae'n iawn pa mor llwyddiannus oedd y Linux hon fel Ydych chi'n ei osgoi

Hoffwn ddweud nawr nad dyma wefan yr Uned Cŵn ac nad oeddwn yn sôn am unrhyw beth i'w wneud gydag ieir Aur. Yr oeddwn mewn gwirionedd yn ceisio disgrifio'r broses o ddefnyddio meddalwedd adnabod llais.

Ceisiais y feddalwedd ychydig weithiau gan gynnwys traw a chyflymder amrywiol ond roedd y cywirdeb yn wael.

PocketSphinx

Mae PocketSphinx yn gallu cymryd ffeil WAV a'i drosi i destun trwy ddefnyddio'r llinell orchymyn.

Mae PocketSphinx ar gael drwy'r archifdai Debian a dylai fod ar gael ar gyfer y rhan fwyaf o ddosbarthiadau.

Y prif fater a gefais gyda PocketSphinx yw eich bod chi bron angen gradd mewn cysyniadau cydnabyddiaeth llais, ffeiliau iaith, geiriaduron a sut i hyfforddi'r system.

Ar ôl gosod PocketSphinx, dylech fynd i wefan Sphinx CMU a darllen cymaint o wybodaeth â phosib. Mae angen i chi hefyd lawrlwytho'r ffeil enghreifftiol canlynol.

(Os nad ydych chi'n siarad Saesneg brodorol, dewiswch y model iaith sy'n briodol i chi).

Mae'r ddogfennaeth ar gyfer PocketSphinx a Sphinx yn gyffredinol yn anodd ei ddeall ar gyfer y person lleyg, ond o'r hyn y gallwn i wneud ffeiliau geiriadur, fe'i defnyddir i ddarparu rhestr o eiriau posibl ac mae gan fodelau iaith restr o ddarganfyddiadau posibl.

I brofi PocketSphinx, defnyddiais recordiad o fy llais fy hun, bracedi o Al Pacino yn "The Devils Advocate" a snippet o "Morgan Freeman". Y pwynt hwn oedd rhoi cynnig ar wahanol leisiau ac i mi nad oes neb a all ddweud stori mor glir â Morgan Freeman ac nad oes neb yn cyflwyno llinell fel Al Pacino.

Ar gyfer PocketSphinx i weithio, mae angen ffeil WAV arno, ac mae angen iddo fod ar ffurf benodol. Os yw'r ffeil ar ffurf MP3, defnyddiwch y gorchymyn ffmpeg i'w throsi i mewn i fformat WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

I redeg PocketSphinx defnyddiwch y gorchymyn canlynol:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

mae pocketsphinx_continuous yn cymryd ffeil WAV a'i drawsnewid i destun.

Yn y gorchymyn uchod, dywedir wrth pocketsphinx ddefnyddio ffeil geiriadur o'r enw "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" gyda'r model iaith "cmusphinx-5.0-en-us.lm". Gelwir y ffeil sy'n cael ei drosi i destun yn voice2.wav (sef recordiad a wneuthum gyda fy llais). Yn olaf, mae'r 2> yn gosod yr allbwn verbose nad oes angen o reidrwydd i mewn i ffeil o'r enw voice2.log. Mae gwir ganlyniadau'r prawf i'w gweld yn y ffenestr derfynell.

Mae'r canlyniadau sy'n defnyddio fy llais fel a ganlyn:

Croeso i'r nesaf am dda ddim yr wythnos hon yn amodol ar ba feddalwedd cydnabyddiaeth mewn munud

Nid yw'r canlyniadau mor ddychrynllyd â freespeech-vr ond nid ydynt yn dal i fod yn hawdd eu defnyddio. Ceisiais wedyn ddefnyddio PocketSphinx gydag Al Pacino ond ni ddychwelodd unrhyw ganlyniadau o gwbl.

Yn olaf, ceisiais ddefnyddio llais Morgan Freeman o'r ffilm "Bruce Almighty" a dyma'r canlyniadau:

000000000: byddwn ni arni hi
000000001: yr un mor anodd ydyw y diwrnod sydd ar hyn o bryd yeah dyma'r mwyaf yr ydym wedi bod yn fyw rydw i yn rhan o'r poeth
000000002: yn yr elevydd pwy yw'r allwedd allan o ychydig o bêl fas o'r gloch neu wybod beth i'w wneud i mewn bywydau
000000003: beth yw'r rhai a fydd yn gwella
000000004: nid oeddent yn ei ysgrifennu
000000005: maen nhw wedi mynd allan i mi allan
000000006: rhaid i chi fod yn reolau
000000007: Rwyf wedi bod yn disgwyl i chi
000000008: ac fe ddysgodd yma mai dyna oedd y blaid laddwr Nadolig
000000009: mae'n troi allan un o'r ffordd i ysgrifennu o. Nid wyf yn meddwl fy mod yn gwisgo un
000000010: fel y broblem, ni fydd yr undeb yn rhoi'r gorau iddyn nhw a amcangyfrifwyd nhw ar yr adeg honno pan na wnaethom ni i gyd yr ydych chi o'r farn fy mod yn y byd y bydd cartrefi, ac yr wyf wedi gweld hynny
000000011: tad sydd â hi
000000012: beth sy'n ymwneud â hyn
000000013: a yw hynny'n rhoi hynny
000000014: popeth ydych chi nad ydynt yn disgyn am lawer
000000015: dde yn y cwymp
000000016: da iawn arnaf i mi
000000017: mae'n anhapus os ydw i'n meddwl hefyd y byddant yn cael bod y bydd pawb a briododd ar hynny ddim yn gwneud i ni ei hoffi yn wahanol i'r ffordd

Ni ellir priodoli fy mhrawf yn wyddonol a gall datblygwyr PocketSphinx ddatgan nad wyf yn defnyddio'r feddalwedd yn gywir. Mae yna dechneg hefyd o'r enw hyfforddiant llais y gellir ei ddefnyddio i greu geiriaduron a ffeiliau iaith gwell.

Fodd bynnag, fy marn bwysicaf yw ei bod yn rhy anodd i ddefnydd safonol bob dydd.

VoiceNote II

Mae App VoiceNote II yn Chrome sy'n defnyddio API adnabod Google Voice.

Os ydych chi'n defnyddio'r porwyr Chrome neu Chromium, gallwch chi osod VoiceNote II drwy'r We Store .

Mae'r eiconau ar VoiceNote II wedi'u gosod mewn modd rhyfedd gan fod angen i chi osod yr iaith ar waelod y ffenestr ac mae'r botwm golygu hefyd ar y gwaelod, ond mae'r botwm cofnodi yn y lle uchaf i'r dde.

Y peth cyntaf y mae angen i chi ei wneud yw dewis iaith a gellir gwneud hyn trwy glicio ar eicon y byd.

I ddechrau cofnodi, cliciwch ar yr eicon microffon a dechrau siarad â'ch meicroffon. Am y canlyniadau gorau, canfyddais i siarad yn araf yn allweddol er mwyn i'r meddalwedd gael cyfle i gadw i fyny.

Nid oedd y canlyniadau yn wych fel y gwelir isod:

Helo a chroeso i gysylltu. Mae erthyglau yn ymwneud â throsi dunelm farrell 2008 yn cael eu trosi yn ddi-dâl fel cyfnewidiadau a dywedodd ei fod wedi cefnogi'r ffordd orau i ddod o hyd i ychwanegiad testun llais i ddangos pecyn 2014debian neu rpm ei agor yn debyg i leferydd i destun a'i agor os ydych am ddewis dewisodd vs yn yr Almaen Ffrengig Almaeneg rhoi'r amser i chi mewn meicroffon unedig ar y môr yn y môr y byddwch chi wedi gorffen ysgrifennu eich testun fel ffeil testun i theatr y byd yn dda, mae hynny'n accent Saesneg safonol iawn o'r de o'r Ingland orau ar ei gyfer, ond dwi'n mynd i'r negeseuon teithiol yma. gyda'r ddogfen wirioneddol a gallwch ei weld am y camgymeriadau y makethank chi am wrando arnyn nhw

Dictanote

Mae Chrome yn App Chrome arall y gellir ei ddefnyddio at ddibenion pennu a dod i'r amlwg fel bod yn fwy sythweledol ond nid oedd y canlyniadau yn well na VoiceNote II.

Dim ond y fersiwn demo o Dictanote a ddefnyddiais sy'n eich rhwystro rhag creu dogfennau newydd ond rwy'n gadael i chi siarad dros destun sydd eisoes yn y golygydd. Roeddwn yn gallu profi'r gydnabyddiaeth llais ond nid oedd y canlyniadau yn well na VoiceNote II ac felly nid wyf wedi cofrestru ar gyfer y fersiwn pro.

Dictyddiaeth A Post

Mae "Dictation And Mail" yn Gymhwysiad Android sy'n defnyddio'r API adnabod llais brodorol Google.

Roedd y canlyniadau o "Dictation and Mail" yn llawer gwell nag unrhyw un o'r rhaglen arall a geisiodd hyd at y pwynt hwn.

helo croeso i Linux amdanyn nhw, heddiw rydym yn sôn am drosi sain i destun

Y darn gyda "Dictation and Mail" yw siarad yn araf ac yn darganfod cystal ag y gallwch gydag acen hyd yn oed.

Ar ôl i chi orffen siarad, gallwch e-bostio'r canlyniadau i chi'ch hun.

Talk And Talk Dictation

Y Cais Android arall a gefais oedd "Talk And Talk Dictation".

Y rhyngwyneb ar gyfer yr app hon oedd y gorau o'r criw ac roedd y gydnabyddiaeth llais yn gweithio'n dda iawn yn wir. Ar ôl cofnodi'r dyfarniad, roeddwn yn gallu rhannu'r canlyniadau mewn gwahanol ffyrdd, gan gynnwys trwy e-bost.

Croeso i linux about.com heddiw rydym yn sôn am drosi araith i destun

Fel y gwelwch y testun uchod mae mor glir ag y gallwch chi ddisgwyl ei gael. Siarad yn araf yw'r allwedd.

Crynodeb

Mae gan Linux Brodorol ryw ffordd i'w wneud o ran cydnabod Llais a phennu'n benodol. Mae rhai ceisiadau sy'n defnyddio API Google Voice ond nid ydynt wedi'u rhestru eto mewn ystorfeydd.

Mae ceisiadau ChromeOS ychydig yn well, ond cyflawnwyd y canlyniadau gorau gan ddefnyddio fy ffôn Android. Efallai bod gan y ffôn well meicroffon ac felly mae'r meddalwedd adnabod llais yn gyfle gwell i addasu.

Er mwyn i gydnabod llais ddod yn wirioneddol ddefnyddiol, mae angen iddo fod yn fwy sythweladwy gyda llai o setiad angenrheidiol. Ni ddylech chi orfod lliniaru gyda modelau iaith a geiriaduron er mwyn ei gwneud yn ddealladwy.

Fodd bynnag, rwy'n gwerthfawrogi bod cysyniad cydnabyddiaeth lais yn heriol iawn gan fod gan bawb lais wahanol ac mae cymaint o dafodieithoedd o ranbarth i ranbarth mewn un wlad byth yn poeni am y cannoedd o ieithoedd a ddefnyddir ledled y byd.

Fy dadansoddiad, felly, yw bod meddalwedd adnabod llais yn dal i weithio ar y gweill.