Bai euskarari bai euskarari. zerbitzua eta lana euskaraz Premie Euskara-Planak

| eu | es |

Ahozko hitz-gakoen MSWC korpus erraldoia garatu dute, eta euskara ere bada bertan

2021/12/29 sustatu.com -- Albiste originala ikusi

Common Voice proiektuaren emaitzetako bat, hitzen korpusa, publiko egin dute. Common Voicen esaldiak grabatu izan dira, 5.000 esaldiko korpus bat, ahots teknologia artifizialak libreak garatzeko, baina delako emaitza honetan, hartan oinarritutako garapen bat egin dute: Esaldiak prozesatu, eta hitz gako banakakoen n super-datubase bat askatu dute, Multilingual Spoken Words Corpus delakoa (MSWC). Keyword edo hitz-gakoen biltegi handi bat da, 50 hizkuntzetako datuekin, eta horien artean, baliabide osoenak dituen multzoan euskara dago.

Multilingual Spoken Words Corpus-en 50 hizkuntza agertzen dira, eta tartean dago euskara. Bere funtzio nagusiak egon daitezke ikerketa akademikoan, eta audio kontestuetako hitz-bilaketan, baita aplikazio komertzialetan ere, CC-BY-SA lizentzia libreak hori baimentzen baitu.

Lana bildu dutenen arabera (paper bat aurkeztu dute, izenpe inportanteekin), 340.000 hitz baino gehiago ditu, bakoitza hizkuntza berezko hiztun desberdinek grabatuta, eta hortaz praktilan 23.4 milioi grabatu dira, gutxi gora-behera bakoitza segundu bateko fitxategia izanik, bada 6.000 ordu baino gehiago).

Bitxia da 50 hizkuntzen artean, euskara dagoela lehenbizikoen artean hitz-gako kopuruari (14.000 inguru) eta banakako grabaketa klipetan ere (390.000, guztira 118 orduko corpus bat). High resources kategorian kokatzen gaitu horrek, baliabide maila aberatsenenean, honekin garapen aurreratuak egiteko orduan...

Kalkulu estatistiko batzuk ere egin dituzte hizkuntzen hitzen luzera estatistikoari buruz, baina horrek ze inplikazio dituen ez gaude oso seguru. Hor grafiko partziala hori erakusten duena.

Dataset osoa 124 Gb-koa da, eta espazioa eta denbora badaukazu, jaitsi dezakezu hemenidk. Microset delakoan, aldiz, lagin bat dago (584 Mb guztira) ingelesezko eta espainolezko hitzena. Jaisten baduzu karpeta mordo bat aurkituko duzu, eta bakoitzean hainbat klip, Opus audio formatuan hitz jakin bat hainbat lagunek ahoskatua.

Ordenagailuko pantaila irudian, gaztelerazko Cinco hitzaren klip sorta, adibide gisa.

Honen oinarrian dagoen Common Voice proiektuaz gehiago, Sustatun bertan, euskarazko datu-bilketa elkarlanean bultzatzen ari den Librezale taldearen webgunean, eta Common Voice-n zuzenean, non euskarazko korpusa ere eskuratu daitekeen (baina ez da MSWC-koa, hitz banakakoena)


Iruzkinak:

2021/12/29

Great article! All the articles you have, they enjoy reading and learning a
lot. Your article is very helpful for me. I hope you will continue to write
such good articles as well. Really enjoyed reading your blog.It is highly
informative and builds great interest for the readers. For the people like
us your blogs helps to get ideal information and knowledge. Thanks for
providing such blogs. The
Matrix 4 Trench Coat

2022/01/04

The content was really very interesting. I am really thankful to you for
providing this unique information You have a good point here! I totally
agree with what you have said!! Thanks for sharing your views. Stay
Close Green Jacket

2022/01/05

คาสิโน
The best web Good for casino casino number1

2022/01/10

Thanks so much for sharing this awesome info! I am looking forward to
seeing more posts by you! Commercial
Movers Alpharetta

2022/01/17

Dial-a-Bed is committed to providing customer satisfaction and stock a
range of quality beds and mattresses at great prices	reuk mattress

2022/01/22

I am truly delighted in perusing your article. I discovered this as an
educational and fascinating post, so I think it is exceptionally valuable
and proficient. Grace
Brazen 2021 Leather Jacket

2022/01/23

igoal
Full casino, baccarat, slots, fish shooting games and other games



atez euskara zerbitzua
Artez Euskara Zerbitzua Koop. E.
H: Luzarra, 10 - Deustu Bizkaia Euskal Herria
T: (34) 944 480 000 F: (34) 944 757 229
Kontaktua - Lege jakinarazpena
twitter Facebook
bfa spri Babesleak
XHTML 1.0 Transitional balidoa CSS Balidoa!