وینا ته د متن اړول

د وینا مصنوعي تولید یا وینا ته د متن اړول (په انګلیسي: speech synthesis) په مصنوعي ډول د انساني وینا د تولید بهیر ته ویل کېږي. هغه کمپیوټري سیسټم چې د دغې موخې لپاره کارول کېږي ورته وینا تولیدونکی یا د وینا سینت سایزر (speech synthesizer) ویل کېږي چې کېدلای شي په سافټوېرونو او یا هارډوېرونو کې وکارول شي. په وینا باندې متن اړونکی سیسټم د یوې ژبې عادي متن په وینا اړوي؛ نور سیسټمونه یې بیا له ژبنیو سمبولیک جوړښتونو لکه له فونټیکي جوړښتونو کار اخلي. د دغه بهیر معکوس ډول وینا پېژندنه (speech recognition) ده. ^[۱]

په مصنوعي ډول باندې د وینا تولید کېدای شي په یوه ډیټابېس کې د خبرو د ثبت شوو بېلګو د یوځای کېدو پر بنسټ وشي. سیسټمونه د ثبت شوو بېلګو د اندازو له مخې له یو بل سره توپیر لري؛ هغه سیسټمونه چې فونټیک غږونه او یا د هغو سمبولونه په کې ذخیره شوي وي د تولید لوړه کچه لري خو کېدای شي وضاحت یې لږ وي. د ځانګړو ګټنو په موخه د ټولو کلماتو یا جملاتو ثبت لوړ کیفیت لرونکي تولید ته لار برابروي. په متناوب ډول یو وینا تولید کوونکی سیسټم کولای شي د وینا تولید کوونکې دستګاه موډلونه او د انسان د غږ نورې ځانګړنې په بشپړه توګه د یو مصنوعي غږ د تولید لپاره سره ترکیب کړي. ^[۲]

د وینا تولید کوونکې یوې دستګاه کیفیت د انسان له غږ سره د هغو د ورته والي او همدارنګه د واضحې درک کېدونې وینا د وړاندې کولو له مخې ارزول کېږي. د درک وړ وینا تولید کوونکي پروګرامونه مرسته کوي څو د بصري ستونزو لرونکي او همدارنګه په لوستلو کې ناتوانه کسان وکولای شي د خپلو کمپیوټرونو پر مټ په لیکلو متنونو وپوهېږي. له ۱۹۹۰مې لسیزې راهیسې ډېری کمپیوټرونه په ځان کې وینا تولید کوونکي پروګرامونه لري.

په وینا باندې متن اړونکی سیسټم (یا «ماشین») تل له دوه برخو څخه جوړېږي: متن واردېدونکې برخه او وینا تولید کوونکې برخه. د متن واردېدونکې برخه دوه اصلي دندې لري؛ لومړۍ دا چې د خام متن سمبولونه لکه اعداد او لنډیزونه په معادلو لیکل شوو کلماتو بدلوي. دغه بهیر ته تر ډېره پورې د متن عادي کول، له وړاندې برابرول یا ټوکنایزېشن ویل کېږي. تولیدونکې برخه بیا فونټیکي نښانونو ته اړوند کلمات مشخص کوي او متن په غږیزو واحدونو لکه عباراتو، بندونو او جملاتو ویشي او هغه په نښه کوي. ^[۳]^[۴]

تاریخچه

د الکتریکي سیګنال د تولیدکوونکي له اختراع ډېر وړاندې خلکو هڅه کوله داسې ماشینونه جوړ کړي څو د انساني وینا تقلید وکړي. د دغه ډول چارو یادونې په «برېزن هیډز» افسانو کې شوې چې پاپ دویم سلوسټر (۱۰۰۳ کال)، البرټ مګنوس (۱۱۹۸- ۱۲۸۰ زکال) او راجر بېکون (۱۲۱۴- ۱۲۹۴ زکال) په کې ونډه لرلې.

په ۱۷۷۹ زکال کې جرمني الاصله ډنمارکي ساینس پوه کریسټین ګوتلیب کراتزنشتاین د هغې سیالۍ لومړۍ جایزه وګټله چې د روسیې د سترواکۍ د علومو او هنر اکاډمۍ له خوا د داسې انساني غږ تولید کوونکې دستګاه د جوړولو لپاره ټاکل شوې وه چې کولای یې شو په لوړ غږ پنځه غږ لرونکي حروف (واول) تولید کړي (د نړیوالې فونټیک الفبا له مخې: [aː]، [eː]، [iː]، [oː] او [uː]). له دې وروسته د هنګري د پرسبورګ سیمې څخه د ساینس پوه ولفګانګ فون کمپلن «د وینا میخانیکي – اکوستیک ماشین» په ۱۷۹۱ زکال کې د یوې مقالې په خپرېدو تشرېح شو. په دغه دستګاه کې د ژبې او شونډو موډلونه اضافه شوي و او پر مټ یې کولای شو غږیز او بې غږه حروف تولید کړي. په ۱۸۳۷ زکال کې چارلز ویټسټون یو «خبرې کوونکی ماشین» د فون کمپلن د طرحې پر بنسټ جوړ کړ او په ۱۸۴۶ زکال کې جوزف فبر د «ایفونیا» دستګاه نندارې ته وړاندې کړه. په ۱۹۲۳ زکال کې پګېټ د ویټسټون طراحي بېرته ورغوله. ^[۵]^[۶]^[۷]

په ۱۹۳۰مه لسیزه کې د بېل لابراتوارونو د وکوډور (vocoder) په نامه دستګاه ته پراختیا ورکړه چې په اتوماتیک ډول یې کولای شو وینا د هغو د جوړ شوي ټون او وزن پر بنسټ تجزیه او تحلیل کړي. په وکوډر باندې په کار کولو هومر ډاډلی له کیبورډ څخه په ګټنه کوونکي ووډر (The Voder، د غږ وړاندې کوونکی) باندې کار وکړ او په ۱۹۳۹ زکال کې یې د نیویارک په نړیوال نندارتون کې نندارې ته وړاندې وکړ.

ډاکټر فرانکلین اس. کوپر او همکارانو یې د ۱۹۴۰مې لسیزې په وروستیو کې په هاسکینز لابراتوارونو کې د غږ بېرته خپرونکی (Pattern playback) ماشین رامنځته او په ۱۹۵۰ زکال کې یې بشپړ کړ. د دغې دستګاه بېلابېلو جوړښتونو (هارډوېرونو) شتون درلود؛ چې اوس مهال یې یوازې یوه نمونه پاتې ده. دغې دستګاه د خبرو د اکوستیک نمونو له انځورونو څخه په کار اخیستو د یو طیف جوړونکي په قالب کې هغه په غږونو اړول. له دغې دستګاه څخه په ګټنې آلوین لیبرمن او همکارانو یې د فونوټیکي جوړښتونو (بې غږه او غږ لرونکو حروفو) غږیز ډول ته لاسرسی وموند.

برېښنايي وسایل

د کمپیوټر پر بنسټ د وینا تولیدونکي لومړني سیسټم مخینه د ۱۹۵۰مې لسیزې وروستیو ته اړوندېږي. نوریکو اومدا او همکارانو یې په ۱۹۶۸ زکال کې د جاپان په الکتروتخنیکي لابراتوار کې له انګلیسي متن څخه وینا جوړونکی لومړنی سیسټم رامنځته کړ. په ۱۹۶۱ زکال کې فزیک پوه جان لري کلي جونیر او همکار یې لوئیس ګرسټمن له یو آی بي م ۷۰۴ (IBM 704) کمپیوټر څخه د وینا جوړولو په موخه ګټنه وکړه؛ هغه چاره چې د بېل لابراتوارونو په تاریخ کې له پام وړ لاسته راوړنو څخه ګڼل کېږي. د کلي غږ ثبت کوونکي او وینا تولیدونکي (ویکوډر) د «ډیزي بل» سندره د مکس ماتیوز له موسیقۍ سره ګډه کړه. ارتور سی. کلارکي چې په ناڅاپي توګه په ماري هیل کې د بېل لابراتوارونو څانګې ته د خپل ملګري جان پیرس لیدو ته ورغلی تر دې کچې د دغې نندارې تر اغېز لاندې راغی چې له هغو څخه یې د خپل ناول 2001: A Space Odyssey د فیلمنامې په اوج کې ګټنه وکړه؛ چېرې چې له HAL 9000 کمپیوټر څخه په ګټنې همدغه سندره خپرېږي او ستورمزلی ډېو بومن ته خوب ورولي. د برېښنايي وینا تولید کوونکو وسایلو د بریالي کېدو سربېره لا هم د میخانیکي وینا تولید کوونکو وسایلو اړوند هڅې روانې دي. ^[۸]^[۹]^[۱۰]^[۱۱]^[۱۲]

وړاندوینه کوونکې خطي کوډ جوړونې (Linear predictive coding) چې د وینا د کوډ کولو ډول دی په ۱۹۶۶ زکال کې په ناګویا پوهنتون کې د فومیتادا ایتاکورا او په نیپون ټلګراف او ټلیفون شرکت کې د شوزو سایټو په هڅو سره یې پراختیا ومونده. د LPC ټکنالوژۍ په برخه کې لا زیاتې لاسته راوړنې د ۱۹۷۰مې لسیزې په اوږدو کې په بېل لابراتوراونو کې د بیشو اس اتل او مانفرد آر ریچارډ له خوا ترلاسه شوې. ^[۱۳]

وینا ته د متن بدلونکي سیسټمونه

وینا ته د متن بدلونکي سیسټمونه په لوړ غږ باندې د متن لوستلو کمپیوټري وړتیا ته اشاره لري. د TTS یو ماشین لیکل شوی متن په غږیزو اشکالو اړوي او بیا دغه اشکال د څپې په بڼه برابروي چې کېدلای شي د غږ په توګه هغه تولید کړي. ^[۱۴]

اندروید

د اندرویډ سیسټم په ۱.۶مه نسخه کې د وینا د تولید (TTS) وړتیا اضافه شوه. ^[۱۵]

انټرنټ

اوس مهال ګڼ شمېر اپلیکېشنونه، پلاګېنونه او داسې نورې لارې چارې شتون لري چې کولای شي پیغامونه په مستقیم ډول د برېښنالیک له سیسټم، د انټرنټ له پرانیستونکو سیسټمونو (web browser) او یا هم ګوګل ټولبار څخخه ولولي. یو شمېر ځانګړي نور سافټ ویرونه بیا کولای شي ار اس اس – فیډ (RSS-feeds) ولولي. ^[۱۶]

سرچينې

↑ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.
↑ Rubin, P.; Baer, T.; Mermelstein, P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America. 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.
↑ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.
↑ Van Santen, J. (April 1994). "Assignment of segmental duration in text-to-speech synthesis". Computer Speech & Language. 8 (2): 95–128. doi:10.1006/csla.1994.1005.
↑ History and Development of Speech Synthesis, Helsinki University of Technology, Retrieved on November 4, 2006
↑ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine", J. B. Degen, Wien). (په جرمني)
↑ Mattingly, Ignatius G. (1974). Sebeok, Thomas A. (ed.). "Speech synthesis for phonetic and phonological models" (PDF). Current Trends in Linguistics. 12. Mouton, The Hague: 2451–2487. خوندي شوی له the original (PDF) on 2013-05-12. بياځلي په 2011-12-13. {{cite journal}}: More than one of |archivedate= and |archive-date= specified (help); More than one of |archiveurl= and |archive-url= specified (help)
↑ Klatt, D (1987). "Review of text-to-speech conversion for English". Journal of the Acoustical Society of America. 82 (3): 737–93. Bibcode:1987ASAJ...82..737K. doi:10.1121/1.395275. PMID 2958525.
↑ "Where "HAL" First Spoke (Bell Labs Speech Synthesis website)". Bell Labs. خوندي شوی له the original on 2000-04-07. بياځلي په 2010-02-17.
↑ "Arthur C. Clarke Biography". خوندي شوی له the original on December 11, 1997. بياځلي په 5 December 2017.
↑ Lambert, Bruce (March 21, 1992). "Louis Gerstman, 61, a Specialist In Speech Disorders and Processes". The New York Times.
↑ Anthropomorphic Talking Robot Waseda-Talker Series Archived 2016-03-04 at the Wayback Machine.
↑ Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346. خوندي شوی (PDF) له اصلي څخه په 2022-10-09.
↑ "How to configure and use Text-to-Speech in Windows XP and in Windows Vista". Microsoft. 2007-05-07. بياځلي په 2010-02-17.
↑ Jean-Michel Trivi (2009-09-23). "An introduction to Text-To-Speech in Android". Android-developers.blogspot.com. بياځلي په 2010-02-17.
↑ Andreas Bischoff, The Pediaphon – Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones, PDA's and MP3-Players, Proceedings of the 18th International Conference on Database and Expert Systems Applications, Pages: 575–579 ISBN 0-7695-2932-1, 2007

[1] Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.

[2] Rubin, P.; Baer, T.; Mermelstein, P. (1981). "An articulatory synthesizer for perceptual research". Journal of the Acoustical Society of America. 70 (2): 321–328. Bibcode:1981ASAJ...70..321R. doi:10.1121/1.386780.

[3] van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.

[4] Van Santen, J. (April 1994). "Assignment of segmental duration in text-to-speech synthesis". Computer Speech & Language. 8 (2): 95–128. doi:10.1006/csla.1994.1005.

[Helsinki-5] History and Development of Speech Synthesis, Helsinki University of Technology, Retrieved on November 4, 2006

[6] Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mechanism of the human speech with description of its speaking machine", J. B. Degen, Wien). (په جرمني)

[7] Mattingly, Ignatius G. (1974). Sebeok, Thomas A. (ed.). "Speech synthesis for phonetic and phonological models" (PDF). Current Trends in Linguistics. 12. Mouton, The Hague: 2451–2487. خوندي شوی له the original (PDF) on 2013-05-12. بياځلي په 2011-12-13. {{cite journal}}: More than one of |archivedate= and |archive-date= specified (help); More than one of |archiveurl= and |archive-url= specified (help)

[8] Klatt, D (1987). "Review of text-to-speech conversion for English". Journal of the Acoustical Society of America. 82 (3): 737–93. Bibcode:1987ASAJ...82..737K. doi:10.1121/1.395275. PMID 2958525.

[9] "Where "HAL" First Spoke (Bell Labs Speech Synthesis website)". Bell Labs. خوندي شوی له the original on 2000-04-07. بياځلي په 2010-02-17.

[10] "Arthur C. Clarke Biography". خوندي شوی له the original on December 11, 1997. بياځلي په 5 December 2017.

[11] Lambert, Bruce (March 21, 1992). "Louis Gerstman, 61, a Specialist In Speech Disorders and Processes". The New York Times.

[12] Anthropomorphic Talking Robot Waseda-Talker Series Archived 2016-03-04 at the Wayback Machine.

[13] Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346. خوندي شوی (PDF) له اصلي څخه په 2022-10-09.

[microsoft.com-14] "How to configure and use Text-to-Speech in Windows XP and in Windows Vista". Microsoft. 2007-05-07. بياځلي په 2010-02-17.

[15] Jean-Michel Trivi (2009-09-23). "An introduction to Text-To-Speech in Android". Android-developers.blogspot.com. بياځلي په 2010-02-17.

[16] Andreas Bischoff, The Pediaphon – Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones, PDA's and MP3-Players, Proceedings of the 18th International Conference on Database and Expert Systems Applications, Pages: 575–579 ISBN 0-7695-2932-1, 2007

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]