การรู้จำเสียงคืออะไร?

การใช้เสียงเป็นวิธีการป้อนข้อมูล

การจดจำเสียงเป็นเทคโนโลยีที่ช่วยให้การพูดเข้าในระบบ คุณพูดคุยกับคอมพิวเตอร์โทรศัพท์หรืออุปกรณ์ของคุณและใช้สิ่งที่คุณกล่าวว่าเป็นข้อมูลเข้าเพื่อกระตุ้นการทำงานบางอย่าง เทคโนโลยีนี้กำลังถูกใช้เพื่อแทนที่วิธีการป้อนข้อมูลอื่น ๆ เช่นการพิมพ์การคลิกหรือการเลือกในรูปแบบอื่น ๆ เป็นวิธีที่จะทำให้อุปกรณ์และซอฟต์แวร์ใช้งานง่ายและเพื่อเพิ่มประสิทธิภาพการทำงาน

มีการประยุกต์ใช้และพื้นที่ที่ใช้การรู้จำเสียงพูดรวมทั้งทหารเป็นตัวช่วยสำหรับคนที่บกพร่อง (ลองนึกภาพบุคคลที่มีความพิการหรือไม่มีมือหรือนิ้วมือ) ในด้านการแพทย์หุ่นยนต์ ฯลฯ ในอนาคตอันใกล้นี้ เกือบทุกคนจะได้รับการจดจำคำพูดเนื่องจากการแพร่กระจายของอุปกรณ์ทั่วไปเช่นคอมพิวเตอร์และโทรศัพท์มือถือ

มาร์ทโฟนบางตัวกำลังใช้การจดจำคำพูดที่น่าสนใจ อุปกรณ์ iPhone และ Android เป็นตัวอย่างของอุปกรณ์ดังกล่าว ผ่านพวกเขาคุณสามารถเริ่มต้นการติดต่อกับผู้ติดต่อได้โดยเพียงแค่รับคำแนะนำเช่น 'Call office' คำสั่งอื่น ๆ อาจได้รับความบันเทิงเช่น 'เปิดการใช้งาน Bluetooth'

ปัญหาเกี่ยวกับการรู้จำเสียง

การรู้จำเสียงพูดในเวอร์ชันที่เรียกว่า Speech to Text (STT) ยังใช้เป็นเวลานานในการแปลคำพูดลงในข้อความ "คุณพูดแบบนี้" ตามที่ ViaVoice จะพูดในช่อง แต่มีปัญหาหนึ่งข้อเกี่ยวกับ STT ที่เรารู้จัก เมื่อกว่า 10 ปีที่ผ่านมาฉันพยายามใช้ ViaVoice และไม่ได้ใช้งานคอมพิวเตอร์เป็นเวลา 1 สัปดาห์ ทำไม? มันไม่ถูกต้องอย่างเห็นได้ชัดและฉันสิ้นสุดการใช้เวลามากขึ้นและพลังงานการพูดและการแก้ไขกว่าการพิมพ์ทุกอย่าง ViaVoice เป็นหนึ่งในอุตสาหกรรมที่ดีที่สุดดังนั้นลองจินตนาการถึงส่วนที่เหลือ เทคโนโลยีดังกล่าวได้รับการพัฒนาและมีการปรับปรุงแล้ว แต่การพูดกับข้อความยังทำให้ผู้คนตั้งคำถาม หนึ่งในความยากลำบากหลักคือความแตกต่างอันใหญ่หลวงระหว่างคนในการออกเสียงคำ

บางภาษาไม่ควรใช้ในการรู้จำเสียงพูดและภาษาที่ไม่ค่อยได้รับการสนับสนุนเช่นเดียวกับภาษาอังกฤษ ดังนั้นอุปกรณ์ส่วนใหญ่ที่เรียกใช้ซอฟต์แวร์การรู้จำเสียงจะทำงานได้ดีกับภาษาอังกฤษเท่านั้น

ชุดของข้อกำหนดฮาร์ดแวร์ทำให้การรู้จำเสียงพูดยากที่จะปรับใช้ในบางกรณี คุณจำเป็นต้องมีไมโครโฟนที่ชาญฉลาดพอที่จะกรองเสียงรบกวนพื้นหลังได้ แต่ในเวลาเดียวกันจะมีพลังเสียงเพียงพอที่จะสามารถจับภาพได้อย่างเป็นธรรมชาติ

การพูดของเสียงรบกวนจากพื้นหลังอาจทำให้ทั้งระบบล้มเหลว ดังนั้นการรู้จำเสียงพูดล้มเหลวในหลาย ๆ กรณีเนื่องจากมีเสียงรบกวนที่อยู่นอกเหนือการควบคุมของผู้ใช้

การรู้จำเสียงจะพิสูจน์ให้ดีขึ้นเป็นวิธีการป้อนข้อมูลสำหรับโทรศัพท์เครื่องใหม่และเทคโนโลยีการสื่อสารเช่น VoIP ไม่ใช่เครื่องมือการเพิ่มประสิทธิภาพสำหรับการพิมพ์ข้อความขนาดใหญ่

การประยุกต์ใช้การรู้จำเสียง

เทคโนโลยีนี้ได้รับความนิยมในหลายพื้นที่และประสบความสำเร็จในด้านต่อไปนี้:

- การควบคุมอุปกรณ์ เพียงกล่าวว่า "OK Google" ไปยังโทรศัพท์ Android จะทำให้ระบบมีเสียงดังตามคำสั่งเสียงของคุณ

- ระบบบลูทู ธ ในรถยนต์ รถยนต์จำนวนมากมีระบบเชื่อมต่อกลไกวิทยุกับสมาร์ทโฟนผ่านบลูทู ธ จากนั้นคุณสามารถโทรออกและรับสายได้โดยไม่ต้องแตะสมาร์ทโฟนและยังสามารถหมุนหมายเลขได้ด้วยการพูดเพียงอย่างเดียว

- การถอดเสียงด้วยเสียง ในพื้นที่ที่ผู้คนต้องพิมพ์จำนวนมากซอฟต์แวร์อัจฉริยะบางตัวจะจับคำพูดของพวกเขาและคัดลอกข้อความเหล่านั้นไว้ในข้อความ ปัจจุบันเป็นซอฟต์แวร์ประมวลผลคำบางอย่าง การถอดเสียงจะทำงานร่วมกับ ข้อความเสียงภาพ