สถานะการจดจำเสียงของ Linux

by Gary Newell

บทนำ

ฉันใช้เวลามากในการค้นคว้าบทความและค่อนข้างบ่อยฉันคิดเกี่ยวกับเรื่องของบทความขณะที่เดินไปที่สถานีรถไฟหรือเมื่อออกไปและโดยทั่วไป

เย็นวันหนึ่งขณะที่เดิน 1.5 ไมล์ไปยังสถานีจากงานของฉันฉันคิดว่า "จะไม่ดีถ้าฉันสามารถบันทึกสิ่งที่ฉันต้องการจะพูดและจากนั้นมีมัน transcribed โดยอัตโนมัติไปยังแฟ้มข้อความที่ฉันสามารถแก้ไขและรูปแบบในภายหลัง" .

ฉันได้ใช้เวลาหลายชั่วโมงในการดูตัวเลือกต่างๆที่ใช้ได้สำหรับการจดจำเสียงและการเขียนตามคำบอกรวมถึงการบันทึกโดยตรงผ่านไมโครโฟนโดยใช้ซอฟต์แวร์ที่เขียนตามคำบอกใน Linux การบันทึกไฟล์เป็นรูปแบบ MP3 หรือ WAV และแปลงผ่านทางบรรทัดคำสั่งรวมทั้งใช้ Chrome และแอพพลิเคชัน Android

บทความนี้กล่าวถึงการค้นพบของฉันหลังจากวันที่มีงานหนัก

ตัวเลือก Linux

การพยายามหาซอฟต์แวร์การเขียนตามคำบอกและการจดจำเสียงใน Linux ไม่ใช่เรื่องง่ายอย่างที่ควรเป็นและตัวเลือกที่มีไม่ฉลาดนัก

หน้าวิกิพีเดียนี้มีรายการตัวเลือกที่เป็นไปได้ ได้แก่ CMU Sphinx, Julius และ Simon

ฉันใช้ SparkyLinux ซึ่งขึ้นอยู่กับการทดสอบ Debian ในขณะนี้และฉันสามารถบอกคุณได้ว่าแพคเกจการรู้จำเสียงเฉพาะที่มีอยู่ในที่เก็บข้อมูลคือสฟิงซ์

โปรแกรมลินุกซ์พื้นเมืองฉันสิ้นสุดลงได้พยายาม PocketSphinx ซึ่งฉันใช้ในการแปลงไฟล์ WAV เป็นข้อความและ Freespeech-VR ซึ่งเป็นโปรแกรมหลามที่ช่วยให้คุณสามารถบันทึกได้โดยตรงจากไมโครโฟน

ฉันยังทดลองใช้แอพพลิเคชั่น Chrome สองอย่างเช่น VoiceNote II และ Dictanote

สุดท้ายฉันได้ลอง "Dictation and Email" และ "Talk and Talk Dictation" Android Apps

Freespeech-VR

Freespeech-VR ไม่มีอยู่ในที่เก็บมาตรฐาน ฉันดาวน์โหลดไฟล์จากที่นี่

หลังจากดาวน์โหลดและแยกเนื้อหาของไฟล์ zip ฉันเปิดเทอร์มินัลและนำทางไปยังโฟลเดอร์ที่ไฟล์ถูกดึงมา

ฉันพิมพ์คำสั่งต่อไปนี้เพื่อเปิด freespeech-vr

sudo หลาม freespeech-vr

ฉันมีหูฟังพร้อมไมโครโฟนที่ค่อนข้างดีและสำเนียงภาษาอังกฤษทางตอนใต้ค่อนข้างชัดเจน

ข้อความต่อไปนี้ปรากฏในหน้าต่าง freespeech-vr:

ยินดีต้อนรับสู่สุนัขของหน่วยผลวันนี้มีวิธีการทดสอบที่มีการจัดการต้องทดสอบเมื่อถึงข้อความใช้วิธีการของระบบสุนทรพจน์ I the To each one คือเฉพาะในความหวังของการเข้าพักและวิธีการหนึ่งของไก่ทองเป็นระบบ Ea เมื่อชื่อของฉันถัดไป ofch เรียกโทรศัพท์ไฟล์นี้เร็วพอโทรศัพท์กรณีที่ Hands - Space สฟิงซ์ไปที่ไม่ได้โทรศัพท์จะใช้ร่วมกันการฝึกอบรมและและเครื่องมือใช้พูดเมื่อคุณเสร็จสิ้น Say ไฟล์ที่ใช้ Last a เรื่องราวและการใช้โดยเมื่อมันเป็นวิธีที่ประสบความสำเร็จลินุกซ์นี้เป็นสิ่งที่คุณหลีกเลี่ยงคือ

ตอนนี้ฉันอยากบอกว่านี่ไม่ใช่เว็บไซต์ของ Unit Of Dogs และไม่ได้กล่าวถึงอะไรเกี่ยวกับไก่ Golden ฉันกำลังพยายามอธิบายขั้นตอนการใช้ซอฟต์แวร์การจดจำเสียงอยู่เสมอ

ฉันพยายามซอฟต์แวร์สักสองสามครั้งรวมถึงความเร็วและความเร็วที่แตกต่างกัน แต่ความถูกต้องก็ไม่ดี

PocketSphinx

PocketSphinx สามารถใช้ไฟล์ WAV และแปลงเป็นข้อความโดยใช้บรรทัดคำสั่ง

PocketSphinx สามารถใช้งานได้ผ่านที่เก็บข้อมูล Debian และควรมีให้บริการสำหรับการแจกแจงส่วนใหญ่

ปัญหาหลักที่ฉันพบกับ PocketSphinx คือคุณแทบจำเป็นต้องมีการศึกษาระดับปริญญาในแนวคิดการจดจำเสียงไฟล์ภาษาพจนานุกรมและวิธีการฝึกอบรมระบบ

หลังจากติดตั้ง PocketSphinx แล้วคุณควรไปที่เว็บไซต์ของ CMU Sphinx และอ่านข้อมูลให้มากที่สุด นอกจากนี้คุณยังต้องดาวน์โหลดไฟล์โมเดลต่อไปนี้

แบบจำลองภาษาอังกฤษทั่วไปในสหรัฐอเมริกา

(ถ้าคุณไม่ใช่เจ้าของภาษาอังกฤษจะเลือกรูปแบบภาษาที่เหมาะสมกับคุณ)

เอกสารสำหรับ PocketSphinx และ Sphinx โดยทั่วไปเป็นเรื่องยากที่จะเข้าใจสำหรับคนนอน แต่จากสิ่งที่ฉันสามารถทำออกไฟล์พจนานุกรมจะใช้เพื่อให้รายการของคำที่เป็นไปได้และรูปแบบภาษามีรายการของการออกเสียงที่มีศักยภาพ

เพื่อทดสอบ PocketSphinx ฉันใช้การบันทึกเสียงของฉันเอง, ตัวอย่างจาก Al Pacino ใน "The Devils Advocate" และตัวอย่างจาก "Morgan Freeman" จุดนี้คือการพยายามเสียงที่แตกต่างกันและสำหรับฉันไม่มีใครที่สามารถบอกเล่าเรื่องราวได้อย่างชัดเจนเป็นมอร์แกนฟรีแมนและไม่มีใครให้สายเช่น Al Pacino

สำหรับ PocketSphinx ในการทำงานต้องมีไฟล์ WAV และต้องอยู่ในรูปแบบที่ต้องการ หากไฟล์อยู่ในรูปแบบ MP3 ให้ใช้คำสั่ง ffmpeg เพื่อแปลงเป็นรูปแบบ WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

เมื่อต้องการเรียกใช้ PocketSphinx ให้ใช้คำสั่งต่อไปนี้:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic-infile voice2.wav -lm cmusphinx-5.0-th-us.lm 2> voice2.log

pocketsphinx_continuous ใช้ไฟล์ WAV และแปลงเป็นข้อความ

ในคำสั่งดังกล่าว pocketsphinx จะบอกให้ใช้ไฟล์พจนานุกรมชื่อ "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" ที่มีรูปแบบภาษา "cmusphinx-5.0-en-us.lm" ไฟล์ที่ถูกแปลงเป็นข้อความเรียกว่า voice2.wav (ซึ่งเป็นบันทึกที่ฉันทำกับเสียงของฉัน) ในที่สุด 2> วางทั้งหมดเอาท์พุท verbose ที่คุณไม่จำเป็นต้องเป็นไฟล์ที่เรียกว่า voice2.log ผลลัพธ์ที่แท้จริงของการทดสอบจะแสดงอยู่ภายในหน้าต่างเทอร์มินัล

ผลการใช้เสียงของฉันมีดังนี้

ยินดีต้อนรับสู่เรื่องถัดไปเกี่ยวกับเรื่องนี้ในสัปดาห์นี้เกี่ยวกับซอฟต์แวร์การรับรู้ใดในหนึ่งนาที

ผลลัพธ์ไม่ได้น่ากลัวเหมือนกับ freespeech-vr แต่ก็ยังไม่สามารถใช้งานได้จริง ฉันลองใช้ PocketSphinx กับ Al Pacino แต่ไม่ได้ผลเลย

สุดท้ายฉันพยายามใช้เสียง Morgan Freeman จากภาพยนตร์เรื่อง "Bruce Almighty" และนี่คือผลลัพธ์:

000000000: เราจะอยู่กับเธอ
000000001: ทั้งหมดที่ยากใช่วันที่ตอนนี้ใช่นี้เป็นส่วนใหญ่ที่เราได้รับชีวิตฉันเป็นส่วนหนึ่งโดยร้อน
000000002: ในลิฟต์ที่เป็นกุญแจสำคัญในการเล่นเบสบอลหรือรู้ว่าควรทำอย่างไรในชีวิต
000000003: สิ่งที่จะฟื้นตัว
000000004: พวกเขาไม่ได้เขียน
000000005: พวกเขามีฉันขวาออก
000000006: คุณต้องเป็นกฎ
000000007: ฉันคาดหวังกับคุณ
000000008: และเขาได้เรียนรู้ที่นี่ว่าเป็นภาพประกอบคือฆาตกรปาร์ตี้คริสต์มาส
000000009: มันกลายเป็นหนึ่งในวิธีการเขียน o ตูดฉันคิดว่าน้อยสวมใส่อย่างใดอย่างหนึ่ง
000000010: เหมือนปัญหาที่สหรัฐจะไม่ให้เขาดีฉันประมาณพวกเขาในขณะที่เมื่อเราไม่ได้ทั้งหมดที่คุณคิดว่าฉันอยู่ในโลกจะบ้านและฉันได้เห็นว่า
000000011: พ่อที่มีมัน
000000012: อะไรเกี่ยวกับเรื่องนี้มาก
000000013: ไม่ได้กำหนดไว้
000000014: ทุกสิ่งทุกอย่างที่คุณไม่ตกหลุมรัก
000000015: ขวาในฤดูใบไม้ร่วง
000000016: ดีสำหรับฉัน
000000017: มันไม่มีความสุขถ้าฉันคิดว่าพวกเขากำลังจะมีที่ว่าทั้งหมดที่จะแต่งงานกับเราก็ไม่ชอบที่แตกต่างจากทาง

การทดสอบของฉันแทบจะไม่ได้รับการพิจารณาทางวิทยาศาสตร์และนักพัฒนาซอฟต์แวร์ของ PocketSphinx อาจระบุว่าฉันไม่ได้ใช้ซอฟต์แวร์อย่างถูกต้อง นอกจากนี้ยังมีเทคนิคที่เรียกว่าการฝึกอบรมด้วยเสียงซึ่งสามารถใช้เพื่อสร้างพจนานุกรมและไฟล์ภาษาที่ดีขึ้น

ความเห็นที่สำคัญของฉันคือว่ามันเป็นเรื่องยากสำหรับการใช้ชีวิตประจำวันตามมาตรฐาน

VoiceNote II

VoiceNote II เป็นแอป Chrome ที่ใช้ API การรู้จำเสียงของ Google Voice

หากคุณใช้เบราว์เซอร์ Chrome หรือ Chromium คุณสามารถติดตั้ง VoiceNote II ผ่านทาง เว็บสโตร์

ไอคอนใน VoiceNote II จะแสดงออกมาในแบบแปลก ๆ เนื่องจากคุณจำเป็นต้องตั้งค่าภาษาที่ด้านล่างของหน้าต่างและปุ่มแก้ไขจะอยู่ที่ด้านล่างด้วยอย่างไรก็ตามปุ่มบันทึกจะอยู่ในตำแหน่งขวาสุด

สิ่งแรกที่คุณต้องทำคือเลือกภาษาและทำได้โดยคลิกที่ไอคอนโลก

ในการเริ่มบันทึกให้คลิกที่ไอคอนไมโครโฟนและเริ่มพูดในไมโครโฟน เพื่อผลลัพธ์ที่ดีที่สุดฉันพบว่าการพูดช้าเป็นกุญแจสำคัญเพื่อให้ซอฟต์แวร์มีโอกาสติดตามได้

ผลไม่ดีเท่าที่สามารถมองเห็นได้ด้านล่าง:

สวัสดีและยินดีต้อนรับสู่การเชื่อมต่อ เกี่ยวกับเสียงการแปลงข้อความ dunelm ถดถอย farrell 2008 เป็นแปลงและกล่าวว่าการสนับสนุนดีวิธีที่ดีที่สุดที่ฉันพบ addon ข้อความเสียงเพื่อแสดงแพคเกจ 2014debian หรือ rpm เปิดเสียงชนิดพูดเป็นข้อความเปิดถ้าคุณต้องการเลือก vs เลือกใน edinburgh ฝรั่งเศสเยอรมันช่วยให้คุณมีเวลาในสหราชอาณาจักรเริ่มต้นที่ทะเล microphonewhat คุณเสร็จสิ้นการเขียนข้อความของคุณเป็นไฟล์ข้อความเพื่อ itsuccess ดีที่สำเนียงภาษาอังกฤษมาตรฐานมากจากทางใต้ของอังกฤษที่ดีที่สุดสำหรับมัน แต่ฉันจะ textvia นี้ torrentalong กับเอกสารจริงและคุณจะเห็นความผิดพลาดที่ทำให้คุณได้รับฟัง

Dictanote

Dictanote เป็นอีกหนึ่งแอปพลิเคชัน Chrome ที่สามารถนำมาใช้เพื่อวัตถุประสงค์ในการเขียนตามคำบอกและพบว่าเป็นแบบที่ใช้งานง่าย แต่ผลการค้นหาไม่ได้ดีไปกว่า VoiceNote II

ฉันใช้ Dictanote เวอร์ชันสาธิตเท่านั้นซึ่งจะป้องกันไม่ให้คุณสร้างเอกสารใหม่ แต่ช่วยให้คุณสามารถพูดคุยกับข้อความที่อยู่ในตัวแก้ไขได้ ฉันสามารถทดสอบการจดจำเสียงได้ แต่ผลการค้นหาไม่ดีไปกว่า VoiceNote II และฉันไม่ได้ลงชื่อสมัครใช้เวอร์ชัน Pro

การเขียนตามคำบอกและจดหมาย

"การเขียนตามคำบอกและจดหมาย" เป็นแอปพลิเคชันแอนดรอยด์ที่ใช้ API การรับรู้เสียงของ Google แบบเดิม

ผลลัพธ์จาก "Dictation and Mail" ดีกว่าโปรแกรมอื่น ๆ ที่พยายามทำถึงจุดนี้มาก

สวัสดียินดีต้อนรับสู่ Linux เกี่ยวกับวันนี้เราพูดถึงการแปลงเสียงเป็นข้อความ

เคล็ดลับ "Dictation and Mail" คือการพูดช้าๆและออกเสียงได้ดีเท่าที่คุณจะทำได้แม้จะมีสำเนียงก็ตาม

หลังจากพูดเสร็จแล้วคุณสามารถส่งอีเมลผลการค้นหาให้กับตัวเองได้

Talk Talk Talk Talk

แอปพลิเคชันแอนดรอยด์อื่น ๆ ที่ฉันพยายามคือ "Talk and Talk Dictation"

อินเทอร์เฟซสำหรับแอปนี้เป็นสิ่งที่ดีที่สุดในกลุ่มและการจดจำเสียงเป็นไปได้อย่างดีแน่นอน หลังจากบันทึกการเขียนตามคำบอกแล้วฉันสามารถแชร์ผลได้หลายวิธีเช่นผ่านทางอีเมล

ยินดีต้อนรับสู่ linux about.com วันนี้เรากำลังพูดถึงการแปลงคำพูดเป็นข้อความ

ดังที่คุณเห็นข้อความข้างต้นเป็นเรื่องที่ชัดเจนเท่าที่คุณอาจคาดหวังได้ การพูดช้าๆเป็นกุญแจสำคัญ

สรุป

Linux พื้นเมืองมีบางวิธีที่จะไปเกี่ยวกับการรับรู้เสียงและการเขียนตามคำบอกโดยเฉพาะ มีแอปพลิเคชันบางตัวที่ใช้ Google Voice API แต่ยังไม่ได้ระบุในที่เก็บข้อมูล

แอปพลิเคชัน ChromeOS ดีขึ้นนิดหน่อย แต่ผลการค้นหาที่ดีที่สุดก็ทำได้โดยใช้โทรศัพท์ Android ของฉัน บางทีโทรศัพท์มีไมโครโฟนที่ดีกว่าและซอฟต์แวร์การรู้จำเสียงจึงมีโอกาสที่ดีกว่าในการแปลง

สำหรับการจดจำเสียงเพื่อใช้งานได้จริงจำเป็นต้องใช้งานได้ง่ายขึ้นโดยไม่จำเป็นต้องตั้งค่าใด ๆ คุณไม่ควรต้องยุ่งเกี่ยวกับรูปแบบภาษาและพจนานุกรมเพื่อให้เข้าใจได้

อย่างไรก็ตามผมชื่นชมว่าศิลปะการจดจำเสียงเป็นสิ่งที่ท้าทายมากเพราะทุกคนมีเสียงที่แตกต่างกันและมีหลายภาษาจากภูมิภาคหนึ่งไปยังอีกภูมิภาคหนึ่งในประเทศหนึ่ง ๆ ไม่ต้องห่วงเรื่องภาษาต่างๆนับร้อย ๆ ภาษาที่ใช้ทั่วโลก

การวิเคราะห์ของฉันจึงเป็นที่ซอฟต์แวร์รู้จำเสียงยังทำงานอยู่