সুচিপত্র:
- ধাপ 1: পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে
- পদক্ষেপ 2: প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন
- ধাপ 3: পাইথনে উইথ পাইটক্স 3 লাইব্রেরির পাঠ্য-থেকে-বক্তৃতা
- ধাপ 4: সবকিছু একসাথে করা: গুগল স্পিচ রিকগনিশন API এবং Pyttsx3 লাইব্রেরি ব্যবহার করে পাইথন দিয়ে স্পিচ রিকগনিশন তৈরি করা
ভিডিও: গুগল স্পিচ এপিআই এবং পাইথন ব্যবহার করে বক্তৃতা স্বীকৃতি: 4 টি ধাপ
2024 লেখক: John Day | [email protected]. সর্বশেষ পরিবর্তিত: 2024-01-30 08:00
কন্ঠ সনান্তকরণ
বক্তৃতা স্বীকৃতি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের একটি অংশ যা কৃত্রিম বুদ্ধিমত্তার একটি উপক্ষেত্র। সহজভাবে বলতে গেলে, স্পিচ রিকগনিশন হল একটি কম্পিউটার সফটওয়্যারের কথ্য ভাষায় শব্দ ও বাক্যাংশ চিহ্নিত করা এবং সেগুলোকে মানুষের পাঠযোগ্য পাঠ্যে রূপান্তর করার ক্ষমতা। এটি ভয়েস অ্যাসিস্ট্যান্ট সিস্টেম, হোম অটোমেশন, ভয়েস ভিত্তিক চ্যাটবট, ভয়েস ইন্টারঅ্যাক্টিং রোবট, কৃত্রিম বুদ্ধিমত্তা ইত্যাদি ইত্যাদিতে ব্যবহৃত হয়।
বক্তৃতা সনাক্ত করার জন্য বিভিন্ন API (অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস) রয়েছে। তারা বিনামূল্যে বা অর্থ প্রদান পরিষেবা প্রদান করে। এইগুলো:
- সিএমইউ স্ফিংক্স
- গুগল স্পিচ রিকগনিশন
- গুগল ক্লাউড স্পিচ এপিআই
- Wit.ai
- মাইক্রোসফট বিং ভয়েস রিকগনিশন
- Houndify API
- টেক্সট থেকে আইবিএম বক্তৃতা
- স্নোবয় হটওয়ার্ড সনাক্তকরণ
আমরা এখানে গুগল স্পিচ রিকগনিশন ব্যবহার করব, কারণ এর জন্য কোনো API কী প্রয়োজন নেই। এই টিউটোরিয়ালটির লক্ষ্য হল সিড স্টুডিও থেকে রিস্পিকার ইউএসবি 4-মাইক অ্যারের মতো বাইরের মাইক্রোফোনের সাহায্যে পাইথনে গুগল স্পিচ রিকগনিশন লাইব্রেরি কীভাবে ব্যবহার করা যায় তার একটি ভূমিকা প্রদান করা। বাহ্যিক মাইক্রোফোন ব্যবহার করা বাধ্যতামূলক না হলেও ল্যাপটপের অন্তর্নির্মিত মাইক্রোফোন ব্যবহার করা যেতে পারে।
ধাপ 1: পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে
ReSpeaker USB Mic হল একটি চতুর্ভুজ-মাইক্রোফোন ডিভাইস যা AI এবং ভয়েস অ্যাপ্লিকেশনের জন্য ডিজাইন করা হয়েছে, যা Seeed Studio দ্বারা তৈরি করা হয়েছিল। এটিতে 4 টি উচ্চ কার্যকারিতা, অন্তর্নির্মিত সর্বমুখী মাইক্রোফোনগুলি রুমের যে কোনও জায়গা থেকে আপনার ভয়েস বাছাই করার জন্য ডিজাইন করা হয়েছে এবং 12 টি প্রোগ্রামযোগ্য আরজিবি এলইডি সূচক রয়েছে। রিস্পিকার ইউএসবি মাইক লিনাক্স, ম্যাকওএস এবং উইন্ডোজ অপারেটিং সিস্টেম সমর্থন করে। বিস্তারিত এখানে পাওয়া যাবে।
রিস্পিকার ইউএসবি মাইক একটি চমৎকার প্যাকেজে নিম্নলিখিত আইটেম সম্বলিত:
- একজন ব্যবহারকারী নির্দেশিকা
- পুনরায় স্পিকার ইউএসবি মাইক অ্যারে
- মাইক্রো ইউএসবি থেকে ইউএসবি কেবল
সুতরাং আমরা শুরু করার জন্য প্রস্তুত।
পদক্ষেপ 2: প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন
এই টিউটোরিয়ালের জন্য, আমি ধরে নেব আপনি পাইথন 3.x ব্যবহার করছেন।
আসুন লাইব্রেরিগুলি ইনস্টল করি:
pip3 SpeechRecognition ইনস্টল করুন
ম্যাকোসের জন্য, প্রথমে আপনাকে হোমব্রু দিয়ে পোর্টআডিও ইনস্টল করতে হবে এবং তারপরে পাইপ 3 দিয়ে পাইঅডিও ইনস্টল করতে হবে:
ব্রিউ পোর্টেডিও ইনস্টল করুন
আমরা pyaudio ইনস্টল করার জন্য কমান্ডটি চালাই
pip3 pyaudio ইনস্টল করুন
লিনাক্সের জন্য, আপনি apt দিয়ে PyAudio ইনস্টল করতে পারেন:
sudo apt-get python-pyaudio python3-pyaudio ইনস্টল করুন
উইন্ডোজের জন্য, আপনি পাইপ দিয়ে PyAudio ইনস্টল করতে পারেন:
পাইপ পিউডিও ইনস্টল করুন
একটি নতুন পাইথন ফাইল তৈরি করুন
ন্যানো get_index.py
কোড স্নিপেটের নিচে get_index.py এ পেস্ট করুন:
আমদানি pyaudio
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i Max).get '))> 0: মুদ্রণ ("ইনপুট ডিভাইস আইডি", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))
নিম্নলিখিত কমান্ডটি চালান:
পাইথন 3 get_index.py
আমার ক্ষেত্রে, কমান্ড স্ক্রিনে নিম্নলিখিত আউটপুট দেয়:
ইনপুট ডিভাইস আইডি 1 - পুনরায় স্পিকার 4 মাইক অ্যারে (UAC1.0)
ইনপুট ডিভাইস আইডি 2 - ম্যাকবুক এয়ার মাইক্রোফোন
নীচের কোড স্নিপেটে আপনার পছন্দ অনুযায়ী device_index কে ইন্ডেক্স নম্বরে পরিবর্তন করুন।
sr হিসাবে বক্তৃতা_ স্বীকৃতি আমদানি করুন
r = sr. Recognizer () বক্তৃতা = sr. মাইক্রোফোন (device_index = 1) উৎস হিসেবে বক্তৃতা সহ: মুদ্রণ ("কিছু বলুন!") অডিও = r.adjust_for_ambient_noise (উৎস) অডিও = r.listen (উৎস) চেষ্টা করুন: recog = r। ("Google বক্তৃতা স্বীকৃতি পরিষেবা থেকে ফলাফল অনুরোধ করা যায়নি; {0}"। বিন্যাস (e))
ReSpeaker 4 মাইক অ্যারে একটি প্রধান উত্স হিসাবে হবে কারণ ডিভাইস সূচক 1 নির্বাচিত হয়েছিল।
ধাপ 3: পাইথনে উইথ পাইটক্স 3 লাইব্রেরির পাঠ্য-থেকে-বক্তৃতা
পাইথনে টেক্সটকে বক্তৃতাতে রূপান্তর করার জন্য বেশ কয়েকটি API রয়েছে। এই ধরনের API গুলির মধ্যে একটি হল pyttsx3, যা আমার মতে টেক্সট-টু-স্পিচ প্যাকেজ। এই প্যাকেজটি উইন্ডোজ, ম্যাক এবং লিনাক্সে কাজ করে। এটি কীভাবে করা হয় তা দেখতে অফিসিয়াল ডকুমেন্টেশন দেখুন।
প্যাকেজ ইনস্টল করুন প্যাকেজ ইনস্টল করার জন্য পাইপ ব্যবহার করুন।
pip install pyttsx3
আপনি যদি উইন্ডোজে থাকেন, তাহলে আপনার একটি অতিরিক্ত প্যাকেজ প্রয়োজন হবে, pypiwin32 যা এটি নেটিভ উইন্ডোজ স্পিচ এপিআই অ্যাক্সেস করতে হবে।
pip install pypiwin32
টেক্সটকে স্পিচ পাইথন স্ক্রিপ্টে রূপান্তর করুন নীচের কোডটি স্নিপেট যা টেক্সট টু স্পিচ ব্যবহার করে pyttsx3 ব্যবহার করে:
pyttsx3 আমদানি করুন
ইঞ্জিন = pyttsx3.init ()
engine.setProperty ('হার', 150) # গতির শতাংশ
engine.setProperty ('volume', 0.9) # Volume 0-1
ইঞ্জিন বলুন ("হ্যালো, ওয়ার্ল্ড!")
engine.runAndWait ()
ধাপ 4: সবকিছু একসাথে করা: গুগল স্পিচ রিকগনিশন API এবং Pyttsx3 লাইব্রেরি ব্যবহার করে পাইথন দিয়ে স্পিচ রিকগনিশন তৈরি করা
নিচের কোডটি গুগল স্পিচ রিকগনিশন ব্যবহার করে মানুষের বক্তৃতা শনাক্ত করার জন্য এবং pyttsx3 লাইব্রেরি ব্যবহার করে পাঠ্যকে বক্তৃতায় রূপান্তর করার জন্য দায়ী।
sr হিসাবে বক্তৃতা_ স্বীকৃতি আমদানি করুন
pyttsx3 ইঞ্জিন আমদানি করুন: অডিও = আর। আপনি বলেছেন: " + recog) engine.runAndWait () sr. UnknownValueError ছাড়া: engine.say (" গুগল স্পিচ রিকগনিশন অডিও বুঝতে পারে না ") engine.runAndWait () sr. RequestError ছাড়া e: engine.say (" could not Google বক্তৃতা স্বীকৃতি পরিষেবা থেকে ফলাফল অনুরোধ করুন; {0} "। ফরম্যাট (e)) engine.runAndWait ()
এটি টার্মিনালে আউটপুট প্রিন্ট করে। এছাড়াও, এটি ভাষণেও রূপান্তরিত হবে।
আপনি বলেছেন: লন্ডন গ্রেট ব্রিটেনের রাজধানী
আমি আশা করি আপনি এখন স্পিচ রিকগনিশন কিভাবে সাধারণভাবে কাজ করে এবং সবচেয়ে গুরুত্বপূর্ণভাবে কিভাবে পাইথনের সাথে গুগল স্পিচ রিকগনিশন এপিআই ব্যবহার করে তা বাস্তবায়ন করবেন সে সম্পর্কে আপনার আরও ভালো ধারণা আছে।
যদি আপনার কোন প্রশ্ন বা প্রতিক্রিয়া থাকে? নিচে একটি মন্তব্য করুন। সাথে থাকুন!
প্রস্তাবিত:
আরডুইনো (ব্লুটুথ + এলসিডি + অ্যান্ড্রয়েড) সহ বক্তৃতা স্বীকৃতি: 6 টি ধাপ
আরডুইনো (ব্লুটুথ + এলসিডি + অ্যান্ড্রয়েড) দিয়ে বক্তৃতা স্বীকৃতি: এই প্রকল্পে, আমরা আরডুইনো, ব্লুটুথ মডিউল (এইচসি -05) এবং এলসিডি দিয়ে স্পিচ রিকগনিশন করতে যাচ্ছি। আসুন আপনার নিজের বক্তৃতা স্বীকৃতি ডিভাইস তৈরি করি
বক্তৃতা থেকে বক্তৃতা একটি ARMbasic চালিত UChip, এবং অন্যান্য ARMbasic চালিত SBCs: 3 ধাপে ক্লিক করুন
বক্তৃতা থেকে বক্তৃতা একটি ARMbasic চালিত UChip, এবং অন্যান্য ARMbasic চালিত SBCs: ভূমিকা: শুভ দিন। আমার নাম টড। আমি একজন মহাকাশ ও প্রতিরক্ষা পেশাজীবী যে হৃদয়েও একটু ভ্রুক্ষেপ করে।
রাস্পবেরি পাই এবং AIS328DQTR ব্যবহার করে পাইথন ব্যবহার করে ত্বরণ পর্যবেক্ষণ: 6 টি ধাপ
রাস্পবেরি পাই এবং AIS328DQTR ব্যবহার করে পাইথন ব্যবহার করে ত্বরণ পর্যবেক্ষণ করা: অ্যাক্সিলারেশন সীমিত, আমি মনে করি পদার্থবিজ্ঞানের কিছু আইন অনুসারে।- টেরি রিলি একটি চিতা তাড়া করার সময় আশ্চর্যজনক ত্বরণ এবং গতিতে দ্রুত পরিবর্তন ব্যবহার করে। দ্রুততম প্রাণীটি একবারে উপকূলে শিকারের জন্য তার সর্বোচ্চ গতি ব্যবহার করে। দ্য
গুগল শীট এবং গুগল স্ক্রিপ্ট ব্যবহার করে আবহাওয়ার তথ্য: 7 টি ধাপ
গুগল শীট এবং গুগল স্ক্রিপ্ট ব্যবহার করে আবহাওয়ার তথ্য: এই ব্লগটুটে, আমরা অ্যাডাফ্রুট হুজা ইএসপি 8266 ব্যবহার করে গুগল শীটে এসএইচটি 25 সেন্সরের রিডিং পাঠাতে যাচ্ছি যা ইন্টারনেটে ডেটা পাঠাতে সাহায্য করে। গুগল শীট সেলে ডেটা পাঠানো অনেক দরকারী এবং মৌলিক উপায় যা তথ্য সংরক্ষণ করে
রাস্পবেরি পাই এবং নোড ব্যবহার করে গুগল ভিশন এপিআই: 11 টি ধাপ
রাস্পবেরি পাই এবং নোড ব্যবহার করে গুগল ভিশন এপিআই: এটি গুগল ভিশন এপিআই ব্যবহার করার জন্য একটি শুরু নির্দেশিকা। এটি নিম্নলিখিত রাস্পবেরি পাই জিরো ডব্লিউ আর্চ লিনাক্স নোড জেএস ইন্টারনেট সংযোগ ব্যবহার করে আর্ক লিনাক্স জানেন না? অথবা কিভাবে একটি রাস্পবেরি পাই সেটআপ করবেন? চিন্তা নেই, আমি একটি ধারাবাহিক প্রবন্ধ লিখেছি যা