সুচিপত্র:

গুগল স্পিচ এপিআই এবং পাইথন ব্যবহার করে বক্তৃতা স্বীকৃতি: 4 টি ধাপ
গুগল স্পিচ এপিআই এবং পাইথন ব্যবহার করে বক্তৃতা স্বীকৃতি: 4 টি ধাপ

ভিডিও: গুগল স্পিচ এপিআই এবং পাইথন ব্যবহার করে বক্তৃতা স্বীকৃতি: 4 টি ধাপ

ভিডিও: গুগল স্পিচ এপিআই এবং পাইথন ব্যবহার করে বক্তৃতা স্বীকৃতি: 4 টি ধাপ
ভিডিও: গুগল স্প্রেডশিটে ডেটা ভ্যালিডেশন এবং কন্ডিশনাল ফরম্যাটিং 2024, নভেম্বর
Anonim
গুগল স্পিচ এপিআই এবং পাইথন ব্যবহার করে বক্তৃতা স্বীকৃতি
গুগল স্পিচ এপিআই এবং পাইথন ব্যবহার করে বক্তৃতা স্বীকৃতি

কন্ঠ সনান্তকরণ

বক্তৃতা স্বীকৃতি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের একটি অংশ যা কৃত্রিম বুদ্ধিমত্তার একটি উপক্ষেত্র। সহজভাবে বলতে গেলে, স্পিচ রিকগনিশন হল একটি কম্পিউটার সফটওয়্যারের কথ্য ভাষায় শব্দ ও বাক্যাংশ চিহ্নিত করা এবং সেগুলোকে মানুষের পাঠযোগ্য পাঠ্যে রূপান্তর করার ক্ষমতা। এটি ভয়েস অ্যাসিস্ট্যান্ট সিস্টেম, হোম অটোমেশন, ভয়েস ভিত্তিক চ্যাটবট, ভয়েস ইন্টারঅ্যাক্টিং রোবট, কৃত্রিম বুদ্ধিমত্তা ইত্যাদি ইত্যাদিতে ব্যবহৃত হয়।

বক্তৃতা সনাক্ত করার জন্য বিভিন্ন API (অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস) রয়েছে। তারা বিনামূল্যে বা অর্থ প্রদান পরিষেবা প্রদান করে। এইগুলো:

  • সিএমইউ স্ফিংক্স
  • গুগল স্পিচ রিকগনিশন
  • গুগল ক্লাউড স্পিচ এপিআই
  • Wit.ai
  • মাইক্রোসফট বিং ভয়েস রিকগনিশন
  • Houndify API
  • টেক্সট থেকে আইবিএম বক্তৃতা
  • স্নোবয় হটওয়ার্ড সনাক্তকরণ

আমরা এখানে গুগল স্পিচ রিকগনিশন ব্যবহার করব, কারণ এর জন্য কোনো API কী প্রয়োজন নেই। এই টিউটোরিয়ালটির লক্ষ্য হল সিড স্টুডিও থেকে রিস্পিকার ইউএসবি 4-মাইক অ্যারের মতো বাইরের মাইক্রোফোনের সাহায্যে পাইথনে গুগল স্পিচ রিকগনিশন লাইব্রেরি কীভাবে ব্যবহার করা যায় তার একটি ভূমিকা প্রদান করা। বাহ্যিক মাইক্রোফোন ব্যবহার করা বাধ্যতামূলক না হলেও ল্যাপটপের অন্তর্নির্মিত মাইক্রোফোন ব্যবহার করা যেতে পারে।

ধাপ 1: পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে

পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে
পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে
পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে
পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে
পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে
পুনরায় স্পিকার ইউএসবি 4-মাইক অ্যারে

ReSpeaker USB Mic হল একটি চতুর্ভুজ-মাইক্রোফোন ডিভাইস যা AI এবং ভয়েস অ্যাপ্লিকেশনের জন্য ডিজাইন করা হয়েছে, যা Seeed Studio দ্বারা তৈরি করা হয়েছিল। এটিতে 4 টি উচ্চ কার্যকারিতা, অন্তর্নির্মিত সর্বমুখী মাইক্রোফোনগুলি রুমের যে কোনও জায়গা থেকে আপনার ভয়েস বাছাই করার জন্য ডিজাইন করা হয়েছে এবং 12 টি প্রোগ্রামযোগ্য আরজিবি এলইডি সূচক রয়েছে। রিস্পিকার ইউএসবি মাইক লিনাক্স, ম্যাকওএস এবং উইন্ডোজ অপারেটিং সিস্টেম সমর্থন করে। বিস্তারিত এখানে পাওয়া যাবে।

রিস্পিকার ইউএসবি মাইক একটি চমৎকার প্যাকেজে নিম্নলিখিত আইটেম সম্বলিত:

  • একজন ব্যবহারকারী নির্দেশিকা
  • পুনরায় স্পিকার ইউএসবি মাইক অ্যারে
  • মাইক্রো ইউএসবি থেকে ইউএসবি কেবল

সুতরাং আমরা শুরু করার জন্য প্রস্তুত।

পদক্ষেপ 2: প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন

এই টিউটোরিয়ালের জন্য, আমি ধরে নেব আপনি পাইথন 3.x ব্যবহার করছেন।

আসুন লাইব্রেরিগুলি ইনস্টল করি:

pip3 SpeechRecognition ইনস্টল করুন

ম্যাকোসের জন্য, প্রথমে আপনাকে হোমব্রু দিয়ে পোর্টআডিও ইনস্টল করতে হবে এবং তারপরে পাইপ 3 দিয়ে পাইঅডিও ইনস্টল করতে হবে:

ব্রিউ পোর্টেডিও ইনস্টল করুন

আমরা pyaudio ইনস্টল করার জন্য কমান্ডটি চালাই

pip3 pyaudio ইনস্টল করুন

লিনাক্সের জন্য, আপনি apt দিয়ে PyAudio ইনস্টল করতে পারেন:

sudo apt-get python-pyaudio python3-pyaudio ইনস্টল করুন

উইন্ডোজের জন্য, আপনি পাইপ দিয়ে PyAudio ইনস্টল করতে পারেন:

পাইপ পিউডিও ইনস্টল করুন

একটি নতুন পাইথন ফাইল তৈরি করুন

ন্যানো get_index.py

কোড স্নিপেটের নিচে get_index.py এ পেস্ট করুন:

আমদানি pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i Max).get '))> 0: মুদ্রণ ("ইনপুট ডিভাইস আইডি", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

নিম্নলিখিত কমান্ডটি চালান:

পাইথন 3 get_index.py

আমার ক্ষেত্রে, কমান্ড স্ক্রিনে নিম্নলিখিত আউটপুট দেয়:

ইনপুট ডিভাইস আইডি 1 - পুনরায় স্পিকার 4 মাইক অ্যারে (UAC1.0)

ইনপুট ডিভাইস আইডি 2 - ম্যাকবুক এয়ার মাইক্রোফোন

নীচের কোড স্নিপেটে আপনার পছন্দ অনুযায়ী device_index কে ইন্ডেক্স নম্বরে পরিবর্তন করুন।

sr হিসাবে বক্তৃতা_ স্বীকৃতি আমদানি করুন

r = sr. Recognizer () বক্তৃতা = sr. মাইক্রোফোন (device_index = 1) উৎস হিসেবে বক্তৃতা সহ: মুদ্রণ ("কিছু বলুন!") অডিও = r.adjust_for_ambient_noise (উৎস) অডিও = r.listen (উৎস) চেষ্টা করুন: recog = r। ("Google বক্তৃতা স্বীকৃতি পরিষেবা থেকে ফলাফল অনুরোধ করা যায়নি; {0}"। বিন্যাস (e))

ReSpeaker 4 মাইক অ্যারে একটি প্রধান উত্স হিসাবে হবে কারণ ডিভাইস সূচক 1 নির্বাচিত হয়েছিল।

ধাপ 3: পাইথনে উইথ পাইটক্স 3 লাইব্রেরির পাঠ্য-থেকে-বক্তৃতা

পাইথনে টেক্সটকে বক্তৃতাতে রূপান্তর করার জন্য বেশ কয়েকটি API রয়েছে। এই ধরনের API গুলির মধ্যে একটি হল pyttsx3, যা আমার মতে টেক্সট-টু-স্পিচ প্যাকেজ। এই প্যাকেজটি উইন্ডোজ, ম্যাক এবং লিনাক্সে কাজ করে। এটি কীভাবে করা হয় তা দেখতে অফিসিয়াল ডকুমেন্টেশন দেখুন।

প্যাকেজ ইনস্টল করুন প্যাকেজ ইনস্টল করার জন্য পাইপ ব্যবহার করুন।

pip install pyttsx3

আপনি যদি উইন্ডোজে থাকেন, তাহলে আপনার একটি অতিরিক্ত প্যাকেজ প্রয়োজন হবে, pypiwin32 যা এটি নেটিভ উইন্ডোজ স্পিচ এপিআই অ্যাক্সেস করতে হবে।

pip install pypiwin32

টেক্সটকে স্পিচ পাইথন স্ক্রিপ্টে রূপান্তর করুন নীচের কোডটি স্নিপেট যা টেক্সট টু স্পিচ ব্যবহার করে pyttsx3 ব্যবহার করে:

pyttsx3 আমদানি করুন

ইঞ্জিন = pyttsx3.init ()

engine.setProperty ('হার', 150) # গতির শতাংশ

engine.setProperty ('volume', 0.9) # Volume 0-1

ইঞ্জিন বলুন ("হ্যালো, ওয়ার্ল্ড!")

engine.runAndWait ()

ধাপ 4: সবকিছু একসাথে করা: গুগল স্পিচ রিকগনিশন API এবং Pyttsx3 লাইব্রেরি ব্যবহার করে পাইথন দিয়ে স্পিচ রিকগনিশন তৈরি করা

নিচের কোডটি গুগল স্পিচ রিকগনিশন ব্যবহার করে মানুষের বক্তৃতা শনাক্ত করার জন্য এবং pyttsx3 লাইব্রেরি ব্যবহার করে পাঠ্যকে বক্তৃতায় রূপান্তর করার জন্য দায়ী।

sr হিসাবে বক্তৃতা_ স্বীকৃতি আমদানি করুন

pyttsx3 ইঞ্জিন আমদানি করুন: অডিও = আর। আপনি বলেছেন: " + recog) engine.runAndWait () sr. UnknownValueError ছাড়া: engine.say (" গুগল স্পিচ রিকগনিশন অডিও বুঝতে পারে না ") engine.runAndWait () sr. RequestError ছাড়া e: engine.say (" could not Google বক্তৃতা স্বীকৃতি পরিষেবা থেকে ফলাফল অনুরোধ করুন; {0} "। ফরম্যাট (e)) engine.runAndWait ()

এটি টার্মিনালে আউটপুট প্রিন্ট করে। এছাড়াও, এটি ভাষণেও রূপান্তরিত হবে।

আপনি বলেছেন: লন্ডন গ্রেট ব্রিটেনের রাজধানী

আমি আশা করি আপনি এখন স্পিচ রিকগনিশন কিভাবে সাধারণভাবে কাজ করে এবং সবচেয়ে গুরুত্বপূর্ণভাবে কিভাবে পাইথনের সাথে গুগল স্পিচ রিকগনিশন এপিআই ব্যবহার করে তা বাস্তবায়ন করবেন সে সম্পর্কে আপনার আরও ভালো ধারণা আছে।

যদি আপনার কোন প্রশ্ন বা প্রতিক্রিয়া থাকে? নিচে একটি মন্তব্য করুন। সাথে থাকুন!

প্রস্তাবিত: