সুচিপত্র:

স্পিকার-সচেতন ক্যামারা সিস্টেম (SPACS): 8 টি ধাপ
স্পিকার-সচেতন ক্যামারা সিস্টেম (SPACS): 8 টি ধাপ

ভিডিও: স্পিকার-সচেতন ক্যামারা সিস্টেম (SPACS): 8 টি ধাপ

ভিডিও: স্পিকার-সচেতন ক্যামারা সিস্টেম (SPACS): 8 টি ধাপ
ভিডিও: 4 ক্যামেরা / 3 ক্যামেরা কিভাবে চালাবেন? | How to use all camera in phone bangla | Imrul Hasan Khan 2024, সেপ্টেম্বর
Anonim
Image
Image
হার্ডওয়্যার - 3 ডি প্রিন্টিং
হার্ডওয়্যার - 3 ডি প্রিন্টিং

একটি কনফারেন্স কল কল্পনা করুন যেখানে একাধিক স্পিকার একটি ক্যামেরা ঘিরে থাকে। আমরা প্রায়ই মুখোমুখি হই যেখানে ক্যামেরার সীমিত ভিউ অ্যাঙ্গেল প্রায়ই কথা বলা ব্যক্তির দিকে তাকাতে ব্যর্থ হয়। এই হার্ডওয়্যার সীমাবদ্ধতা ব্যবহারকারীর অভিজ্ঞতাকে উল্লেখযোগ্যভাবে হ্রাস করে। যদি ক্যামেরা সক্রিয় স্পিকারের দিকে তাকাতে পারে, তাহলে দূরবর্তী শ্রোতারা কল চলাকালীন কথোপকথনে আরও বেশি ব্যস্ত থাকবে। এই প্রকল্পে, আমরা একটি (প্রোটোটাইপ) ক্যামেরা সিস্টেম প্রস্তাব করি যা ক্যামেরাটিকে স্পিকারের দিকে ঘুরিয়ে সক্রিয় স্পিকার সনাক্ত করে এবং অনুসরণ করে। সিস্টেমটি চাক্ষুষ এবং অডিও-ভিত্তিক উভয় পদ্ধতি ব্যবহার করে। যখন ক্যামেরা থেকে মুখ সনাক্ত করা হয়, তখন এটি সেই ব্যক্তিকে নির্ধারণ করে যে কথা বলে এবং ঘোরানোর কোণ গণনা করে। যখন বর্তমান কোণে মুখগুলি সনাক্ত করা যায় না, সিস্টেম আগমনের অডিও সংকেতের দিকনির্দেশের ভিত্তিতে স্পিকারের জন্য অনুসন্ধান করে।

ধাপ 1: উপকরণ

Adafruit পালক nRF52840 এক্সপ্রেস এক্স 1

www.adafruit.com/product/4062

ইলেক্ট্রেট মাইক্রোফোন এম্প্লিফায়ার - MAX4466 X 2

www.adafruit.com/product/1063

মাইক্রো সার্ভো মোটর এক্স 1

www.adafruit.com/product/169

অ্যান্ড্রয়েড স্মার্টফোন এক্স 1

ধাপ 2: হার্ডওয়্যার - 3 ডি প্রিন্টিং

হার্ডওয়্যার - 3D প্রিন্টিং
হার্ডওয়্যার - 3D প্রিন্টিং
হার্ডওয়্যার - 3D প্রিন্টিং
হার্ডওয়্যার - 3D প্রিন্টিং

দ্রুত বাস্তবায়নের জন্য, আমরা আমাদের প্রয়োজনীয় ঘেরগুলি 3D- প্রিন্ট করার সিদ্ধান্ত নিয়েছি। ঘেরের জন্য দুটি প্রধান উপাদান রয়েছে; একটি টার্নটেবল এবং একটি স্মার্টফোন স্ট্যান্ড। আমরা এই লিংক (https://www.thingiverse.com/thing:141287) থেকে টার্নটেবল ব্যবহার করেছি, যেখানে এটি নীচে Arduino কেস এবং একটি ঘূর্ণমান টেবিল প্রদান করে যা একটি সার্ভো মোটরের সাথে সংযুক্ত হতে পারে। আমরা এই লিঙ্ক (https://www.thingiverse.com/thing:2673050) থেকে একটি স্মার্টফোন স্ট্যান্ড ব্যবহার করেছি, যা ভাঁজযোগ্য এবং কোণ-সামঞ্জস্যযোগ্য যাতে এটি আমাদের সুবিধামত কোণটি ক্রমাঙ্কন করতে দেয়। নীচের চিত্রটি 3D মুদ্রিত অংশগুলি একত্রিত দেখায়।

ধাপ 3: হার্ডওয়্যার - ইলেকট্রনিক উপাদান

হার্ডওয়্যার - ইলেকট্রনিক উপাদান
হার্ডওয়্যার - ইলেকট্রনিক উপাদান
হার্ডওয়্যার - ইলেকট্রনিক উপাদান
হার্ডওয়্যার - ইলেকট্রনিক উপাদান

চারটি তারযুক্ত উপাদান রয়েছে; Adafruit পালক, দুটি মাইক্রোফোন, এবং একটি মোটর। কমপ্যাক্ট প্যাকেজিংয়ের জন্য, আমরা একটি ব্রেডবোর্ড ব্যবহার না করে তারগুলি (ধূসর বৃত্ত) বিক্রি করেছি। নীচে সার্কিট ডায়াগ্রাম এবং প্রকৃত নিদর্শন বর্ণনা করা হয়েছে।

ধাপ 4: সফটওয়্যার

আমাদের সিস্টেম প্রাথমিকভাবে মুখের স্বীকৃতি থেকে চাক্ষুষ তথ্য ব্যবহার করে স্পিকারকে অনুসরণ করে কারণ এটি আরও সঠিক। ফেডার অ্যান্ড্রয়েড অ্যাপ থেকে চাক্ষুষ তথ্য পাওয়ার জন্য, আমরা প্রধান যোগাযোগ পদ্ধতি হিসাবে ব্লুটুথ লো এনার্জি ব্যবহার করি।

যখন কোন মুখ সনাক্ত করা হয়, ফ্রেমটির কেন্দ্রে স্পিকারকে ফোকাস করার জন্য মোটরকে যে কোণটি ঘুরাতে হবে তা অ্যাপটি গণনা করে। আমরা সম্ভাব্য দৃশ্যগুলি পচিয়ে দিয়েছি এবং নিম্নলিখিতগুলির মতো পরিচালনা করেছি:

  1. যদি মুখ (গুলি) সনাক্ত করা হয় এবং কথা বলা হয়, তাহলে এটি স্পিকারের মধ্যবিন্দু গণনা করে এবং আপেক্ষিক কোণটিকে পালকে ফিরিয়ে দেয়।
  2. যদি মুখ (গুলি) সনাক্ত করা হয় এবং কিন্তু তাদের কেউই কথা বলছে না, এটি মুখের মধ্যবিন্দুও গণনা করে এবং সেই অনুযায়ী কোণ প্রদান করে।
  3. যদি কোন মুখ সনাক্ত না করা হয়, সিস্টেমটি স্পিকারের ট্র্যাকিং লজিককে দৃশ্য থেকে অডিওতে পরিবর্তন করে।

SPACS সফটওয়্যার https://github.com/yhoonkim/cse599h-fp এ অবস্থিত।

ধাপ 5: সফ্টওয়্যার - শব্দ

সফটওয়্যার - শব্দ
সফটওয়্যার - শব্দ

শব্দ (YH)

আগত শব্দের উৎস সনাক্ত করতে, আমরা প্রথমে দুটি মাইক্রোফোনের মধ্যে সময়ের পার্থক্য ব্যবহার করার চেষ্টা করেছি। কিন্তু আমরা যতটা আশা করেছিলাম ততটা সঠিক ছিল না যেহেতু আর্ডুইনো চিতাবাঘের নমুনা হার (~ 900Hz), যেখানে আমরা শব্দ সংকেত পরীক্ষা করেছি, ধীর ছিল যে এটি 10cm- পৃথক মাইক্রোফোনের মধ্যে সময়ের পার্থক্য নিতে পারে না।

আমরা দুটি ইনপুট শব্দ সংকেতের মধ্যে তীব্রতার পার্থক্য ব্যবহার করার পরিকল্পনা পরিবর্তন করেছি। ফলস্বরূপ, পালক দুটি শব্দ সংকেত নেয় এবং সেগুলি প্রক্রিয়া করে শব্দটি কোথা থেকে আসছে তা সনাক্ত করতে। প্রক্রিয়াটি নিম্নলিখিত ধাপগুলি দ্বারা বর্ণনা করা যেতে পারে:

  1. দুটি মাইক্রোফোন থেকে ইনপুট নিন এবং সংকেতগুলির প্রশস্ততা পেতে অফসেট বিয়োগ করুন।
  2. 500 পিকআপের জন্য প্রতি এমআইসি -র প্রশস্ততার পরম মান সংগ্রহ করুন।
  3. সঞ্চিত মানগুলির পার্থক্য 5 টি স্লটযুক্ত সারিতে সংরক্ষণ করুন।
  4. চূড়ান্ত পার্থক্য মান হিসাবে সারির যোগফল ফেরত দিন।
  5. শব্দটি কোথা থেকে এসেছে তা নির্ধারণ করতে চূড়ান্ত মানকে থ্রেশহোল্ডের সাথে তুলনা করুন।

আমরা বাম এবং ডান দিক থেকে আসা শব্দ সহ বিভিন্ন পরিস্থিতিতে চূড়ান্ত মান চক্রান্ত করে থ্রেশহোল্ড খুঁজে পেয়েছি। চূড়ান্ত মানের জন্য থ্রেশহোল্ডের উপরে, আমরা শব্দগুলিকে ফিল্টার করার জন্য ধাপ 2 এ সঞ্চিত প্রশস্ততার গড়ের জন্য আরেকটি থ্রেশহোল্ড সেট করি।

ধাপ 6: সফটওয়্যার - মুখ এবং কথা বলা সনাক্তকরণ

মুখ সনাক্তকরণের জন্য, আমরা গুগল (https://firebase.google.com/docs/ml-kit) দ্বারা প্রকাশিত ফায়ারবেসের জন্য এমএল কিট নিযুক্ত করেছি। এমএল কিট ফেস ডিটেকশন এপিআই প্রদান করে যা প্রতিটি মুখের বাউন্ডিং বক্স এবং চোখ, নাক, কান, গাল এবং মুখের বিভিন্ন পয়েন্ট সহ এর ল্যান্ডমার্ক প্রদান করে। একবার মুখ সনাক্ত করা হলে, ব্যক্তিটি কথা বলছে কিনা তা নির্ধারণ করতে অ্যাপটি মুখের গতিবিধি ট্র্যাক করে। আমরা একটি সহজ থ্রেশহোল্ড-ভিত্তিক পদ্ধতি ব্যবহার করি যা নির্ভরযোগ্য কর্মক্ষমতা প্রদান করে। আমরা এই সত্যকে কাজে লাগিয়েছি যে মুখের চলাচল অনুভূমিক এবং উল্লম্ব উভয় ক্ষেত্রেই বড় হয় যখন একজন ব্যক্তি কথা বলেন। আমরা মুখের উল্লম্ব এবং অনুভূমিক দূরত্ব গণনা করি এবং প্রতিটি দূরত্বের জন্য আদর্শ বিচ্যুতি গণনা করি। দূরত্ব মুখের আকারে স্বাভাবিক করা হয়। বড় মান বিচ্যুতি কথা বলতে নির্দেশ করে। এই পদ্ধতির সীমাবদ্ধতা রয়েছে যে প্রতিটি ক্রিয়াকলাপ মুখের চলাচলকে অন্তর্ভুক্ত করে, যার মধ্যে খাওয়া, পান করা বা হাঁপানো, কথা বলা হিসাবে স্বীকৃত হতে পারে। কিন্তু, এর একটি কম মিথ্যা নেতিবাচক হার আছে।

ধাপ 7: সফ্টওয়্যার - ঘূর্ণমান মোটর

সফটওয়্যার - ঘোরানো মোটর
সফটওয়্যার - ঘোরানো মোটর

ঘূর্ণন গতি নিয়ন্ত্রণের কারণে মোটর ঘূর্ণন আমাদের প্রত্যাশার মতো সহজ ছিল না। গতি নিয়ন্ত্রণ করার জন্য, আমরা একটি বৈশ্বিক পাল্টা পরিবর্তনশীল ঘোষণা করি যা মোটরকে কেবল তখনই চালু করতে দেয় যখন ভেরিয়েবল একটি নির্দিষ্ট মূল্যে পৌঁছায়। আমরা আরেকটি গ্লোবাল ভেরিয়েবলও ঘোষণা করেছি যা নির্দেশ করে যে মোটর মাইক্রোফোনকে জানাতে চলেছে যাতে এটি মোটর ঘূর্ণন থেকে আসা শব্দ এড়াতে পারে।

ধাপ 8: ভবিষ্যতের উন্নতি

একটি সীমাবদ্ধতা হল যে মোটর নির্দিষ্ট কোণে নড়বড়ে হয়ে যায়। মনে হচ্ছে মোটরটি স্মার্টফোন ঘোরানোর ফলে উৎপন্ন টর্ককে অতিক্রম করতে যথেষ্ট শক্তিশালী নয়। এটি আরও শক্তিশালী মোটর ব্যবহার করে বা ঘূর্ণন কেন্দ্রের দিকে স্মার্টফোনের অবস্থান সামঞ্জস্য করে সমাধান করা যেতে পারে।

অডিও-ভিত্তিক সাউন্ড ডিরেকশন ডিটেকশন আরও উন্নত পদ্ধতিতে উন্নত করা যেতে পারে। আমরা আগত শব্দের দিক নির্ণয় করার জন্য একটি শাব্দ বিমফর্মিং পদ্ধতির চেষ্টা করতে চাই। আমরা অডিও সিগন্যাল আসার সময় দিয়ে চেষ্টা করেছি। কিন্তু, পালকের নমুনার হার মাইক্রোফোনগুলি প্রায় 10 সেমি দূরে থাকা সময়ের পার্থক্য সনাক্ত করতে সীমাবদ্ধ।

এই প্রোটোটাইপের চূড়ান্ত অনুপস্থিত অংশ হল ব্যবহারযোগ্যতা মূল্যায়ন। মূল্যায়ন করার একটি আশাব্যঞ্জক উপায় হল বিদ্যমান ভিডিও কল প্ল্যাটফর্মের সাথে সিস্টেমকে একীভূত করা এবং ব্যবহারকারীদের প্রতিক্রিয়া পর্যবেক্ষণ করা। এই প্রতিক্রিয়াগুলি সিস্টেমকে উন্নত করতে এবং এই প্রোটোটাইপের পরবর্তী পুনরাবৃত্তি করতে সহায়তা করবে।

প্রস্তাবিত: