নিজেকে কল্পনা করুন যে আপনি সোফায় স্বাচ্ছন্দ্যে বসে আছেন এবং কেবলমাত্র আপনার কম্পিউটার বা ল্যাপটপ বা সেল ফোনকে কোনও চিঠি টাইপ করা বা কয়েকটি কমান্ড দেওয়ার মতো সহজ কাজগুলি করার জন্য অর্ডার করছেন। এটা কি সম্ভব?
অবশ্যই এটি হ'ল ভয়েস স্বীকৃতি ছবিতে আসে।
সংজ্ঞা অনুসারে এটি হ'ল মানব ভাষণকে স্বীকৃতি দেওয়ার প্রক্রিয়া এবং এটিকে পাঠ্য আকারে ডিকোড করে।
নীতি
এর মূল নীতি ভয়েস স্বীকৃতি যে-কোনও মানুষের দ্বারা কথা বলা বা কথা বাতাসে কম্পন সৃষ্টি করে, শব্দ তরঙ্গ হিসাবে পরিচিত তা জড়িত। এই অবিচ্ছিন্ন বা অ্যানালগ তরঙ্গগুলি ডিজিটাইজড এবং প্রক্রিয়াজাত করা হয় এবং তারপরে উপযুক্ত শব্দগুলিতে এবং তারপরে উপযুক্ত বাক্যে ডিকোড করা হয়।
একটি স্পিচ রিকগনিশন সিস্টেমের উপাদান
সুতরাং একটি মৌলিক স্পিচ রিকগনিশন সিস্টেমটি কী নিয়ে গঠিত?
- ডিভাইস ক্যাপচার একটি বক্তৃতা : এটিতে একটি মাইক্রোফোন থাকে, যা শব্দ তরঙ্গ সংকেতগুলিকে বৈদ্যুতিক সংকেতগুলিতে রূপান্তর করে এবং অ্যানালগটিকে ডিজিটাল কনভার্টারে রূপান্তর করে যা কম্পিউটার বুঝতে পারে এমন পৃথক তথ্য প্রাপ্তির জন্য এনালগ সংকেতগুলিকে নমুনা ও ডিজিটাইজ করে।
- একটি ডিজিটাল সিগন্যাল মডিউল বা একটি প্রসেসর : এটি কাঁচা বক্তৃতা সংকেত যেমন ফ্রিকোয়েন্সি ডোমেন রূপান্তরকরণ, কেবলমাত্র প্রয়োজনীয় তথ্য পুনরুদ্ধার ইত্যাদির উপর প্রক্রিয়াজাতকরণ করে
- প্রাক প্রসেসড সিগন্যাল স্টোরেজ : বক্তৃতা স্বীকৃতির আরও কার্য সম্পাদনের জন্য প্রিপ্রোসেসড স্পিচটি মেমোরিতে সংরক্ষণ করা হয়।
- রেফারেন্স স্পিচ নিদর্শন : কম্পিউটার বা সিস্টেমের মধ্যে পূর্বনির্ধারিত স্পিচ প্যাটার্ন বা মেমরিতে ইতিমধ্যে সঞ্চিত টেমপ্লেট রয়েছে, যা ম্যাচের জন্য রেফারেন্স হিসাবে ব্যবহৃত হবে।
- প্যাটার্ন মেলানো অ্যালগরিদম : প্রকৃত শব্দ বা শব্দের বিন্যাস নির্ধারণের জন্য অজানা বক্তৃতা সংকেতটিকে রেফারেন্স স্পিচ প্যাটার্নের সাথে তুলনা করা হয়।
সিস্টেমের কাজ
এখন আসুন দেখুন পুরো সিস্টেমটি আসলে কীভাবে কাজ করে।
- একটি বক্তৃতাটি অ্যাকোস্টিক ওয়েভফর্ম হিসাবে দেখা যায়, অর্থাত্ সংকেতের বহনকারী বার্তার তথ্য signal একজন সাধারণ মানুষ তার আর্টিকুলেটরগুলির (স্পিচ অর্গানস) গতি সীমিত হারের সাথে প্রতি সেকেন্ডে গড়ে 10 টি শব্দ হিসাবে বক্তৃতা তৈরি করতে পারে। গড় তথ্যের হার প্রায় 50-60 বিট / সেকেন্ড। এর অর্থ স্পিচ সিগন্যালে কেবলমাত্র 50 বিট / সেকেন্ডের তথ্য প্রয়োজন। এই অ্যাকোস্টিক ওয়েভফর্মটি মাইক্রোফোন দ্বারা অ্যানালগ বৈদ্যুতিক সংকেতে রূপান্তরিত হয়। অ্যানালগ থেকে ডিজিটাল রূপান্তরকারী পৃথক ব্যবধানে ওয়েভের সুনির্দিষ্ট পরিমাপের মাধ্যমে এই অ্যানালগ সংকেতটিকে ডিজিটাল নমুনায় রূপান্তরিত করে।
- ডিজিটাইজড সিগন্যালটিতে প্রতি সেকেন্ডে 16000 বার নমুনাযুক্ত পর্যায়ক্রমিক সংকেতগুলির একটি স্ট্রিম থাকে এবং এটি বাস্তবের জন্য উপযুক্ত নয় কন্ঠ সনান্তকরণ প্যাটার্ন হিসাবে প্রক্রিয়া সহজেই অবস্থিত হতে পারে। আসল তথ্যটি নিষ্কাশন করতে, টাইম ডোমেনের সিগন্যালটি ফ্রিকোয়েন্সি ডোমেনে সিগন্যালে রূপান্তরিত হয়। এটি এফএফটি কৌশলটি ব্যবহার করে ডিজিটাল সিগন্যাল প্রসেসর দ্বারা সম্পন্ন হয়। ডিজিটাল সিগন্যালে প্রতি 1/100 এর পরে উপাদানতমএকটি সেকেন্ডের বিশ্লেষণ করা হয় এবং প্রতিটি যেমন উপাদান জন্য ফ্রিকোয়েন্সি বর্ণালী গণনা করা হয়। অন্য কথায় ডিজিটাইজড সিগন্যালটি ফ্রিকোয়েন্সি প্রশস্ততার ছোট্ট অংশগুলিতে বিভক্ত হয়।
- প্রতিটি বিভাগ বা ফ্রিকোয়েন্সি গ্রাফ মানুষের দ্বারা নির্মিত বিভিন্ন শব্দকে উপস্থাপন করে। কম্পিউটার নির্দিষ্ট ভাষার সঞ্চিত ফোনেটিক্সের সাথে অজানা বিভাগগুলির সাথে মিলে যায়। এই প্যাটার্ন মিলটি 3 উপায়ে করা হয়:
অ্যাকোস্টিক ফোনেটিক পদ্ধতির ব্যবহার : অ্যাকোস্টিক ফোনেটিক পদ্ধতির মধ্যে সাধারণত লুকানো মার্কভ মডেল ব্যবহৃত হয়। এই মডেলটি বক্তৃতা স্বীকৃতির জন্য একটি অরোধক সম্ভাবনা মডেল বিকাশ করে। এই মডেলটিতে দুটি ভেরিয়েবল রয়েছে - কম্পিউটার স্মৃতিতে সঞ্চিত ফোনমেলের লুকানো রাজ্য এবং ডিজিটাল সংকেতের দৃশ্যমান ফ্রিকোয়েন্সি বিভাগ। প্রতিটি ফোনেমের নিজস্ব সম্ভাবনা থাকে এবং সম্ভাবনা অনুসারে সেগমেন্টটি ফোমমের সাথে মিলে যায় এবং ম্যাচ করা ফোনমগুলি তখন একত্রিত হয়ে ভাষার সঞ্চিত ব্যাকরণ নিয়ম অনুসারে সঠিক শব্দ গঠন করে।
একটি প্যাটার্ন স্বীকৃতি পদ্ধতির ব্যবহার : প্যাটার্ন স্বীকৃতি পদ্ধতির ক্ষেত্রে সিস্টেমটি যে কোনও ভাষার জন্য একটি বিশেষ বক্তৃতার প্যাটার্ন দিয়ে প্রশিক্ষিত হয় এবং অজানা বক্তৃতার প্যাটার্নটি টাইম ওয়ার্পিং কৌশল ব্যবহার করে সংকেতগুলির মধ্যে দূরত্ব নির্ধারণ করে রেফারেন্স স্পিচ প্যাটার্নের সাথে তুলনা করা হয়।
কৃত্রিম বুদ্ধি ব্যবহার করে : কৃত্রিম বুদ্ধিমত্তা পদ্ধতির বর্ণনামূলক পরিমাপের ভিত্তিতে কথিত শব্দগুলির জ্ঞান, যথাযথ অর্থবোধক এবং বাক্যবোধের শব্দের জ্ঞান হিসাবে মৌলিক জ্ঞানের উত্সগুলির ব্যবহারের উপর ভিত্তি করে।
যে বিষয়গুলির উপর স্পিচ রিকগনিশন সিস্টেম নির্ভর করে
বাক্য স্বীকৃতি ব্যবস্থা নিম্নলিখিত বিষয়গুলির উপর নির্ভর করে:
- বিচ্ছিন্ন শব্দ : একটানা শব্দের কথার মাঝে বিরতি থাকা দরকার কারণ অবিচ্ছিন্ন শব্দগুলি ওভারল্যাপ করতে পারে যখন কোনও শব্দ শুরু হয় বা শেষ হয় তখন সিস্টেমটিকে বুঝতে অসুবিধা হয়। এভাবে একটানা শব্দের মধ্যে নীরবতা থাকা দরকার।
- একক স্পিকার : একই সাথে বক্তৃতা ইনপুট দেওয়ার চেষ্টা করা অনেক স্পিকার সংকেত ও বাধাগুলির ওভারল্যাপিংয়ের কারণ হতে পারে। ব্যবহৃত স্পিচ স্বীকৃতি সিস্টেমগুলির বেশিরভাগ হ'ল স্পিকার নির্ভর সিস্টেম।
- শব্দভান্ডার আকার : বড় শব্দভাণ্ডারযুক্ত ভাষাগুলি ছোট শব্দভাণ্ডারের সাথে তুলনামূলকভাবে প্যাটার্ন ম্যাচিংয়ের জন্য বিবেচনা করা কঠিন কারণ পরবর্তীকালে অস্পষ্ট শব্দগুলির সম্ভাবনা কম থাকে।
উইন্ডোজ 7 এ স্পিচ রিকগনিশন সিস্টেম
আমি স্পিচ সনাক্তকরণ সিস্টেমের জন্য উইন্ডোজ 7 ব্যবহার করা যে কোনও ব্যক্তির জন্য নিম্নলিখিত পদক্ষেপগুলি সুপারিশ করতে চাই
- শুরু মেনু থেকে বা আইকনে ক্লিক করে কন্ট্রোল প্যানেলটি খুলুন।
- সহজে প্রবেশাধিকার নির্বাচন করুন এবং তারপরে স্পিচ সনাক্তকরণ ক্লিক করুন click
- পরবর্তী ক্লিক মাইক্রোফোন সেট আপ করুন এবং উপলব্ধ বিকল্পগুলি থেকে ডেস্কটপ মাইক্রোফোন নির্বাচন করুন।
- পরবর্তী স্পিচ টিউটোরিয়াল নিন এবং প্রদত্ত নির্দেশাবলী অনুসরণ করুন।
- এর পরে, আরও ভাল বিকল্পগুলির জন্য আপনার কম্পিউটারকে প্রশিক্ষণ দিন যাতে কম্পিউটারটি আপনার বক্তৃতা সংকেতের একটি নির্দিষ্ট প্যাটার্ন সঞ্চয় করে। এটি 'আপনার কম্পিউটারকে আরও ভাল করে বোঝার জন্য আপনার কম্পিউটারকে প্রশিক্ষিত করুন' ক্লিক করে তারপরে নির্দেশাবলী অনুসরণ করেই করা হয়।
- এখন স্পিচ রিকগনিশন আইকনটি শুরু করুন এবং আপনার বক্তৃতাটি কম্পিউটারে চালিত করা শুরু করুন। আপনি কম্পিউটার অভিধানে নিজের শব্দও যুক্ত করতে পারেন।
প্রাকটিক্যাল স্পিচ রিকগনিশন সিস্টেম: HM2007 ব্যবহার করে
স্পিচ রিকগনিশন আইসি ব্যবহার করে একটি ব্যবহারিক বক্তৃতা স্বীকৃতি সিস্টেম তৈরি করা যেতে পারে এইচএম2007 । HM2007 একটি 48 পিন আইসি যা স্পিচ স্বীকৃতি ফাংশন সরবরাহ করে। এটি দুটি মোডে কাজ করে: ম্যানুয়াল মোড বা সিপিইউ মোড। উভয় মোডে, আইসি প্রথমে ব্যবহারকারীর দ্বারা শব্দের সনাক্ত করতে প্রশিক্ষিত হয় যা প্রতিটি সংখ্যার জন্য কীতে চাপানো হয়। আইসি প্রতিটি শব্দের সংকেত শব্দের সাথে সম্পর্কিত মেমরি স্থানে সংরক্ষণ করে। আইসি থেকে ডেটা আউটপুটটি মাইক্রোকন্ট্রোলারের সাথে ইন্টারফেস করা হয় যেখানে এটি এলসিডিতে প্রদর্শিত হয়।
সাধারণত আমরা HM2007 অপারেশনের জন্য ম্যানুয়াল মোড ব্যবহার করি।
- এইচএম2007 একটি আরডিওয়াই পিন নিয়ে গঠিত যা একটি সক্রিয় লো পিন যা নির্দেশ করে যে আইসি প্রশিক্ষণের উদ্দেশ্যে প্রস্তুত।
- আইসির এমসিন পিনের সাথে সংযুক্ত একটি মাইক্রোফোনের মাধ্যমে ভয়েস ইনপুট দেওয়া হবে।
- আইসিটি একটি কীপ্যাডের সাথে ইন্টারফেস করা হয় যা প্রতিটি শব্দের সাথে সংখ্যার ইনপুট সরবরাহ করতে ব্যবহৃত হয়। আইসি দুটি ফাংশনে কাজ করে - ক্লিয়ার এবং ট্রেন। ট্রেন কীটি কীবোর্ডে চাপলে আইসি তার প্রশিক্ষণ প্রক্রিয়া শুরু করে।
- ব্যবহারকারী ‘ট্রেন’ ফাংশন কী টিপে দেওয়ার আগে একটি নম্বর কী টিপুন এবং মাইক্রোফোনে প্রয়োজনীয় শব্দটি বলে।
- আইসি এমই (মেমোরি সক্ষম) পিনকে একটি উচ্চ সংকেত প্রেরণ করে যা এসআরএএম-এর সংশ্লিষ্ট এমই পিনের সাথে সংযুক্ত। চাপ দেওয়া সংখ্যার সাথে সম্পর্কিত 8 বিটের ডেটা সিগন্যালটি এসআরএএম (বহিরাগত র্যাম) এ বাহ্যিক বাসের মাধ্যমে সংরক্ষণ করা হয়।
- ভয়েস ইনপুট সনাক্ত হওয়ার পরে, আরডিওয়াই পিনটি যুক্তিযুক্ত উচ্চতায় রয়েছে এবং আইসি স্বীকৃতি অবস্থায় আসে, যেখানে এটি স্বীকৃতি প্রক্রিয়া শুরু করে।
- প্রক্রিয়াটির ফলাফলটি ডিএন (ডেটা সক্ষম) পিন উচ্চ দিয়ে ডেটা বাসের মাধ্যমে দেওয়া হয়।
- এরপরে 8 বিটের ডেটা মাইক্রোকন্ট্রোলারকে একটি সিরিজ ইন্টারফেস প্রসেসরের মাধ্যমে দেওয়া যেতে পারে বা ল্যাচ আইসি 74HC573 ব্যবহার করে প্রথমে ল্যাচ করা যেতে পারে।
- মাইক্রোকন্ট্রোলারটি একটি এলসিডি দিয়ে ইন্টারফেস করা হয় এবং প্রোগ্রামিং করা হয় যে অনুরূপ শব্দটি ডিসপ্লেতে প্রদর্শিত হয়।
কেবলমাত্র সাবধানতা অবলম্বন করা দরকার হোনমোনাম (একই শব্দযুক্ত শব্দ) ব্যবহার না করা এবং কণ্ঠে উত্তেজনার যত্ন নেওয়া।
সুতরাং, এই সমস্ত কিভাবে বেসিক স্পিচ স্বীকৃতি সিস্টেম কাজ করে। আরও যে কোনও ইনপুট যুক্ত হওয়ার জন্য স্বাগত।
চিত্র ক্রেডিট
- দ্বারা স্পিচ রিকগনিশন সিস্টেম গস্ট্যাটিক
- দ্বারা স্পিচ ওয়েভফর্ম ম্যানিপুলেশন দাদিস্প
স্পিচ রিকগনিশন সিস্টেমের উপাদানগুলি স্পিচ এবং স্পিকার সনাক্তকরণের পরিচিতি দ্বারা - রিচার্ড ডি পিয়োক এবং ড্যারেল এইচ গ্রাফ