مسابقه ICML 2013 به تشخیص 35 کلاس مختلف از پرندگان با استفاده از صدای پیوسته ضبط شده آن‌ها در سه مکان مختلف، می‌پردازد. داده ها توسط تاریخ طبیعی، یکی از معتبرترین موسسات بررسی پرنده در جهان ارائه شده است.
برای اطلاعات بیشتر و دریافت داده می‌توانید به صفحه مربوط به مسابقه رجوع کنید.

۱. مقدمه

بشر از ابتدا به طور مداوم به دنبال ایجاد شرایط آسان و بهتری برای زندگی خود بوده است.آنگاه به وسیله صدا توانسته است به ارتباط با دنیای پیرامون خوپ بپردازد که در طول تاریخ منجر به تولید زبان‌های مختلفی شد. پس از آن به بررسی ماهیت صدا پرداخت و تاکنون توانسته است به فناوری تشخیص کلمه از روی صدا دست یابد که منجر به برقراری ارتباط راحت با دنیای زبان‌های غیرمادری شد.
ضبط خودکار پرندگان در حال تبدیل شدن به روش بهتر برای نظارت و تعیین جمعیت پرندگان در سراسر جهان است. ضبط کننده های قابل برنامه ریزی می توانند صدای ضبط شده را در تمام زمان های روز و سال برای مدت زمان طولانی به دست آورند. در نتیجه، یک نیاز حیاتی برای شناسایی قوی پرندگان اتوماتیک وجود دارد. یک مانع برجسته برای دستیابی به این هدف، ضریب نسبت سیگنال به نویز در ضبط بی دقت است. ضبط های محیطی اغلب بسیار پر سر و صدا هستند: پرنده ها تنها یک جزء در یک ضبط است که شامل صدای محیط (مانند باد و باران)، حیوانات دیگر (از جمله حشرات) و فعالیت های مربوط به انسان و همچنین سر و صدا از خود ضبط کننده نیز می باشد. ما در اینجا روش denoising را با استفاده از ترکیبی از wavelet packet decomposition و فیلتر band-pass یا low-pass توصیف می کنیم، و آزمایش های حاضر نشان می دهد که بهبود شدید در کاهش نویز بر روی ضبط طبیعتا پر سر و صدای پرنده قابل دست یابی است.
گاهی اوقات در سیستم‌های هوش‌مصنوعی که از فناوری تشخیص تصویر از روی یک نمونه ویدیویی(شامل صدا) استفاده می شود،امکان تشخیص اشتباه به وجود آید که به یک آموزش‌دهنده برای تصحیح اشنباه نیاز است، و ممکن است که آموزش دهنده متوجه رخ دادن اشتباه نشود. فناوری تشخیص صدا،می تواند در تعامل با دیگر فناوری‌های هوش‌مصنوعی، شامل تشخیص تصویر، منجر به خودآموزی بیشتر سیستم‌های هوش‌مصنوعی شود که نقش آموزش دهنده را کمتر و یا هوشمندتر می کند. بدین گونه که برای مثال اگر یک عامل هوش‌مصنوعی در یک تصویر به همراه فایل صوتی آن، وجود پرنده کلاغ را تشخیص دهد ولی فناوری تشخیص صدا،حضور پرنده دیگری را از روی فایل صوتی آن تشخیص دهد که هیچ شباهتی به صدای کلاغ ندارد(با توجه به خروجی آن) آنگاه میتوان به سیستم تشخیص تصویر به صورت خودکار آموزش داد که آن پرنده، کلاغ نمی باشد بلکه پرنده ایست که به وسیله سیسم تشخیص صدا مشخص شده است.
اینک می توان به وسیله فناوری تشخیص صدا،سیستم‌های هوش مصنوعی را هوشمند تر کرد.
بیش از 13٪ (1،373) گونه های پرنده آسیب پذیر هستند و یا در معرض خطر انقراض از علل ناشی از جنگل زدایی، تغییرات اقلیمی جهانی (اتحادیه بین المللی حفاظت از طبیعت لیست اطلاعات قرمز، 2014) می باشند.برای حفظ جمعیت پرندگان، مدیران حیات وحش نیاز به اطلاعات دقیق درباره حضور گونه ها و برآوردهای جمعیتی از برنامه های نظارت دارند. اگرچه مشاهده بصری پرندگان حتی زمانی که ناظران در محل صحیح قرار دارند، دشوار است، اما آنها نسبت به سایر مهره داران زمینی بیشتر آواز دارند و به همین دلیل صدای پرنده ها معمولا مستقیم ترین راه برای انسان ها به منظور شناسایی هستند. با توسعه دادن ضبط کننده های صوتی که می توانند در طول دوره های طولانی ضبط صداها، از جمله موارد نادر، در محیطی باقی بمانند.در نتیجه سرشماری صداها به شیوه سنتی با ترابایت داده ها جمع‌آوری شده جایگزین می شود که می توان آن را ارزان و آسان با دخالت محدود انسان‌ها جمع‌آوری کرد.
ذخیره سازی دائمی داده های صوتی، مزیت گوش دادن به آهنگ ها و مشاهده و بازبینی دوباره و دوباره اسپکترومترهای آنها را، به منظور بهبود دقت تشخیص گونه ها و شمارش آوازها،خواهد داشت.با این حال، این کار هنوز تا حد زیادی دستی است، نیاز به خواندن و گوش دادن اسپکترومتر، که باعث می شود یک رویکرد پرهزینه باشد که نیاز به افراد با آموزش خوب داشته باشد؛ طبق گزارش، حدود یک ساعت طول می کشد که یک متخصص اسپکترومتر ده ساعته ضبط صدا اسکن کند [1] (بسته به کیفیت ضبط، گونه های تحت نظارت، و نرخ تماس)،که یک کار دشوار است، به ویژه هنگامی که بسیاری از صداهای ضبط شده اغلب به صورت همزمان جمع‌آوری شده است [2]. در نتیجه، نمونه برداری (تجزیه و تحلیلی که در دوره های زمانی محدود در یک زیرمجموعه‌ایی از صدای ضبط شده انجام می شود) در بسیاری از تحقیقات مورد توجه قرار می گیرد، اما این تعصب و بی دقتی و ناکامل بودن را به وجود می آورد، از این رو تشخیص خودکار گونه های پرنده از روی صدا های آنها بهترین راه است.
در مقایسه با تشخیص گفتار انسان، یکی از چالش های اصلی تشخیص پرندگان (که به وضوح در محیط های طبیعی رخ می دهد) ضبط پر سر و صدا است. ضبط کننده تمام سروصداهایی را که در محیط زیست است، نه فقط پرنده‌ها و پرندگانی که به ندرت نزدیک به میکروفون هستند، می‌گیرد. این به یک نسبت کم سیگنال به نویز منجر می شود، و حتی تشخیص پرندگان سخت تر می شود،چه تشخیص توسط انسان کامپیوتر انجام شود یا کامپیوتر. در این مقاله، ما مساله تشخیص صدای پرندگان را از نقطه نظر پردازش سیگنال بررسی می کنیم. ما بحث می کنیم که چه نوع صدایی را هر پرنده‌ای می‌تواند بسازد و سپس منابع سر و صداهایی که می توانند وجود داشته باشند را بررسی می‌کنیم. سپس روشهای پردازش سیگنال که در دسترس هستند را در نظر می گیریم و دو روش را مقایسه می کنیم: رویکرد سنتی مبتنی بر فیلتر band-pass/low-pass و روش ما، که از wavelet packet decomposition در ترکیب با فیلتر band-pass یا pass-pass استفاده می کند. با استفاده از صداها و آوازهای مختلف از گونه های مختلف پرنده (که طیف وسیعی از vocalisation ها و فرکانس ها را پوشش می دهد)، ما نشان می دهیم که می‌توانیم به طور قابل توجهی کیفیت صداهای ضبط شده پرندگان را بهبود ببخشیم ، یا به صورت قطعه قطعه یا در طول دوره های نسبتا طولانی.

همچنین، در مواردی که در صدای دریافتی از محیط و یا ارتباطات کلامی از طریق دستگاه‌های ارتباطی دچار اختلال در وضوح صدا شویم که تشخیص کلمه دشوار و یا ناممکن باشد،میتوان با سیستم تشخیص صدا مشکل را برطرف کرد.

۲. کارهای مرتبط

۲.۱. آوازخوانی پرندگان (bird vocalization)، طبقه‌بندی (categorization) و الگوهای طیف‌

آوازخوانی پرندگان نقش مهمی در ارتباطات خاص گونه دارد، از جمله جفتگیری، تعامل والدین-فرزندان، انسجام در میان گله ها و دفاع از قلمرو [3]. آزمایشات نشان داده اند که پرندگان قادر به تشخیص هم‌گونه‌ای خود، گونه های دیگر تنها با استفاده از آوازها هستند [4]. هر نوع پرنده دارای ساختار آهنگ خاص خود است، که می تواند از تکرار یکنواختی تا نوآوری آهنگ های جدید و پیچیده (به عنوان مثال، پرنده فوق العاده (Menura novaehollandiae) و قورباغه (Toxostoma rufum) ) متفاوت باشد.[5]
آوازخوانی‌ها را می توان به نداها و آهنگ‌ها تقسیم کرد، که نداها از صداهای نسبتا ساده ای که توسط هر دو جنس تولید می شوند تشکیل شده است، در حالی که آهنگ‌ها طولانی و پیچیده هستند و معمولا توسط پرندگان مذکر (order passeriformes) تولید می شوند. تفاوت اصلی بین تماس ها و ترانه ها، به طور قطع، عملکرد آنها است: آهنگها به طور کلی نقش بازتولید را در نظر می گیرند، در حالی که نداها، شامل تعداد بیشتری از عملکردهای سیستم ارباب-رعیتی پرندگان، شناسایی فردی، انتقال پیام های پیچیده مانند نوع و اندازه شکارچی حضور در صحنه می‌باشد [6][7][8]. آهنگ ها و نداها را می توان به عبارات، هجا و عناصر [9] تقسیم کرد، همانطور که در شکل1 (a) نشان داده شده است. واحد اساسی صدا، عنصری است که هجا آن شامل یک یا چند عنصر است که می توانند از محتوای دیگر آوازخوانی‌ها جدا شوند. یک سری از هجا که به برخی از الگویی سازماندهی شده است، به عنوان عبارت بیان می شود.
توضیح تصویر

شکل 1- نمایش Spectrogram از گونه های مختلف پرنده که برخی از ظاهر معمول صداها را نشان می دهد. (a)آهنگ نوعی گنجشک روباه (Passerella iliaca) که نشان دهنده هجا، عبارات و عناصر آن است (S = هجا و E = عنصر).

تعدادی از مطالعات وجود دارد که اجزای آوازخوانی‌های پرنده را براساس الگوهای تولید شده توسط آنها در طیف سنجی تعریف می کنند [10][11]. اجزاء صوتی کلیدی که توسط [10] تعریف شده اند، خطوط (در هر زاویه)، مارپیچ ها(warbles)، بلوک ها(blocks)، نوسانات (oscillations)و هماهنگی های انباشته(stacked harmonics) هستند (مثال های داده شده در شکل 1 (b) -1 (k)).

۲.۱.۱. تجزیه و تحلیل Spectrogram

نمایش‌های طیفی پرندگان که در شکل 1 نشان داده شده است براساس نمایش فرکانس یک ضبط جداگانه از آواز پرندگان پیوسته است. ضبط دیجیتالی صدای پرنده ها بر اساس زمان equally-spaced نمونه برداری از صدای پرندگان مشابه آن است. این فرم اولیه داده های صوتی به عنوان نوسانگر و یا به طور ساده شکل موج(waveform) نامیده می شود. نوسانگر دو بعدی است: محور افقی نشان دهنده زمان است و محور عمودی نشان دهنده دامنه است. به نظر می رسد که تجزیه و تحلیل سیگنال به طور کلی در حوزه فرکانس موثر تر از دامنه زمانی است، همانطور که شواهد حاکی از این واقعیت است که پرنده شناسان نمایش spectrogram را به یک نوسان نگار ترجیح می دهند. نمایش فرکانس اطلاعاتی را در مورد اجزای فرکانس که سیگنال را تشکیل می دهند، فراهم می کند، اما نه در مورد زمانی که این فرکانس ها رخ می دهد. تبدیل شکل موج به دامنه فرکانس توسط تبدیل فوریه انجام شده است که نشان می‌دهند سیگنال به عنوان یک توزیع وزن از امواج سینوس و کوزینس در فرکانس های مختلف است. تبدیل فوریه معکوس است، به این معنی که پردازش را می توان در دامنه فرکانس انجام داد و سپس به دامنه زمان تبدیل کرد، به عنوان مثال فعال کردن صدا برای پخش شدن. صدای پرنده با استفاده از تبدیل دیفرانس فوریه (DFT) به دامنه فرکانس منتقل می شود و در عمل، از تبدیل سریع فوریه (FFT)، که یک الگوریتم کارآمد برای DFT است، استفاده می شود.
شکل 2 (a) سیگنال غیر ثابت را نشان می دهد.در طول 100 ms اول فرکانس سیگنال 20 هرتز است، در طول ms 100 دوم فرکانس دو برابر می شود و دوباره در طول 100ms آخر. سمت راست طیف قدرت را نشان می دهد که انرژی را برای واحد زمانی (قدرت) در برابر اجزای فرکانس قرار می دهد و به وضوح فرکانس های اصلی سیگنال اولیه را نشان می دهد.

شکل 2 - غیر ثابت (a) یک سیگنال غیر ثابت که حاوی فرکانس های 20 هرتز، 40 هرتز و 80 هرتز است و (b) طیف قدرت آن با استفاده از تبدیل فوریه گسسته محاسبه شده است.

تقسیم کل سیگنال به اندازه ثابت پنجره های کوچک و سپس محاسبه اجزای فرکانس از این پنجره ها یک رویه معمول بر اساس این فرض است که سیگنال در طول مدت کوتاه ثابت است. استفاده دقیق از پنجره هایی که در لبه های محدوده آنها فرو می ریزد و صفات همپوشانی آنها را به هم می ریزد، امکان استفاده از تبدیل کوتاه مدت فوریه (STFT) را فراهم می کند و این اساس اسپکترومبر است. اولا طیف قدرت هر پنجره محاسبه می شود و سپس 90 درجه در جهت عقربه های ساعت چرخش می شود و دامنه با یک درجه گرمی جایگزین می شود. spectrogram کامل با جمع آوری تمام تصاویر از پنجره های بعدی به طور مناسب تولید می شود.با توجه به اینکه پنجره های زمانی به اندازه کافی کوتاه هستند که اجزای فرکانس در پنجره زمانی پایدار باقی می ماند، نمایش پایدار از اجزای فرکانس داده ها در برابر زمان را فراهم میکند،اما با هزینه ایی به همراه است، زیرا تخمینی فرکانس دقیقا به زمان نیاز دارد: رزولوشن فرکانس تنها می تواند به هزینه زمان رزولوشن و بالعکس برسد. نتیجه این است که پنجره های بزرگتر برای فرکانس های پایین مورد نیاز است، اما STFT نمی تواند با این ظرافت ها مقابله کند. این به ما اجازه داد که موجک ها را به عنوان نمایندگی صدای پرندگان در نظر بگیریم، همانطور که ما در مورد آن پس از اینکه ما انواع صداهای موجود در ضبط های پرنده را در نظر بگیریم، خواهیم گفت.

۲.۱.۲. ضبط صدای پرندگان و نویز

صداها که می توانند شنیده شوند می توانند به سه نوع مختلف تقسیم شوند: زیست شناسی (biophony)، ژئوفونی(geophony) و انترفونی (anthrophony)ش [12].Biophony به هر صدا تولید شده توسط عوامل بیولوژیکی اشاره می کند: در جنگل های بزرگ biophony ها، پرندگان، حشرات، قورباغه ها و پستانداران و پستانداران است.از آنجا که ما فقط به فعالیت های صوتی پرندگان علاقمندیم، دیگر صداهای بیولوژیکی دیگر به عنوان سر و صدا دسته بندی می شوند؛ با ضبط هایی که برای گونه های پرنده خاص هدف قرار می گیرند، حتی دیگر پرندگان به عنوان سر و صدایی در نظر گرفته می شوند.Geophony به تمام صداهای غیر بیولوژیک و طبیعی در محیط زیست اشاره دارد مانند باد و تاثیر آن بر روی درختان، باران، رعد و برق و آب در حال حرکت.ضبط فیلد همیشه با این geophonies مخلوط می شود.Anthrophony اشاره به تمام صدا تولید شده از ماشین آلات انسان ساخته شده مانند هواپیما، وسایل نقلیه، توربین های بادی، و دستگاه ضبط خود است: همیشه وجود دارد برخی از میکروفون و ضبط ضبط.به طور خلاصه، این نویزها تمام یا بیشتر اطلاعات آکوستیک را آلوده می کند، نگاه کنید به شکل 3 (a) و 3 (b). مشکلات سر و صدا این است که هم می تواند سیگنال نداهای پرنده را مسدود کند و همچنین آن را طوری تغییر دهند که به نظر متفاوت می‌رسد، و آن را برای شناسایی سخت است.

نمونه هایی از نداهای پرنده با سطوح مختلف نویز، اثر فیلتر باند عبور و طیف توان نویزهای سفید و صورتی.

ما بین تقسیم سیگنال، که اساسا حذف / فیلتر کردن سر و صدای سازگار است، از جداسازی منبع، که شناسایی این است که چندین پرنده به طور همزمان ندا می‌دهند و سیگنال ها را به پرندگان مجزا جدا می کنند، تفاوت قائل می‌شویم. ما در این مقاله مورد دوم را در نظر نمی گیریم. [13] یک بررسی از رویکرد برای مشکل را ارائه می دهیم، اما توجه کنید که تعداد بسیار کمی از روش ها برای سیگنال های واقعی در جهان کار می کنند.
یک نظریه نویز در پردازش سیگنال دیجیتال وجود دارد (به عنوان مثال [14] را ببینید)، که نویز را با توجه به خواص آن مشخص می کند:

نویز سفید دارای انرژی برابر در تمام فرکانس ها است، به این معنی که طیف توان صاف است. در عمل، نویز تنها در طیف محدودی از فرکانس ها سفید است (شکل 3 (e)). در حالی که تمام نویز سفید گاوس نیست، نویز سفید طبیعی می تواند اغلب به گونه ای مدل سازی شود.
نویز رنگی یک طیف قدرت غیر یکنواخت را نشان می دهد، که انرژی آن به طور کلی نسبت به فرکانس f کاهش می یابد. انواع مختلف سر و صدا رنگی عبارتند از صورتی (قدرت) و قهوه ای (قدرت).
سر و صدای تکان دهنده اشاره به کلیک های ناگهانی مانند صداهای که برای یک دوره بسیار کوتاه از زمان (میلی ثانیه)، مانند نویز تغییر است. یک ضربه ایده آل یک خط افقی را در طیف قدرت تولید می کند، زیرا این پالس های تیز شامل تمام فرکانس ها به طور مساوی است.
سر و صدا باریک-باند مانند میکروفون hum که طیفی از فرکانس های کوچک را نشان میدهد.
سر و صدای گذرا یک انفجاری از سر و صدا است که برای برخی از زمان رخ می دهد، و سپس ناپدید می شود.

یک ویژگی مهم هر صدا این است که آیا آن ثابت است یا خیر، خواص آن در طول زمان قابل ملاحظه نیست. بیشترین نویز در ضبط طبیعی حداقل تقریبا نیمه ثابت است و ماهیت ژئوفونیک آن است. با این حال، صدای پرنده ها ثابت نیستند (یعنی گذرا هستند)، زیرا عموما کوتاه مدت هستند و به سرعت تغییر می کنند. این اختلاف بین ویژگی های نویز و سیگنال باعث می شود تکنیک های کاهش نویز مورد استفاده قرار گیرد .

۲.۱.۳. فیلتر نویز

فیلتر کردن نویز رایج ترین روش برای مقابله با ضبط های پر سر و صدا است. پردازش سیگنال سنتی براساس الکترونیک، از دو فیلتر اصلی، low-pass و high-pass استفاده می کند که به ترتیب فرکانس های پایین تر و بالاتر از یک فرکانس برش پیش از تعریف می توانند عبور کنند و بقیه را تضعیف کنند. ترکیب یک فیلتر پایین گذر و یک فیلتر بالاگذر یک فیلتر band-pass می دهد. اگر سر و صدا اشباع فرکانس های بالا باشد، در حالی که پرنده مورد علاقه آهنگ های فرکانس پایین را می خواند، این امر برای از بین بردن سر و صدا کافی است، اما از آنجا که طیف های سر و صدا و سیگنال همپوشانی دارند، این مورد کافی نیست.
شکل 3 (c) و 3 (d) نشان می دهد که تأثیر فیلتر کردن باند عبور بر روی یک نمونه از سوت مرغ کیوی ایسلند شمالی مذکر (Apteryx mantelli) نشان داده شده است. طیف سنج نشان می دهد که تمام اجزای فرکانس با فرکانس بالا و فرکانس پایین با موفقیت حذف شده اند، اما همه نویز در محدوده فرکانس آهنگ پرنده (به عنوان پس زمینه خاکستری قابل مشاهده است) هنوز وجود دارد، تایید اینکه این فیلتر اصلی برای بازیابی کافی نیست. علاوه بر این، پرندگان دارای دسته های مختلف نداها از باند فرکانس های مختلف هستند.به عنوان مثال، پرنده کاکاپو (Strigops habropotlus) دو نوع صدای بلند را تولید می کند: booming که فرکانس کم دارد و chinging که فرکانس نسبتا بالا دارد. طراحی یک فیلتر معمولی برای تمیز کردن ساعات ضبط صدای کاکاپو از نویز غیرممکن است زیرا فرکانیس کل دوره آنها یکسان نیستند.
یکی دیگر از روش های سنتی، فیلتر وینر (Wiener)است که برآوردی از فرآیند مورد نظر یا هدف تصادفی (گاوسی) را بر اساس فیلترینگ غیر خطی و حداقل میانگین مربع خطای بین سیگنال تخمین زده شده و سیگنال دلخواه را با فرض اینکه سیگنال و نویز ثابت هستند و اطلاعات طیفی در دسترس هستند [14]. این برای پرندگان درست نیست، بنابراین ما آن را بیشتر در اینجا در نظر نگرفتیم.

۲.۱.۴. موجک‌ها (Wavelets)

ما قبلا توضیح دادیم که تبدیل فوریه، در حالی که معمولا در تجزیه و تحلیل پرندگان استفاده می شود، واقعا مناسب نیست به دلیل tradeoff بین قطعنامه زمانی و وضوح فرکانس. یک جایگزین تبدیل موجک است که یک پیشرفت نسبتا اخیر در پردازش سیگنال است [15]، هرچند که به طور مستقل در زمینه های مختلفی مانند ریاضیات، تحلیل کوانتومی و مهندسی برق [16] اختراع شده است. موجکها در بسیاری از فیلدها، مانند فشرده سازی داده ها، تشخیص ویژگی ها و سیگنال ها استفاده می شود [17].
در تبدیل فوریه سیگنال به مبنای امواج سینوس و کوزینس تبدیل می شود. تبدیل موجک همچنین از یک مبنای استفاده می کند، اما عناصر پایه به صورت مقیاس ناپیوسته هستند، به این معنی که آنها در همه مقیاس ها یکسان هستند و در فضای محلی قرار دارند. نتیجه گیری این است که در نمایش موجک، اندازه های مختلف پنجره می تواند برای دیدن سیگنال در رزولوشن های مختلف استفاده شود؛ به عنوان مثال مشاهده یک جنگل و درختان آن در همان زمان است. اگر ما نیاز به دیدن تمام جنگل داشته باشیم باید آن را در مقیاس وسیع ببینیم و سپس می توانیم ویژگی های کلی را درک کنیم. برای دیدن درختان، باید زوم کنیم و روی درخت تمرکز کنیم. بزرگنمایی بیشتر به ما امکان می دهد که برگ را ببینیم. ما می توانیم جنگل، درختان و حتی برگ ها را با استفاده از مقیاس های مختلف ببینیم. شکل 4 (a) و 4 (b) تفاوت بین تجزیه و تحلیل فوریه و موجک را نشان می دهد: اندازه پنجره در شکل 4 (b) انعطاف پذیری (اجازه می دهد که پنجره های بزرگ برای فرکانس های پایین و پنجره های کوچک برای فرکانس های بالاتر تنظیم شوند) ، که برای سیگنال های غیر ثابت طیف گسترده ای مانند صدای پرنده ها اهمیت دارد.

شکل 4- درباره موج ها و ارتباط آنها با رزولوشن فرکانس زمان و wavelet packet decomposition است.

چندین انتخاب از ویژگی های پایه (که به عنوان موجک مادر شناخته می شود) Ψ وجود دارد و متاسفانه بهترین موجک مادر برای یک برنامه خاص باید به صورت تجربی تعیین شود.شکل 4(c)–4(e) نمونه هایی از بعضی موجک های مادر را نشان می دهد، از جمله ساده ترین موج ویروس Haar که یک تابع گام متناوب است. در حالی که اختلال در برخی از حوزه ها، از جمله پرندگان، می تواند معایب باشد، برای کسانی که تغییرات ناگهانی مانند شکست دستگاه را نشان می دهد، سودمند است [18]. شکل 4 (d) سه نمونه از موجک Daubechies م(dbN) را فراهم می کند که نشان می دهد که صافی بودن موجک به صورت افزایش N افزایش می یابد. در نهایت، شکل 4 (e) موجک اختیاری مایر (dmey) را نشان می دهد.
به منظور ساخت عناصر دیگر موجک، موجک مادر مقیاس پذیر است و با استفاده از عوامل a و b با استفاده از:

پارامتر a≠ 0 مقدار کشش یا فشرده سازی موجک مادر را تعیین می کند (بسته به اینکه آیا a بزرگتر یا کمتر از 1 است). بنابراین، هنگامی که یک اجزای فرکانس کم کوچک هستند به خانواده موجک معرفی می شوند؛ در عوض این موجک ها می توانند فرکانس های بالا سیگنال را بگیرند. به همین ترتیب، هنگامی که یک اجزای فرکانس پایین زیاد است به خانواده موجک معرفی شده و به ضبط سیگنال های فرکانس پایین کمک می کند. پارامتر b مقدار تغییر شکل موج در طول محور افقی را تعیین می کند: b> 1 موجک را به سمت راست حرکت می دهد، در حالی که b <1 آن را به سمت چپ حرکت می دهد. بنابراین، پارامتر b شروع موجک را مشخص می کند. شکل 4 (f) اثر a و b را با توجه به یک ویولت مادر مشخص نشان می دهد. بر این اساس، موجکها توسط تابع موجک (موجک مادر) و تابع پوسته پوسته شدن (که همچنین موجک پدر خوانده می شود) تعریف می شود. موجک مقیاس شده به عنوان موجک دختر شناخته شده است.

۲.۱.۵. تجزیه بسته ویولت (Wavelet Packet Decomposition)

هنگامی که موجکها به یک سیگنال گسسته اعمال میشوند، فیلترهایlow-pass و high-pass استفاده می شود، داده ها به قسمت فرکانس پایین (approximation) و قسمت فرکانس بالا (جزئیات) تقسیم می شوند. این بازنمودهای فیلتر شده از داده ها می تواند دوباره توسط موجک با مقیاس کوچکتر با ایجاد ویولت دختر جدید، معمولا در نیمی از مقیاس، تجزیه و تحلیل شود. یک انتخاب مدلسازی که میتواند انجام شود این است که آیا هر دو بخش تقریب و جزئیات بخش سیگنال یا فقط ضرایب تقریبی را مجددا بررسی کنیم. ما تصمیم می گیریم که هر دو را تجزیه کنیم، در آنچه که به عنوان تقسیم بسته های موجک شناخته می شود [19]. آن را به درخت تقسیمات موجک منجر می شود، همانطور که در شکل 4 (g) نشان داده شده است، و تجزیه و تحلیل طیفی غنی را فراهم می کند، از آنجا که 2N برگ در پایه درخت زمانی که سطوح N وجود دارد.
با این حال، سوال در مورد چگونگی استفاده از سطوح درخت هنوز باقی است. این سوال اغلب به صورت آزمایشی پاسخ داده می شود، اما از آنجایی که ما می خواهیم یک روشی که بتواند بدون استفاده از صدای پرنده ها کار کند، باید یک روش محاسباتی پیدا کنیم. ما این را با در نظر گرفتن اینکه چه مقدار اطلاعات در مورد سیگنال در تقریبی در هر گره قرار گرفته است، استدلال می کنیم که گره هایی که حاوی اطلاعات نیستند، نشان دهنده نویز هستند و بنابراین باید از آنها رد کنیم. در حوزه نظریه اطلاعات، آنتروپی شانون اندازه گیری استاندارد عدم قطعیت یا اختلال در یک سیستم را فراهم می کند [20]، و این به مقدار اطلاعات موجود در یک سیگنال داده شده متصل است [21].
انتروپی S مجموعه ای از احتمالات pi به صورت زیر محاسبه می شود (با استفاده از قرارداد 0 log 0 = 0):

جایی که pi احتمال حالت i ام در فضای حالت است. در wavelets، ما یک نسخه کمی از این انتروپی شانون را استفاده کردیم:

جایی که s شماره i ام،i امین نمونه ای از سیگنال است [22] [23].

ایده استفاده از آنتروپی برای موجک این استدلال است که وقتی آنتروپی کوچک است، دقت انتخاب موجک انتخاب شده بالاتر است [23]. ما از این محاسبات در هر گره استفاده کردیم تا انتخاب کنیم که آیا یک گره را نگه داریم یا نه، و درختی که در نقطه ای که همه گره ها حاوی سر و صدا با این محاسبات حذف شده اند متوقف ساختیم، به این معنی که سیگنال به طور کامل توضیح داده شد.

۲.۱.۶. استفاده های قبلی از موج ها برای denoise کردن زیست-آکوستیکی

استفاده از موجک برای کاهش نویز، که به عنوان denoising اشاره شده است، پیشرفت در حال ظهور در پردازش سیگنال دیجیتال است. در حالی که نمونه هایی از denoising در دیگر حوزه های سیگنال صوتی مانند سیگنال های تخلیه جزئی (PD) م [24][25][26]، موسیقی [27]، سخنرانی [28] و فونوکاردیگرافی [29][ 30] وجود دارد، استفاده از آنها در denoising زیستی آکوستیک هنوز هم غیر معمول است.

۲.۱.۷. الگوریتم

برای خلاصه کردن رویکرد ما به denoising پرندگان، مراحل زیر را انجام دادیم که بعدا مورد بحث قرار می گیرد:

یک ویولت مادر مناسب پیدا کنید.
مناسب ترین سطح تجزیه بر اساس آنتروپی شانون را پیدا کنید.
تبدیل موجک را به سیگنال پر سر و صدا برای تولید ضریب موجک پر سر و صدا اعمال کنید
تعیین آستانه مناسب برای بهتر حذف نویز بر اساس آنتروپی شانون.
تبدیل موجک ضریب موجک حفظ شده را برای به دست آوردن سیگنال متصل شده غیرفعال کنید.
در هر صورت، یک فیلتر معمولی با فرکانس پایین یا عبور از حد مجاز برای حذف هر سر و صدا خارج از محدوده فرکانس سیگنال استفاده کنید.

۲.۱.۸. انتخاب ویولت مادر

انتخاب موجکی مناسب مادر کلید موفقیت برآورد سیگنال بی صدا است. یک رویکرد به صورت بصری با مقایسه شکل ویولت مادر و بخش های کوچک سیگنال، انتخاب ویولت است که بهترین سیگنال را دارد [25]. با این حال، با توجه به این که ما می خواهیم این روش با طیف وسیعی از تماس های مختلف پرنده کار کند، انتخاب بصری کافی نیست.

۳. مراجع

[1] Digby A, Towsey M, Bell BD, Teal PD. A practical comparison of manual and autonomous methods for acoustic monitoring. Methods in Ecology and Evolution. 2013;4(7):675–683.
[2] Potamitis I, Ntalampiras S, Jahn O, Riede K. Automatic bird sound detection in long real-field recordings: Applications and tools. Applied Acoustics. 2014;80:1–9.
[3] Kroodsma DE, H ME, Henri O. Acoustic communication in birds. New York: Academic Press; 1982.
[4] Catchpole CK, Slater PJB. Bird Song: Biological Themes and Variations. Cambridge University Press; 2008.
[5] Kroodsma DE. The Singing Life of Birds: The Art and Science of Listening to Birdsong. Boston: Houghton Mifflin Harcourt; 2005.
[6] Catchpole CK. Variation in the song of the great reed warbler Acrocephalus arundinaceus in relation to mate attraction and territorial defence. Animal Behaviour. 1983;31(4):1217–1225.
[7] Morse DH. Territorial and courtship songs of birds. Nature. 1970;226:659–661. pmid:5444934
[8] Lein MR. Territorial and courtship songs of birds. Nature. 1972;237:48–49.
[9] Somervuo P, Härmä A, Fagerlund S. Parametric representations of bird sounds for automatic species recognition. IEEE Transactions on Audio, Speech, and Language Processing. 2006;14(6):2252–2263.
[10] Duan S, Zhang J, Roe P, Wimmer J, Dong X, Truskinger A, et al. Timed Probabilistic Automaton: a bridge between Raven and Song Scope for automatic species recognition. Proceedings of the 25th Innovative Applications of Artificial Intelligence Conference, AAAI; 2013. Available here:
[11] Shufei D, Towsey M, Zhang J, Truskinger A, Wimmer J, Roe P. Acoustic component detection for automatic species recognition in environmental monitoring. In: 7th International Conference on Intelligent Sensors, Sensor Networks and Information Processing (ISSNIP); 2011. p. 514–519.
[12] Farina A. Soundscape ecology: principles, patterns, methods and applications. Springer Netherlands; 2014.
[13] Pedersen MS, Larsen J, Kjems U, Parra LC. A survey of convolutive blind source separation methods. Multichannel Speech Processing Handbook. 2007;p. 1065–1084. Available: here.
[14] Vaseghi SV. Noise and Distortion. In: Advanced digital signal processing and noise reduction. John Wiley & Sons; 2008. p. 35–50.
[15] Morlet J, Arens G, Fourgeau E, Glard D. Wave propagation and sampling theory-Part I: Complex signal and scattering in multilayered media.GEOPHYSICS. 1982;47(2):203–221.
[16] Mertins A. Wavelet Transform. In: Signal Analysis: Wavelets, Filter Banks, Time-Frequency Transforms and Applications. John Wiley & Sons, Ltd.; 2001. p. 210–264.
[17] Graps A. An Introduction to Wavelets. IEEE Comput Sci Eng. 1995;2(2):50–61.
[18] Patil S, Chandel GS, Gupta R. Performance Analysis of Steganography based on 5-Wavelet Families by 4 Levels-DWT. International Journal of Computer Science and Network Security (IJCSNS). 2014;14(12):56–61. Available: [here] (http://paper.ijcsns.org/07_book/html/201412/201412011.html ).
[19] Burrus CS, Gopinath RA, Guo H. Generalizations of the Basic Multiresolution Wavelet System. In: Introduction to Wavelets and Wavelet Transforms: A Primer. Prentice-Hall, Inc.; 1997. p. 98–145. Available: here.
[20] Shannon CE. A mathematical theory of communication. The Bell System Technical Journal. 1948 July;27(3):379–423.
[21] Marsland S. Machine Learning: An Algorithmic Perspective. 2nd ed. Chapman & Hall/CRC Machine Learning & Pattern Recognition. Chapman and Hall/ CRC; 2014.
[22] Wang D, Miao D, Xie C. Best basis-based wavelet packet entropy feature extraction and hierarchical EEG classification for epileptic detection. Expert Systems with Applications. 2011;38(11):14314–14320.
[23] Ma Hf, Dang Jw, Liu X. Research of the Optimal Wavelet Selection on Entropy Function. In: Future Control and Automation. Springer; 2012. p. 35–42.
[24] Ma X, Zhou C, Kemp I. Automated wavelet selection and thresholding for PD detection. IEEE Electrical Insulation Magazine. 2002;2(18):37–45.
[25] Shim I, Soraghan JJ, Siew WH. Detection of PD utilizing digital signal processing methods. Part 3: Open-loop noise reduction. Electrical Insulation Magazine, IEEE. 2001;17(1):6–13.
[26]Tsai SJS. Power transformer partial discharge (PD) acoustic signal detection using fiber sensors and wavelet analysis, modeling, and simulation. Virginia Polytechnic Institute; 2002. Available:here.
[27] Sharma R, Pyara VP. A Robust Denoising Algorithm for Sounds of Musical Instruments Using Wavelet Packet Transform. Circuits and Systems.
[28] Bee SS, Pramod J, Jilani S. Real Time Speech Denoising Using Simulink and Beagle Bone Black. Available: here
[29] Vaisman S, Salem SY, Holcberg G, Geva AB. Passive fetal monitoring by adaptive wavelet denoising method. Computers in biology and medicine .2012;42(2):171–179. pmid:22169397
[30] Varady P. Wavelet-based adaptive denoising of phonocardiographic records. In: Engineering in Medicine and Biology Society, 2001. Proceedings of the 23rd Annual International Conference of the IEEE. vol. 2. IEEE; 2001. p. 1846–1849.

2013;4(07):459.

۴. پیوندهای مفید

ارزیابی شرح مسئله و کارهای مرتبط 1396/08/29

محمد حسن سوهان آجینی

سلام
متن حاضر بسیار ناقص است.
۱- بخش کارهای مرتبط به کلی رها شده‌است.
۲- با توجه به اینکه مجموعه‌ی دادگان کار شما مشخص است، انتظار می‌رفت مختصری از کارهای انجام شده روی آن را بررسی می‌کردید.
۳- شما از هیچ مرجعی برای ایده گرفتن و پیدا کردن کاربردهای این مساله استفاده نکردید!

ارزیابی بهبود نتایج و تکمیل گزارش 1396/11/11

تایید شده

با آن که در قسمت های مربوط به فاز های اول پروژه (مقدمه و کار های مرتبط) به خوبی و مفصلا به دریافت و پردازش سیگنال های صوتی، پرداخته شده است و این به صورت کلی نکته مثبتی در این پروژه می باشد، اما (با توجه به تحقیقاتی نبودن پروژه) متاسفانه پیاده سازی انجام نگرفته است.

با سلام
با وجود بررسی های نسبتا خوب سایر مقالات هیچ تلاشی در جهت اجرا و یا ارتباط دادن این مطالعات به اصل پروژه نشده است.
اقلا بهتر بود در پایان مقالات مرتبط یک جمع بندی صورت میگرفت و نحوه ارتباط دادن این مقالات با صورت مسئله را شرح میدادید.

مقدمه به خوبی به دلایل مهم بودن این مسئله پرداخته است.
در بخش کارهای مرتبط به خوبی روش‌ها معرفی شده‌اند.
متأسفانه پاراگراف‌ها بسیار طولانی هستند و پروژه پس از بخش کارهای مرتبط رها شده است.

با سلام
چون در عنوان پروژه ی شما تحقیقاتی نخورده است پس عدم وجود بخش پیاده سازی به عنوان یک ضعف برای پروژه ی شما قلمداد می شود. دلیل کم شدن ستاره دیگر نیز وجود برخی ایرادهای نگارشی در متن بود اما در کل اگر پروژه ی شما تحقیقاتی بود می توانست پروژه ی کاملی باشد.
با تشکر و عرض خسته نباشید.

تشخیص نوع پرنده از روی صدا