آنالیز و تطبیق صدا و تعیین اصالت فایل صوتی

کارشناسی آنالیز و تطبیق صدا و شناسایی گوینده از فایل صوتی_ کارشناسی کامپیوتر و جرایم رایانه ای

نمونه ی عالی از نظریه کارشناسی تطبیق صدا (انجام شده توسط یکی از کارشناسان همکار)

ریاست محترم شعبه چهارم دادسرای ….

سلام علیکم

با تقدیم احترام، بازکشت به قرار ارجاع کارشناسی در پرونده کلاسه فوق در خصوص دعوی آقای …. به طرفیت آقای … مبنی بر جعل و خیانت در امانت، در پاسخ به سوال مطرح شده آن مقام محترم، اینجانب نتایج تحقیقات و نظریه کارشناسی خود را به شرح ذیل تقدیم می نمایم.

اقدامات کارشناسی

1-مراجعه به شعبه: در این خصوص، در فرداي روز ابلاغ قرار کارشناسی، به دفتر شعبه مراجعه و در خصوص شرایط پرونده با مقام محترم قضایی مواردي را مطرح داشتم.

2- مصاحبه با اصحاب دعوي: در این خصوص، شاکی پرونده (آقاي …) با مراجعه به دفتر اینجانب مواردي از جهات پرونده را براي اینجانب توضیح دادند و همچنینCD حاوي فایل صوتی مکالمه خودشان با آقاي … را نیز به بنده تحویل دادند. در ادامه و بعد از گوش دادن کامل به مکالمه 46 دقیقه اي طرفین جهت ایجاد اطمینان و جلوگیري از بروز هرگونه شک و شبهه و همچنین ضبط صدا به منظور پاسخ به سوالات کارشناسی، با مشتکی عنه (آقاي …) تماس گرفتم. ایشان وجود این فایل صوتی ومکالمه شان با آقاي … را رد نکردند. اما مقرر شد تایید کامل این فایل بعد از ارسال آن از سوي اینجانب (از طریق یکی از شبکه هاي اجتماعی) صورت گیرد که بعد ازگذشت 2 روز علی رغم یادآوري و ارسال پیام مجدد ، ایشان پاسخی در این خصوص ندادند.

3- اقدامات فنی: در ادامه با استناد به روش هاي معتبر علمی و استفاده از مدل هاي مبتنی بر هوش مصنوعی در زمینه شناسایی گوینده (Speaker Verification) به بررسی علمی و فنی موضوع پرداختم و با تهیه کتابخانه هاي برنامه نویسی معتبر که عمدتا به زبان برنامه نویسی پایتون می باشند اقدام به کدنویسی براي پاسخ به سوالات مطروحه نمودم. در قسمت نظریه کارشناسی این گزارش، مراحل پردازش، استخراج ویژگی، مدل یادگیري عمیق مورد استفاده، تحلیل آماري و نتیجه گیري نهایی به تفصیل آمده است.

نظریه کارشناسی

1- فایل صوتی ارائه شده از سوي مشتکی عنه بررسی گردد به لحاظ آیتم هاي فناوري داراي اصالت می باشد یا خیر؟

مراحل زیر براي پاسخ به سوال مطرح شده انجام شد. در پیاده سازي کد مورد نظر به اصول اصول علمی زیر توجه شد:

:Energy-based segmentation. شناسایی وقفه هاي غیرعادي
Spectral flatness & spectral entropy: بررسی ناهماهنگی هاي طیفی (در دستکاري صدا افزایش یا کاهش می یابد).
Silence boundary mismatch detection : تشخیص نقاط سکوت که ناهماهنگ با روند گفتار هستند.
Audio fingerprinting mismatch: بررسی شباهت ناحیه هاي متوالی (تشخیص الحاق یا تکرار صدا).
بررسی عدم پیوستگی زمانی: تحلیل انرژي لحظه اي و تغییرات طیفی ناگهانی.

مراحل کار:

پیش پردازش

بارگذاري فایل صوتی و یکنواخت سازي نرخ نمونه برداري به 16 کیلوهرتز.
تبدیل سیگنال به حوزه فرکانس با استفاده از تبدیل فوریه کوتاه مدت (STFT).

استخراج ویژگی ها

دو ویژگی آماري طیفی از فایل استخراج شدند:

: Spectral Flatness: شاخصی براي سنجش میزان نویز یا یکنواختی طیفی.
Spectral Entropy: : معیاري براي پراکندگی انرژي در باندهاي فرکانسی.

تشخیص ناهنجاري

براي هر فریم صوتی (~32 میلی ثانیه)، این دو ویژگی محاسبه شده و مقادیر خارج از بازه آماري (بیش از 3 انحراف معیار از میانگین) به عنوان فریم هاي مشکوك در نظرگرفته شدند.

معیار تصمیم گیري نهایی

با محاسبه نسبت فریم هاي مشکوك به کل فریم ها، نرخ ناهنجاري (Anomaly Rate) استخراج شده و با یک آستانه علمی مقایسه شد. اگر این نسبت از مقدار آستانه بیشتر باشد، فایل مشکوك تلقی می شود.

نتایج اجرایی

تعداد کل فریم ها: 87430
تعداد فریم هاي مشکوك: 1385
نرخ ناهنجاري: 0.016
آستانه تصمیم گیري: 0.025

تحلیل نهایی:

با توجه به اینکه نرخ ناهنجاري کمتر از آستانه تعیین شده است، براساس تحلیل هاي آماري، سیگنال صوتی مورد بررسی داراي یکنواختی طیفی و رفتاري طبیعی در طول

زمان بوده و هیچ الگوي غیرطبیعی یا ناهنجاري قابل توجهی در آن مشاهده نشد. لذا از نظر فنی، شواهدي از دستکاري، تقطیع، الحاق یا حذف در فایل صوتی دیده نشده است و داراي اصالت است.

2- بررسی گردد آیا صوت موجود در فایل منتسب به شاکی می باشد؟با توجه به اینکه صداي ضبط شده به صورت مکالمه تلفنی می باشد جهت انجام کارشناسی از شاکی خواسته شود جملات کلیدي فایل صورتی را از پشت تلفن بگوید صداي نامبرده ضبط شود و سپس تطبیق داده شود. فایل هاي تطبیق طی یک لوح فشرده جهت بررسی ارائه گردد.

در پاسخ به سوال مطروحه توسط مقام محترم قضایی، فایل صوتی مکالمه طرفین پرونده بررسی شد و قسمت هایی از صحبت هاي خواهان جدا شد . به منظور پیاده سازي سیستمی که بتواند به این سوال بصورت دقیق و کارشناسی جواب دهد از متون علمی ذیل استفاده شد.

Vu Ho et al. (2022), DOI: 10.21437/Interspeech.2022-124

Snyder et al. (2017), DOI: 10.21437/Interspeech.2017-620

Desplanques et al. (2020), DOI: 10.21437/Interspeech.2020-2650

Heo et al. (2017), DOI: 10.21437/Interspeech.2017-1050

Wang et al. (2022), DOI: 10.21437/Interspeech.2022-10055

سیستم طراحی شده مستقل از متن و مدت گفتگو بوده و لزومی به بیان جملات مشابه با فایل صوتی ارائه شده نبود و بنابراین از مکالمه تلفنی که با مشتکی عنه داشتم بخشهاي که فقط شامل صداي ایشان بود براي بنده کفایت می کرد. به منظور اطمینان از کد نوشته شده، صحت آن بارها با دادن 2 قسمت مجزا از صداي ایشان در فایل صوتیاصلی و همچنین در مقایسه با صداي افراد غیر، تایید شد.

مراحل کار:

پیش پردازش فایل هاي صوتی

تبدیل فرمت فایل هاي ورودي به WAV با نرخ نمونه برداري 16000 هرتز و تک کاناله (mono)
حذف ساکت ها با استفاده از الگوریتم (Voice Activity Detection (VADحذف نویز و نرمال سازي شدت صدا
اعمال فیلتر حذف نویز آماري مبتنی بر الگوریتم Spectral Gating [noisereduce package
نرمال سازي دامنه سیگنال به مقدار dBFS ثابت جهت حذف اثر شدت ضبط متفاوت مدل هاي شناسایی گوینده

براي استخراج بردار ویژگی گوینده از فایل صوتی، از مدل پیشرفته ECAPA-TDNN استفاده شد که بر پایه ساختار (Time-Delay Neural Network (TDNNو مکانیزم توجه کانالی (Channel Attention) توسعه یافته است. این مدل توسط مقاله Desplanques et al. معرفی شده و بر روي مجموعه داده هاي بزرگ نظیر1VoxCeleb و 2VoxCeleb آموزش دیده است. هر فایل صوتی به یک بردار 192-بعدي در فضاي ویژگی گوینده نگاشته می شود. این بردار شامل اطلاعات آماري از کلگفتار بوده و به عنوان شناسه دیجیتال گوینده عمل می کن.

معیارهاي تطابق شباهت کسینوسی (Cosine Similarity)

براي اندازه گیري میزان تطابق بین دو بردار تعبیه شده، از شباهت کسینوسی استفاده شد: (cos(θ) = (A · B) / (||A|| ||B||

که در آن A و B بردارهاي دو فایل صوتی هستند. خروجی این معیار عددي بین -1 تا +1 است. مقادیر هرچه عدد مورد نظر به عدد +1 نزدیکتر باشد حاکی از شباهت بیشتر بین دو صدا است.

تحلیل فضایی با کاهش ابعاد (PCA)

براي تجسم بهتر، داده ها به فضاي دوبعدي کاهش داده شدند. با استفاده از (Principal Component Analysis (PCA، فاصله بین دو نقطه حاصل از بردارهاي صوتی در فضاي دو بعدي بررسی شد

نتیجه گیري

مقدار شباهت کسینوسی محاسبه شده: 0.8
آستانه تصمیم گیري براساس منابع علمی: 0.75
نتیجه: دو بردار استخراج شده در فضاي ویژگی گوینده بیش از 80٪ تطابق عددي داشته و در فضاي دو بعدي نیز در فاصله بسیار نزدیک قرار دارند. با استناد به نتایج فوق و تحقیقات معتبر بین المللی، و اینکه دو صدا در محیطی کاملا مجزا ضبط شده است تعلق هر دو فایل صوتی به یک گوینده با دقت بالا مورد تأیید است.

3-بررسی گردد ایا آثاري از تقطیع یا بهم پیوستن فایل هاي مختلف در صوت وجود دارد؟

در سوال 1 بصورت تجمیعی پاسخ داده شده است.

4- به لحاظ آیتم های کلی فناوري ایا فایل صوتی ارائه شده قابلیت اعتنا دارد؟

در سوال 1 بصورت تجمیعی پاسخ داده شده است.

5- تاریخ ضبط فایل صوتی به میلادي و شمسی مشخص گردد

فایل ارائه شده، در ساعت 12:10 ظهر روز 20 سپتامپر 2023 معادل روز چهارشنبه 29 شهریور 1402 ایجاد شده است.

هزینه کارشناسی

با احترام، با توجه به ضرایب محاسبات دستمزد در رشته نرم افزار رایانه (تبصره 2 ماده 45) و تبصره 3 ماده 11 تعرفه دستمزد کارشناسان رسمی دادگستري مصوب21/8/1398ضرایب تعدیلی ایجاد شده بخشنامه مصوب 20/8/1402 ریاست محترم قوه قضاییه و پیچیدگی بالاي پرونده از لحاظ آیتم هاي علمی و فناوري درخواستدستمزد کارشناسی 100،000،000 ریال (یکصد میلیون ریال) را دارم.

نظریه درتاریخ 14/2/1404 بصورت الکترونیکی و در وقت مقرر تقدیم شعبه شده است.