سایبرپژوه – آیا یک ماشین میتواند از یک شخص تقلید کند؟
این سوال برای اولین بار توسط یکی از نخستین بنیانگذاران رشته کامپیوتر مدرن، آلن تورینگ، نزدیک به ۷۰ سال پیش مطرح شد که این مساله، در واقع اساس آزمایش تورینگ است. ویدئویی از باراک اوباما در سال ۲۰۱۸ با عنوان «شاید باورتان نشود که اوباما در این ویدئو چه چیزهایی میگوید» منتشر شدکه در این ویدئو اوباما درباره مسالهای به نام دیپ فیک (Deepfake) هشدار میدهد و این ویدئو تقریبا در یوتیوب نزدیک به ۸ میلیون بازدید داشته است، اما جالب این است که خود این ویدئو جعلی بوده است که توسط فیلمسازی به نام جردن پیل ساخته شده است[۱]!
اما نقطه مشترک آزمایش تورینگ و این ویدئو چیست؟
جواب این سوال چیزی به نام شبکههای مولد تخاصمی[۲] است.
لذا برای درک درست این موضوع و ارتباط آنها با هم در مورد مساله تورینگ و شبکههای تخاصمی توضیح مختصری خواهیم داد.
آزمایش تورینگ
نام اصلی آزمون تورینگ «بازی تقلید» یا Imitation Game است. در نسخهی اولیهی این بازی خبری از هوش مصنوعی نبود. در این نسخه، یک داور، یک شرکت کنندهی مرد و یک شرکت کنندهی زن در سه اتاق جداگانه قرار میگرفتهاند. وظیفهی داور صحبت با دو شرکت کننده بهصورت متنی و از طریق یک کنسول رایانهای بود؛ پس از گفتگوی متنی با هردو شرکت کننده، داور بایستی تصمیم میگرفت که کدامیک از شرکت کنندگان مرد است. در این بازی، هدف شرکت کنندهی مرد این بود که بتواند مذکر بودن خود را ثابت کند؛ هدف شرکت کنندهی زن نیز این بود که داور را فریب دهد و وی را متقاعد کند که او یک مرد است. اگر شرکت کنندهی زن موفق میشد داور را متقاعد کند که او در حال صحبت کردن با یک مرد است؛ وی در این بازی برنده میشد. بر اساس پیشنهاد تورینگ، میتوان به جای قرار دادن یک زن و یک مرد در دو سوی این رقابت، یک انسان و یک رایانه را در دو سوی این رقابت قرار داد؛ در این حالت، وظیفهی داور نیز شناسایی رایانه خواهد بود. به عبارت دیگر، داور به مدت پنج دقیقه به گفتگوی متنی با دو شرکت کننده (یکی انسان و دیگری رایانه) میپردازد و در این بین وظیفهی رایانه فریب دادن داور است. برای دستیابی به نتیجهی نهایی، این آزمون بارها تکرار میشود؛ اگر در بیش از نیمی از موارد، داور فریب خورده و رایانه را بهعنوان انسان قلمداد کند، این رایانه در آزمون تورینگ موفق شده است و میتوان آن را «هوشمند» قلمداد کرد .[۳]
تورینگ در پاسخ به این سوال که آیا ماشینها میتوانند فکر کنند و هوشمند باشند این آزمایش را طراحی کرد و در مقاله خود با عنوان «Computing Machinery and Intelligence» اظهار داشت که اگر شخصی نتواند رفتار یک ماشین از یک انسان را متمایز کند، یعنی اینکه این دستگاه هوشمند بوده است.
شبکههای مولد تخاصمی (GAN)
شبکههای مولد تخاصمی (GAN)، کلاسی از الگوریتمهای یادگیری ماشین محسوب میشوند که در سال ۲۰۱۴ توسط Ian Goodfellow و همکارانش ابداع شد. در شبکههای مولد تخاصمی، دو «شبکه عصبی مصنوعی» (Artificial Neural Network) رقیب در یک بازی (این بازی معمولا از قواعد «نظریه بازی» (Game Theory) و فرم «بازی مجموع-صفر» (Zero-Sum Game) تبعیت میکند) با یکدیگر به رقابت میپردازند.
با در اختیار داشتن یک «مجموعه آموزشی» (Training Set)، مدل شبکههای مولد تخاصمی یاد میگیرد تا دادههای جدیدی تولید کند که آماره برابری با آماره دادههای آموزشی داشته باشند. به عنوان نمونه، یک مدل GAN آموزش داده شده روی تصاویر دیجیتالی، قادر است تصاویر جدیدی تولید کند که به صورت سطحی، برای ناظران انسانی واقعی به نظر میرسند و بسیاری از ویژگیهای مشخصه یک تصویر دیجیتالی واقعی را از خود نشان میدهند.
جعل عمیق
دیپ فیک (جعل عمیق)، یکی از فناوریهای نوظهور مبتنی بر هوش مصنوعی است که جهت تولید یا تغییر محتویات فایلهای ویدئویی مورد استفاده قرار میگیرد؛ به گونهای که محتویات نمایش داده شده در فایلهای ویدئویی، در اصل رخ نداده است یا وجود خارجی ندارد. نامگذاری چنین فناوریهایی به عنوان دیپ فیک (جعل عمیق)، بر اساس نام کاربری یکی از اعضای سایت Reddit(یک محیط میکروبلاگ و یکی از شبکههای اجتماعی معروف) است. این شخص که با نام کاربری deepfakes در سایت Reddit شناخته میشود، در دسامبر سال ۲۰۱۷ میلادی، از فناوری یادگیری عمیق برای ویرایش چهره افراد مشهور (Celebrities) و قرار دادن چهره آنها روی بازیگران فیلمهای غیر اخلاقی (و تولید ویدئوهای جعلی) استفاده کرده است. غالب سیستمهای دیپ فیک مبتنی بر روشهای یادگیری عمیق هستند. یک بخش بزرگ از ابزارهایی که از طریق آنها ویدئوهای دیپ فیک تولید میشوند، مبتنی بر تکنیکهای خاصی به نام شبکههای مولد تخاصمی هستند.
الگوریتمهای GAN از دو مدل هوش مصنوعی تشکیل میشوند؛ وظیفه یکی از این مدلها تولید محتوا (به عنوان نمونه، تولید تصاویر افراد) است. وظیفه مدل رقیب نیز این است که تشخیص دهد آیا عکس تولید شده واقعی است یا جعلی. مدل هوش مصنوعی که وظیفه تولید عکس را برعهده دارد، کار خود را از صفر آغاز میکند؛ به عبارت دیگر، تشخیص جعلی بودن تصاویر ابتدایی تولید شده توسط این مدل راحت است.
بنابراین، در ابتدای کار مدل هوش مصنوعی رقیب به راحتی قادر است میان تصاویر واقعی و جعلی تمایز ایجاد کند. با این حال، هر چقدر که زمان بیشتری میگذرد، دقت و عملکرد هر دو مدل ارتقاء پیدا میکند. در نهایت، عملکرد و دقت مدل هوش مصنوعی تولید کننده محتوا به قدری افزایش پیدا میکند که تشخیص جعلی بودن محتوای تولید شده توسط این مدل بسیار سخت میشود.
در ۷۰ سال گذشته چه چیزی تغییری کرده است؟ مطمئناً زیاد! در اوایل ماشین ها فقط در یک بازی ساده Tic-Tac-Toe قادر به پیروزی مقابل یک انسان بودند. با این حال، ظهور یادگیری عمیق و GAN باعث شده است که ماشین برنده بازی شود. اکنون دنیای مدرن دستیاران مجازی دارد که قادر به پاسخگویی به سؤالات و انجام کارهای ساده هستند. بنابراین، نه تنها به جایی رسیده ایم که ماشین ها بتوانند به سؤالات پاسخ دهند، بلکه ماشین ها نیز می توانند در قالب یک سؤال این پاسخ ها را بدهند. با این وجود یک سوال مهم باقی مانده است – آیا ماشین ها می توانند آزمون تورینگ را پشت سر بگذارند؟ آیا ماشین ها می توانند رفتاری از خود نشان دهند که از رفتار انسان قابل تشخیص نباشد؟ پاسخ یک بله محکم است!
جدا از انتقاداتی که نسبت به مساله درک و هوشمندی ماشین وجود دارد، اینکه ویدئویی تا این حد، چه از نظرتصویر و چه ازنظر صدا به شخصیت واقعی نزدیک باشد هم خیلی جالب است و هم خیلی ترسناک. پیشرفت فناوری دیپفیک حالا به جاهای نگرانکنندهای رسیده است. نه فقط عکسهای تقلبی، که حالا میشود با این فناوری ویدیوهای فیک هم ساخت. همین دو سال پیش کاربر ناشناسی در ردیت با نام مستعارdeepfake، چهره گَل گَدو، بازیگر نقش واندر وومن را روی یک ویدیوی مستهجن گذاشت. کاربری دیگر در ردیت، APPای به نام فیکاپ ساخت که با آن میشد به سادگی ویدیوهای فیک ساخت و به اشتراک گذاشت. امروز دیگر جایگزین کردن چهره یک نفر در ویدیو با یکی دیگر نه تنها کار سختی نیست، که نتیجه آن هم تا حد خیلی خوبی غیر قابل تشخیص است. شاید با تعریف تورینگ از هوشمندی ماشین، دیگر باید با ظهور شبکههای مولد تخاصمی، deepfake و یادگیری عمیق باید اذعان کرد که ماشینها واقع هوشمند هستند هر چند نتوانند بفهمند که نمیفهمند.
[۱] https://www.youtube.com/watch?v=cQ54GDm1eL0
[۲] Generative Adversarial Networks