ویژگی‌های هوش مصنوعی مورد علاقه من از گوگل در رویداد معرفی پیکسل ۱۰

آگوست 22, 2025

0 4 خواندن این مطلب 11 دقیقه زمان میبرد

ویژگی‌های هوش مصنوعی مورد علاقه من از گوگل در رویداد معرفی پیکسل ۱۰

به گزارش اپست به نقل از انگجت ، رویداد «ساخت گوگل» (Made By Google) فقط به نمایش آخرین سخت‌افزارهای پیکسل محدود نمی‌شد، بلکه سکوی پرتابی برای بسیاری از ویژگی‌های جدید هوش مصنوعی بود. معمولاً نسبت به نسل فعلی هوش مصنوعی بدبین هستم، اما در طول جلسات دموی نرم‌افزارهای جدید، بیشتر و بیشتر مجذوب شدم. به نظر می‌رسد گوگل، همراه با اپل و سامسونگ، در تلاشند تا این به‌روزرسانی‌های مبتنی بر هوش مصنوعی را به شکلی کاربردی‌تر ارائه دهند که واقعاً بتواند زندگی ما را آسان‌تر یا صرفاً لذت‌بخش‌تر کند.

فرصت کافی برای نوشتن درباره تک‌تک آن‌ها وجود نداشت، بنابراین چند مورد از قابلیت‌های مورد علاقه خود را در این مطلب آورده‌ام تا درک بهتری از آنچه با عرضه سری پیکسل ۱۰ در اواخر این ماه انتظار می‌رود، داشته باشید. هشدار: بسیاری از این قابلیت‌ها به صدا و تماس‌ها مربوط می‌شوند؛ حوزه‌ای که گوگل به‌طور تاریخی در آن عالی عمل کرده است.

اپلیکیشن Recorder می‌تواند موسیقی پس‌زمینه تولید کند

مدت‌هاست که شیفته اپلیکیشن Recorder گوگل هستم. این علاقه با قابلیت رونویسی درون‌دستگاهی شروع شد که نقل قول گرفتن از مصاحبه‌ها را برایم آسان و نسبتاً امن می‌کرد. اما وقتی اپل قابلیت ضبط چندآهنگه را به اپلیکیشن Voice Memos خود اضافه کرد، فوراً به آن مهاجرت کردم. اگرچه رونویسی در ضبط‌کننده iOS از نظر دقت و خوانایی ضعیف‌تر است، اما این واقعیت که می‌توانستم عملاً با خودم یک دوئت ضبط کنم، برای علاقه‌مند به تئاتر موزیکال درون من بسیار جذاب بود. با استفاده از آن، نقش‌های الفابا و گلیندا را در آهنگ «For Good» خواندم و صدایشان را به آیفونم سپردم.

اما وقتی شناز زک، مدیر ارشد مدیریت محصول در بخش نرم‌افزار پیکسل گوگل، به من گفت که اپلیکیشن ضبط صدای پیکسل ۱۰ می‌تواند به آواز خواندن شما موسیقی تولیدشده توسط هوش مصنوعی اضافه کند، از شدت ناباوری ساکت شدم. من بخش زیادی از جوانی‌ام را صرف استخراج قطعات کارائوکه از ویدیوهای یوتیوب کردم و در پلتفرم‌های مختلف دانلود، به دنبال عبارت‌های «بدون خواننده»، «موسیقی پس‌زمینه» یا «فقط بی‌کلام» می‌گشتم. من و دوستانم خوانندگان مشتاقی بودیم که می‌خواستیم کاورهای خودمان از آهنگ‌های معروف را میکس کنیم و ابزاری که بتواند برای صدای ما موسیقی پس‌زمینه تولید کند، برایمان مثل یک رؤیا بود. راستش هنوز هم تا حدودی همین‌طور است.

زک دو بار این فرآیند را به من نشان داد. در اولین تلاشم، یک بند و بخشی از ترجیع‌بند آهنگ «Golden» از موسیقی متن سریال Kpop Demon Hunters را خواندم. در پایان با خجالت خندیدم و سپس زک دکمه توقف را زد. در حین ضبط، اپلیکیشن برچسبی را نشان می‌داد که می‌فهمید من در حال آواز خواندن هستم، و وقتی بعد از ضبط، آن را انتخاب کردیم، یک دکمه با عنوان «ساخت و افزودن موسیقی» ظاهر شد.

با زدن روی آن، یک پنل با عنوان «برای ساخت موسیقی، یک حس و حال انتخاب کنید» باز شد که دو بخش داشت: «حس و حال‌های ویژه» و «حس و حال‌های شما». در بخش اول، گزینه‌ها شامل «ریتم‌های آرام»، «دنج»، «مهمانی رقص»، «غم روزهای بارانی»، «رمانتیک» و «غافلگیرم کن» بودند. در دومین تلاشم، وقتی یک اجرای سریع از آهنگ بسیار معروف «Mary Had a Little Lamb» را خواندم، اپلیکیشن در پایین صفحه یک اخطار نمایش داد که می‌گفت: «اگر ضبط کوتاه باشد، ممکن است ریتم به خوبی هماهنگ نشود.»

من «مهمانی رقص» را انتخاب کردم، دکمه «بعدی» را زدم و حدود یک دقیقه صبر کردم تا اپلیکیشن Recorder کارش را انجام دهد. انیمیشن بالای صفحه نشان می‌داد که سیستم در حال تحلیل صدا، شناسایی ریتم، هماهنگ کردن ضرب‌آهنگ و ایجاد هارمونی برای آهنگ است، قبل از اینکه نتیجه نهایی را ارائه دهد.

نمی‌دانم دقیقاً چه انتظاری داشتم، اما می‌توانم بگویم کسانی که در مورد مدیریت حقوق دیجیتال نگرانی داشتند، دیگر دلیلی برای نگرانی ندارند. موسیقی‌ای که گوگل برای «Golden» ساخت، اصلاً شبیه به آهنگ اصلی نبود و اگرچه صدای من را کمتر تنها نشان داد و باعث شد قطعه کامل‌تری داشته باشم، اما احساس کردم برای رضایت کامل به چند تنظیم دیگر نیاز دارم. در مورد آهنگ «Mary Had a Little Lamb»، نتیجه همان‌طور که از یک موسیقی تولیدشده توسط هوش مصنوعی برای یک شعر کودکانه بسیار ساده انتظار می‌رفت، کاملاً معمولی بود.

البته باید به گوگل اعتبار داد، چون آنچه تولید شد به نظر می‌رسید که در گام و ریتم درستی قرار داشت. قطعاً به زمان بیشتری برای کار با آن نیاز دارم تا ببینم آیا تغییر تنظیمات به من کمک خواهد کرد یا نه. همچنین می‌خواستم اشاره کنم که موسیقی تولیدشده به محض توقف خواندن من قطع شد، بنابراین خنده‌ای که قبلاً به آن اشاره کردم، موسیقی نداشت.

اگرچه این ویژگی به فانتزی (که البته غیرواقعی بود) من نرسید، اما به نظرم استفاده سرگرم‌کننده‌ای از هوش مصنوعی است و بی‌خطر به نظر می‌رسد. قرار نیست این ویژگی بخش اصلی از کارهای روزمره اکثر مردم باشد، اگرچه زک گفت که درصد زیادی از مردم واقعاً از اپلیکیشن ضبط صدا برای خوانندگی استفاده می‌کردند. این به‌روزرسانی قطعاً می‌تواند جرعه‌ای کوچک از خلاقیت موسیقایی را به ارمغان بیاورد.

“Voice Translate به شکلی درآمد که انگار داشتم آلمانی صحبت می‌کردم.

بیشترین نگرانی من درباره قابلیت «Voice Translate» بود که قرار بود صدای شما یا صدای مخاطبتان را شبیه به این کند که دارید به یک زبان دیگر صحبت می‌کنید. به گفته گوگل، هدف این ویژگی «از بین بردن موانع زبانی در طول مکالمات تلفنی» است. وقتی از زک پرسیدم که چرا شرکت احساس کرده لازم است صدا را شبیه به صدای تماس‌گیرنده کند، او پاسخ داد که این کار به خاطر ایجاد ارتباط شخصی است.”

زک توضیح داد که والدینش در هند زندگی می‌کنند و با اینکه انگلیسی صحبت می‌کنند، اما خیلی مسلط نیستند. همین موضوع باعث ایجاد مشکلاتی هنگام صحبت آن‌ها با نوه‌هایشان می‌شود. به همین سادگی اضافه کردن یک صدای رباتیک که مکالمات بین پدربزرگ و مادربزرگ و نوه‌ها را ترجمه کند، حس خوبی به وجود نمی‌آورد. من در ابتدا با این موضوع که جایگزین کردن کامل صدای اصلی تماس‌گیرنده با یک نسخه ترجمه‌شده بتواند کمکی کند، شک داشتم، اما پس از چند نسخه نمایشی، قطعاً متقاعد شدم.

برای روشن شدن موضوع، فردی که تماس می‌گیرد باید از طریق یک تلفن پیکسل این کار را انجام دهد تا ترجمه صوتی (Voice Translate) کار کند. وقتی ترجمه صوتی را از زیرمنوی Call Assist انتخاب می‌کنید، باید یک زبان را انتخاب کنید. با وصل شدن تماس، سیستم به هر دو طرف می‌گوید که «تماس توسط هوش مصنوعی گوگل و با صدای هر یک از گویندگان ترجمه می‌شود. صدا ذخیره نخواهد شد.»

من این قابلیت را چند بار با یک نماینده گوگل که آلمانی صحبت می‌کرد و برای اینکه توصیف این دمو برایم آسان‌تر باشد، او را «عمو تیم» خطاب می‌کنم، امتحان کردم. هر بار که او صحبت می‌کرد، می‌توانستم چند ثانیه صدای او را به زبان آلمانی بشنوم، قبل از اینکه صدای زنگ کوچکی پخش شود و نسخه به زبان اصلی آرام‌تر شود. صدایی شبیه به یک بازیگر دوبله که در نقش عمو تیم صحبت می‌کرد، به زبان انگلیسی وارد مکالمه شد و جزئیات واقعی از زیر و بمی صدا، ریتم و حالت‌های بیان را تکرار می‌کرد.

من همچنین می‌توانستم بازخورد صدای خودم را در طول مکالمه بشنوم، بنابراین صدای خودم را می‌شنیدم که از آن طرف به آلمانی صحبت می‌کردم. واقعاً عجیب بود، چون تا حدی شبیه صدای خودم بود. یکی از نزدیک‌ترین دوستانم در آلمان زندگی می‌کند و بیش از ۱۰ سال است که تلاش‌های من برای یادگیری آلمانی را تحمل کرده است. من فوراً خواستم Voice Translate را روی او امتحان کنم تا ببینم آیا باور می‌کند که من ناگهان به آلمانی مسلط شده‌ام (البته باید فکری به حال نادیده گرفتن هشدارهای مربوط به فعال بودن هوش مصنوعی گوگل می‌کردم).

راستش را بخواهید، این تجربه بی‌نقص نبود. نه تنها ترجمه‌ها گاهی اشتباه بودند (بعضی از حرف‌های عمو تیم به انگلیسی بی‌معنی بود)، بلکه به نظر می‌رسید صدای تولید شده بیشتر شبیه یک دوبلور تازه‌کار است تا یک بازسازی کامل از صدای تماس‌گیرنده. البته این چیز بدی نیست، چون من خیلی نگران بودم که مبادا جعل هویت یک مشکل ایجاد کند.

در همین راستا، زک گفت گوگل در این پیاده‌سازی عمدی عمل کرده است. او «صدای پس‌زمینه» (ducking) را به من یادآوری کرد؛ حالتی که صدای اصلی در چند ثانیه اول هنوز شنیده می‌شود و سپس در طول مکالمه نرم‌تر می‌گردد. انگار صدای اصلی زیر صدای دوبله شده «پنهان می‌شود» (ducking). متوجه شدید؟ و یادم آمد که اگرچه صدای هوش مصنوعی ممکن است تا حدودی شبیه من باشد، اما طوری طراحی نشده که به سادگی چیزهایی را که می‌گویم از خود بسازد؛ بلکه فقط محتوا را ترجمه می‌کند. این من هستم که تصمیم می‌گیرم مثلاً از کوره در بروم و به یک فامیل ناسزا بگویم و این ناسزا به زبان مادری او منتقل شود.

البته ممکن است هنوز باگ‌ها و مشکلات جزئی برای حل شدن وجود داشته باشد. از لهجه‌های مختلفی که در نسخه انگلیسی‌زبان عمو تیم به گوش می‌رسید، خوشم آمد. در ابتدا او با لهجه آمریکایی صحبت می‌کرد، اما در مکالمات بعدی لهجه استرالیایی به خود گرفت.

تمام این‌ها با تراشه Tensor G5 پیکسل ۱۰ و با پردازش روی دستگاه با استفاده از «یک کدک جدید و درک معنایی» کار می‌کند تا به گفته زک، بیان‌های صوتی گوینده را درک کند. در حال حاضر، می‌بینم که گوگل به دنبال چه چیزی است و بی‌صبرانه منتظرم تا با دوستم در فرانکفورت تماس بگیرم.

در زمان راه‌اندازی، قابلیت ترجمه صوتی (Voice Translate) از ترجمه به یا از زبان انگلیسی با زبان‌های اسپانیایی، آلمانی، ژاپنی، فرانسوی، هندی، ایتالیایی، پرتغالی، سوئدی، روسی و اندونزیایی پشتیبانی خواهد کرد.

قابلیت Magic Cue در زمان تماس با شرکت هواپیمایی، اطلاعات پرواز شما را نشان می‌دهد که بسیار مفید است.

اپلیکیشن‌های ضبط، ترجمه و هوش مصنوعی با صدای گویا، حوزه‌هایی هستند که گوگل مدت‌هاست در آن‌ها تخصص خود را ثابت کرده است. علاوه بر این، این شرکت در پیشنهاد اقدامات از طریق ایمیل‌های شما و اضافه کردن رویدادها به تقویم با اسکن صندوق ورودی، پیشگام بوده است. با قابلیت Magic Cue در پیکسل ۱۰، گوگل اساساً این عملکرد را به تماس‌ها و پیام‌های متنی شما می‌آورد.

در حالی که Magic Cue می‌تواند به‌طور مفیدی میانبرهایی را در اپلیکیشن پیام‌ها نمایش دهد تا به شما در پاسخ به سؤالات مربوط به رزروها یا ارسال عکس از سفرهای اخیر کمک کند، من بیشتر به یک جنبه خاص علاقه‌مندم. به‌عنوان مثال، وقتی برای تغییر یک پرواز با یک شرکت هواپیمایی تماس می‌گیرید، پیکسل ۱۰ می‌تواند اطلاعات رزرو شما را بیرون بکشد و در حین تماس نمایش دهد، بنابراین دیگر نیازی نیست ایمیل خود را باز کنید و به دنبال تأییدیه رزرو بگردید تا شماره مرجع خود را آماده داشته باشید. البته ممکن است فقط چند ثانیه در وقت شما صرفه‌جویی کند، اما کار را بسیار آسان‌تر می‌کند و گوگل قبلاً نسخه‌ای از این کار را در صندوق ورودی ایمیل شما انجام می‌دهد.

من بسیار دوست دارم ببینم که این قابلیت خاص گسترش پیدا کند و انواع دیگر قرار ملاقات‌ها را نیز پوشش دهد تا بتوانید در حین تماس با افرادی مانند لوله‌کش، پزشک، ارائه‌دهنده بیمه و غیره، به سرعت کدها یا سایر اطلاعات شناسایی را دریافت کنید.

ویژگی‌های دوربین و عکس همچنان در حال پیشرفت هستند.

گوگل به بهبود زمینه‌هایی که در آن‌ها پیشگام بوده است ادامه می‌دهد و عکاسی همچنان یکی از نقاط قوت گوشی‌های پیکسل است. این شرکت یکی از اولین بازیگران اصلی بود که از قدرت الگوریتمی خود برای بهبود چشمگیر کیفیت عکس‌ها در نور کم استفاده کرد و با پیکسل ۱۰ پرو، بار دیگر از پردازش محاسباتی برای ارائه تصاویر برتر بهره می‌برد.

در نمایشی که در دفتر گوگل در منهتن داشتم، قابلیت Pro Res Zoom در این گوشی جدید توانست تصاویری شگفت‌انگیز و واضح از ساختمان‌های دوردست ثبت کند. من از وضوح خطوط زیر یک آسمان‌خراش که با بزرگ‌نمایی ۱۰۰ برابری زوم کرده بودیم، شگفت‌زده شدم. گوگل همچنین با دقت توضیح داد که قابلیت Pro Res Zoom روی افراد کار نخواهد کرد و ممکن است متن‌های دوردست عجیب به نظر برسند.

به گفته گوگل: «ما Pro Res Zoom را برای به حداقل رساندن خطاهای بصری (hallucinations) تنظیم کرده‌ایم، با این حال ممکن است همچنان رخ دهند، به ویژه با متن‌های دوردست. علاوه بر این، وقتی Pro Res Zoom یک فرد را در صحنه تشخیص می‌دهد، از الگوریتم تقویت‌کننده متفاوتی استفاده می‌کنیم تا از نمایش‌های نادرست جلوگیری شود.»

در چنین شرایطی، الگوریتم به کیفیت Super Res Zoom کاهش می‌یابد. بسته به اینکه از کدام گوشی پیکسل استفاده می‌کنید، Super Res Zoom تا ۲۰ یا ۳۰ برابر بزرگ‌نمایی ارائه می‌دهد.

در نتایجی که من دیدم، افرادی که روی عرشه بالای یک برج ایستاده بودند، در مقایسه با نمای ساختمان کمی پیکسلی به نظر می‌رسیدند و این اثر تا زمانی که خیلی زوم نکردم، زننده یا حتی واقعاً قابل توجه نبود. اما این ممکن است به این دلیل باشد که آن‌ها بخش کوچکی از تصویر بودند؛ تصور می‌کنم اگر یک فرد سوژه اصلی صحنه بود، اوضاع متفاوت به نظر می‌رسید.

به عنوان کسی که از کادربندی عکس لذت می‌برد، فکر نمی‌کردم ویژگی Camera Coach برایم کاربردی داشته باشد. اما با کمال تعجب، برخی از گزینه‌های کادربندی پیشنهادی هوش مصنوعی را واقعاً دوست داشتم. با این حال، هنوز فکر نمی‌کنم در دنیای واقعی زیاد از آن استفاده کنم، اما ممکن است به افراد دیگری که به دنبال نکات عکاسی هستند کمک کند.

در ابتدا، نسبت به قابلیت جدید فوتوز که به شما اجازه می‌دهد از طریق هوش مصنوعی عکس‌هایتان را ویرایش کنید، کمی سردرگم (nonplussed) بودم. اما بعد از یک دمو کوتاه، نظرم عوض شد. اینکه به سادگی به جیمینای بگویید “اون لباس قرمزه رو آبی کن” یا “افراد توی پس‌زمینه رو حذف کن” نه تنها راحت‌تر بود، بلکه به شکل شگفت‌انگیزی هم موثر عمل می‌کرد. همچنین می‌خوام به این نکته اشاره کنم که گوگل تغییراتی هم در قابلیت Guided Frame در برنامه دوربین خودش اعمال کرده است. این قابلیت به افراد نابینا یا کم‌بینا کمک می‌کند تا متوجه شوند در صحنه چه چیزی وجود دارد. حالا این ویژگی از مدل‌های جیمینای استفاده می‌کند که به تشخیص بهتر اشیاء کمک خواهد کرد.

در نهایت، اشاره به پشتیبانی از ابتکار عمل C2PA (مخفف Content Authenticity Initiative به معنی طرح اصالت محتوا) ارزشش رو داره. گوگل این قابلیت رو در برنامه فوتوز خود پیاده‌سازی می‌کنه، جایی که متادیتای عکس نشان می‌دهد آیا هوش مصنوعی در ساخت یا ویرایش آن استفاده شده است یا خیر. گوشی‌های پیکسل ۱۰ اولین دستگاه‌هایی خواهند بود که استاندارد جدید “اعتبار محتوا” (Content Credentials – CR) را در برنامه دوربین خود به صورت بومی پیاده‌سازی می‌کنند. شرکت‌هایی مثل ادوبی، آمازون، گوگل، متا، مایکروسافت و اوپن‌ای‌آی همگی در این طرح مشارکت دارند.

مجموعه‌ای از به‌روزرسانی‌های دیگر که ارزش ذکر دارند

این موارد تنها بخشی از قابلیت‌های جدید مرتبط با هوش مصنوعی بودند که در دموهای اخیر قبل از رویداد گوگل در این هفته، من را تحت تاثیر قرار دادند. اما چندین قابلیت دیگر هم وجود داشتند که به نظرم آینده‌دار هستند، مانند “پوشش‌های بصری” (visual overlays) در جیمینای لایو (Gemini Live) و برنامه جدید پیکسل ژورنال (Pixel Journal). من وقت زیادی با این دو قابلیت نگذراندم، اما در دموهای کوتاهی که دیدم به خوبی کار می‌کردند. همینطور قابلیت “پیام بگیر” (take a message) که رونوشت پیام‌های صوتی را برای شما ارسال می‌کند، راهی بسیار بهتر برای اطلاع از تماس‌های از دست رفته به نظر می‌رسد تا اینکه بخواهید به بخش پنهان شده‌ای در برنامه تلفن سر بزنید.

در مورد دیلی هاب (Daily Hub) هنوز قانع نشده‌ام. این قابلیت اساساً نسخه به‌روزرسانی شده صفحات موجود در سمت چپ صفحه اصلی است که اقدامات و مقالات مرتبط را برای گشت و گذار به شما نشان می‌دهد. من معمولاً در مورد آنچه می‌خواهم ببینم کاملاً هدفمند عمل می‌کنم و برنامه‌های خاصی را برای وقت‌گذرانی (Reddit برتر از همه) ترجیح می‌دهم، بنابراین مطمئن نیستم Daily Hub به کار من بیاید.

با این حال، اینکه من بخش عمده‌ای از قابلیت‌های جدید هوش مصنوعی سری پیکسل ۱۰ را پسندیدم، یک نکته قابل توجه است. البته، هنوز قضاوت نهایی را به زمانی موکول می‌کنم که بتوانم بیشتر با آن‌ها در دنیای واقعی کار کنم و امیدوارم بتوانم بررسی‌هایی درباره برخی از آن‌ها بنویسم. اما از زمانی که با دموهای پیکسل ۱۰ گذراندم، مشخص است که گوگل در مورد نحوه گنجاندن هوش مصنوعی در سخت‌افزار خود بسیار با فکر عمل کرده است و امیدوارم رقبایش از آن درس بگیرند.