ویژگیهای هوش مصنوعی مورد علاقه من از گوگل در رویداد معرفی پیکسل ۱۰

ویژگیهای هوش مصنوعی مورد علاقه من از گوگل در رویداد معرفی پیکسل ۱۰
به گزارش اپست به نقل از انگجت ، رویداد «ساخت گوگل» (Made By Google) فقط به نمایش آخرین سختافزارهای پیکسل محدود نمیشد، بلکه سکوی پرتابی برای بسیاری از ویژگیهای جدید هوش مصنوعی بود. معمولاً نسبت به نسل فعلی هوش مصنوعی بدبین هستم، اما در طول جلسات دموی نرمافزارهای جدید، بیشتر و بیشتر مجذوب شدم. به نظر میرسد گوگل، همراه با اپل و سامسونگ، در تلاشند تا این بهروزرسانیهای مبتنی بر هوش مصنوعی را به شکلی کاربردیتر ارائه دهند که واقعاً بتواند زندگی ما را آسانتر یا صرفاً لذتبخشتر کند.
فرصت کافی برای نوشتن درباره تکتک آنها وجود نداشت، بنابراین چند مورد از قابلیتهای مورد علاقه خود را در این مطلب آوردهام تا درک بهتری از آنچه با عرضه سری پیکسل ۱۰ در اواخر این ماه انتظار میرود، داشته باشید. هشدار: بسیاری از این قابلیتها به صدا و تماسها مربوط میشوند؛ حوزهای که گوگل بهطور تاریخی در آن عالی عمل کرده است.
اپلیکیشن Recorder میتواند موسیقی پسزمینه تولید کند
مدتهاست که شیفته اپلیکیشن Recorder گوگل هستم. این علاقه با قابلیت رونویسی دروندستگاهی شروع شد که نقل قول گرفتن از مصاحبهها را برایم آسان و نسبتاً امن میکرد. اما وقتی اپل قابلیت ضبط چندآهنگه را به اپلیکیشن Voice Memos خود اضافه کرد، فوراً به آن مهاجرت کردم. اگرچه رونویسی در ضبطکننده iOS از نظر دقت و خوانایی ضعیفتر است، اما این واقعیت که میتوانستم عملاً با خودم یک دوئت ضبط کنم، برای علاقهمند به تئاتر موزیکال درون من بسیار جذاب بود. با استفاده از آن، نقشهای الفابا و گلیندا را در آهنگ «For Good» خواندم و صدایشان را به آیفونم سپردم.
اما وقتی شناز زک، مدیر ارشد مدیریت محصول در بخش نرمافزار پیکسل گوگل، به من گفت که اپلیکیشن ضبط صدای پیکسل ۱۰ میتواند به آواز خواندن شما موسیقی تولیدشده توسط هوش مصنوعی اضافه کند، از شدت ناباوری ساکت شدم. من بخش زیادی از جوانیام را صرف استخراج قطعات کارائوکه از ویدیوهای یوتیوب کردم و در پلتفرمهای مختلف دانلود، به دنبال عبارتهای «بدون خواننده»، «موسیقی پسزمینه» یا «فقط بیکلام» میگشتم. من و دوستانم خوانندگان مشتاقی بودیم که میخواستیم کاورهای خودمان از آهنگهای معروف را میکس کنیم و ابزاری که بتواند برای صدای ما موسیقی پسزمینه تولید کند، برایمان مثل یک رؤیا بود. راستش هنوز هم تا حدودی همینطور است.
زک دو بار این فرآیند را به من نشان داد. در اولین تلاشم، یک بند و بخشی از ترجیعبند آهنگ «Golden» از موسیقی متن سریال Kpop Demon Hunters را خواندم. در پایان با خجالت خندیدم و سپس زک دکمه توقف را زد. در حین ضبط، اپلیکیشن برچسبی را نشان میداد که میفهمید من در حال آواز خواندن هستم، و وقتی بعد از ضبط، آن را انتخاب کردیم، یک دکمه با عنوان «ساخت و افزودن موسیقی» ظاهر شد.
با زدن روی آن، یک پنل با عنوان «برای ساخت موسیقی، یک حس و حال انتخاب کنید» باز شد که دو بخش داشت: «حس و حالهای ویژه» و «حس و حالهای شما». در بخش اول، گزینهها شامل «ریتمهای آرام»، «دنج»، «مهمانی رقص»، «غم روزهای بارانی»، «رمانتیک» و «غافلگیرم کن» بودند. در دومین تلاشم، وقتی یک اجرای سریع از آهنگ بسیار معروف «Mary Had a Little Lamb» را خواندم، اپلیکیشن در پایین صفحه یک اخطار نمایش داد که میگفت: «اگر ضبط کوتاه باشد، ممکن است ریتم به خوبی هماهنگ نشود.»
من «مهمانی رقص» را انتخاب کردم، دکمه «بعدی» را زدم و حدود یک دقیقه صبر کردم تا اپلیکیشن Recorder کارش را انجام دهد. انیمیشن بالای صفحه نشان میداد که سیستم در حال تحلیل صدا، شناسایی ریتم، هماهنگ کردن ضربآهنگ و ایجاد هارمونی برای آهنگ است، قبل از اینکه نتیجه نهایی را ارائه دهد.
نمیدانم دقیقاً چه انتظاری داشتم، اما میتوانم بگویم کسانی که در مورد مدیریت حقوق دیجیتال نگرانی داشتند، دیگر دلیلی برای نگرانی ندارند. موسیقیای که گوگل برای «Golden» ساخت، اصلاً شبیه به آهنگ اصلی نبود و اگرچه صدای من را کمتر تنها نشان داد و باعث شد قطعه کاملتری داشته باشم، اما احساس کردم برای رضایت کامل به چند تنظیم دیگر نیاز دارم. در مورد آهنگ «Mary Had a Little Lamb»، نتیجه همانطور که از یک موسیقی تولیدشده توسط هوش مصنوعی برای یک شعر کودکانه بسیار ساده انتظار میرفت، کاملاً معمولی بود.
البته باید به گوگل اعتبار داد، چون آنچه تولید شد به نظر میرسید که در گام و ریتم درستی قرار داشت. قطعاً به زمان بیشتری برای کار با آن نیاز دارم تا ببینم آیا تغییر تنظیمات به من کمک خواهد کرد یا نه. همچنین میخواستم اشاره کنم که موسیقی تولیدشده به محض توقف خواندن من قطع شد، بنابراین خندهای که قبلاً به آن اشاره کردم، موسیقی نداشت.
اگرچه این ویژگی به فانتزی (که البته غیرواقعی بود) من نرسید، اما به نظرم استفاده سرگرمکنندهای از هوش مصنوعی است و بیخطر به نظر میرسد. قرار نیست این ویژگی بخش اصلی از کارهای روزمره اکثر مردم باشد، اگرچه زک گفت که درصد زیادی از مردم واقعاً از اپلیکیشن ضبط صدا برای خوانندگی استفاده میکردند. این بهروزرسانی قطعاً میتواند جرعهای کوچک از خلاقیت موسیقایی را به ارمغان بیاورد.
“Voice Translate به شکلی درآمد که انگار داشتم آلمانی صحبت میکردم.
بیشترین نگرانی من درباره قابلیت «Voice Translate» بود که قرار بود صدای شما یا صدای مخاطبتان را شبیه به این کند که دارید به یک زبان دیگر صحبت میکنید. به گفته گوگل، هدف این ویژگی «از بین بردن موانع زبانی در طول مکالمات تلفنی» است. وقتی از زک پرسیدم که چرا شرکت احساس کرده لازم است صدا را شبیه به صدای تماسگیرنده کند، او پاسخ داد که این کار به خاطر ایجاد ارتباط شخصی است.”
زک توضیح داد که والدینش در هند زندگی میکنند و با اینکه انگلیسی صحبت میکنند، اما خیلی مسلط نیستند. همین موضوع باعث ایجاد مشکلاتی هنگام صحبت آنها با نوههایشان میشود. به همین سادگی اضافه کردن یک صدای رباتیک که مکالمات بین پدربزرگ و مادربزرگ و نوهها را ترجمه کند، حس خوبی به وجود نمیآورد. من در ابتدا با این موضوع که جایگزین کردن کامل صدای اصلی تماسگیرنده با یک نسخه ترجمهشده بتواند کمکی کند، شک داشتم، اما پس از چند نسخه نمایشی، قطعاً متقاعد شدم.
برای روشن شدن موضوع، فردی که تماس میگیرد باید از طریق یک تلفن پیکسل این کار را انجام دهد تا ترجمه صوتی (Voice Translate) کار کند. وقتی ترجمه صوتی را از زیرمنوی Call Assist انتخاب میکنید، باید یک زبان را انتخاب کنید. با وصل شدن تماس، سیستم به هر دو طرف میگوید که «تماس توسط هوش مصنوعی گوگل و با صدای هر یک از گویندگان ترجمه میشود. صدا ذخیره نخواهد شد.»
من این قابلیت را چند بار با یک نماینده گوگل که آلمانی صحبت میکرد و برای اینکه توصیف این دمو برایم آسانتر باشد، او را «عمو تیم» خطاب میکنم، امتحان کردم. هر بار که او صحبت میکرد، میتوانستم چند ثانیه صدای او را به زبان آلمانی بشنوم، قبل از اینکه صدای زنگ کوچکی پخش شود و نسخه به زبان اصلی آرامتر شود. صدایی شبیه به یک بازیگر دوبله که در نقش عمو تیم صحبت میکرد، به زبان انگلیسی وارد مکالمه شد و جزئیات واقعی از زیر و بمی صدا، ریتم و حالتهای بیان را تکرار میکرد.
من همچنین میتوانستم بازخورد صدای خودم را در طول مکالمه بشنوم، بنابراین صدای خودم را میشنیدم که از آن طرف به آلمانی صحبت میکردم. واقعاً عجیب بود، چون تا حدی شبیه صدای خودم بود. یکی از نزدیکترین دوستانم در آلمان زندگی میکند و بیش از ۱۰ سال است که تلاشهای من برای یادگیری آلمانی را تحمل کرده است. من فوراً خواستم Voice Translate را روی او امتحان کنم تا ببینم آیا باور میکند که من ناگهان به آلمانی مسلط شدهام (البته باید فکری به حال نادیده گرفتن هشدارهای مربوط به فعال بودن هوش مصنوعی گوگل میکردم).
راستش را بخواهید، این تجربه بینقص نبود. نه تنها ترجمهها گاهی اشتباه بودند (بعضی از حرفهای عمو تیم به انگلیسی بیمعنی بود)، بلکه به نظر میرسید صدای تولید شده بیشتر شبیه یک دوبلور تازهکار است تا یک بازسازی کامل از صدای تماسگیرنده. البته این چیز بدی نیست، چون من خیلی نگران بودم که مبادا جعل هویت یک مشکل ایجاد کند.
در همین راستا، زک گفت گوگل در این پیادهسازی عمدی عمل کرده است. او «صدای پسزمینه» (ducking) را به من یادآوری کرد؛ حالتی که صدای اصلی در چند ثانیه اول هنوز شنیده میشود و سپس در طول مکالمه نرمتر میگردد. انگار صدای اصلی زیر صدای دوبله شده «پنهان میشود» (ducking). متوجه شدید؟ و یادم آمد که اگرچه صدای هوش مصنوعی ممکن است تا حدودی شبیه من باشد، اما طوری طراحی نشده که به سادگی چیزهایی را که میگویم از خود بسازد؛ بلکه فقط محتوا را ترجمه میکند. این من هستم که تصمیم میگیرم مثلاً از کوره در بروم و به یک فامیل ناسزا بگویم و این ناسزا به زبان مادری او منتقل شود.
البته ممکن است هنوز باگها و مشکلات جزئی برای حل شدن وجود داشته باشد. از لهجههای مختلفی که در نسخه انگلیسیزبان عمو تیم به گوش میرسید، خوشم آمد. در ابتدا او با لهجه آمریکایی صحبت میکرد، اما در مکالمات بعدی لهجه استرالیایی به خود گرفت.
تمام اینها با تراشه Tensor G5 پیکسل ۱۰ و با پردازش روی دستگاه با استفاده از «یک کدک جدید و درک معنایی» کار میکند تا به گفته زک، بیانهای صوتی گوینده را درک کند. در حال حاضر، میبینم که گوگل به دنبال چه چیزی است و بیصبرانه منتظرم تا با دوستم در فرانکفورت تماس بگیرم.
در زمان راهاندازی، قابلیت ترجمه صوتی (Voice Translate) از ترجمه به یا از زبان انگلیسی با زبانهای اسپانیایی، آلمانی، ژاپنی، فرانسوی، هندی، ایتالیایی، پرتغالی، سوئدی، روسی و اندونزیایی پشتیبانی خواهد کرد.

قابلیت Magic Cue در زمان تماس با شرکت هواپیمایی، اطلاعات پرواز شما را نشان میدهد که بسیار مفید است.
اپلیکیشنهای ضبط، ترجمه و هوش مصنوعی با صدای گویا، حوزههایی هستند که گوگل مدتهاست در آنها تخصص خود را ثابت کرده است. علاوه بر این، این شرکت در پیشنهاد اقدامات از طریق ایمیلهای شما و اضافه کردن رویدادها به تقویم با اسکن صندوق ورودی، پیشگام بوده است. با قابلیت Magic Cue در پیکسل ۱۰، گوگل اساساً این عملکرد را به تماسها و پیامهای متنی شما میآورد.
در حالی که Magic Cue میتواند بهطور مفیدی میانبرهایی را در اپلیکیشن پیامها نمایش دهد تا به شما در پاسخ به سؤالات مربوط به رزروها یا ارسال عکس از سفرهای اخیر کمک کند، من بیشتر به یک جنبه خاص علاقهمندم. بهعنوان مثال، وقتی برای تغییر یک پرواز با یک شرکت هواپیمایی تماس میگیرید، پیکسل ۱۰ میتواند اطلاعات رزرو شما را بیرون بکشد و در حین تماس نمایش دهد، بنابراین دیگر نیازی نیست ایمیل خود را باز کنید و به دنبال تأییدیه رزرو بگردید تا شماره مرجع خود را آماده داشته باشید. البته ممکن است فقط چند ثانیه در وقت شما صرفهجویی کند، اما کار را بسیار آسانتر میکند و گوگل قبلاً نسخهای از این کار را در صندوق ورودی ایمیل شما انجام میدهد.
من بسیار دوست دارم ببینم که این قابلیت خاص گسترش پیدا کند و انواع دیگر قرار ملاقاتها را نیز پوشش دهد تا بتوانید در حین تماس با افرادی مانند لولهکش، پزشک، ارائهدهنده بیمه و غیره، به سرعت کدها یا سایر اطلاعات شناسایی را دریافت کنید.
ویژگیهای دوربین و عکس همچنان در حال پیشرفت هستند.
گوگل به بهبود زمینههایی که در آنها پیشگام بوده است ادامه میدهد و عکاسی همچنان یکی از نقاط قوت گوشیهای پیکسل است. این شرکت یکی از اولین بازیگران اصلی بود که از قدرت الگوریتمی خود برای بهبود چشمگیر کیفیت عکسها در نور کم استفاده کرد و با پیکسل ۱۰ پرو، بار دیگر از پردازش محاسباتی برای ارائه تصاویر برتر بهره میبرد.
در نمایشی که در دفتر گوگل در منهتن داشتم، قابلیت Pro Res Zoom در این گوشی جدید توانست تصاویری شگفتانگیز و واضح از ساختمانهای دوردست ثبت کند. من از وضوح خطوط زیر یک آسمانخراش که با بزرگنمایی ۱۰۰ برابری زوم کرده بودیم، شگفتزده شدم. گوگل همچنین با دقت توضیح داد که قابلیت Pro Res Zoom روی افراد کار نخواهد کرد و ممکن است متنهای دوردست عجیب به نظر برسند.
به گفته گوگل: «ما Pro Res Zoom را برای به حداقل رساندن خطاهای بصری (hallucinations) تنظیم کردهایم، با این حال ممکن است همچنان رخ دهند، به ویژه با متنهای دوردست. علاوه بر این، وقتی Pro Res Zoom یک فرد را در صحنه تشخیص میدهد، از الگوریتم تقویتکننده متفاوتی استفاده میکنیم تا از نمایشهای نادرست جلوگیری شود.»
در چنین شرایطی، الگوریتم به کیفیت Super Res Zoom کاهش مییابد. بسته به اینکه از کدام گوشی پیکسل استفاده میکنید، Super Res Zoom تا ۲۰ یا ۳۰ برابر بزرگنمایی ارائه میدهد.
در نتایجی که من دیدم، افرادی که روی عرشه بالای یک برج ایستاده بودند، در مقایسه با نمای ساختمان کمی پیکسلی به نظر میرسیدند و این اثر تا زمانی که خیلی زوم نکردم، زننده یا حتی واقعاً قابل توجه نبود. اما این ممکن است به این دلیل باشد که آنها بخش کوچکی از تصویر بودند؛ تصور میکنم اگر یک فرد سوژه اصلی صحنه بود، اوضاع متفاوت به نظر میرسید.
به عنوان کسی که از کادربندی عکس لذت میبرد، فکر نمیکردم ویژگی Camera Coach برایم کاربردی داشته باشد. اما با کمال تعجب، برخی از گزینههای کادربندی پیشنهادی هوش مصنوعی را واقعاً دوست داشتم. با این حال، هنوز فکر نمیکنم در دنیای واقعی زیاد از آن استفاده کنم، اما ممکن است به افراد دیگری که به دنبال نکات عکاسی هستند کمک کند.
در ابتدا، نسبت به قابلیت جدید فوتوز که به شما اجازه میدهد از طریق هوش مصنوعی عکسهایتان را ویرایش کنید، کمی سردرگم (nonplussed) بودم. اما بعد از یک دمو کوتاه، نظرم عوض شد. اینکه به سادگی به جیمینای بگویید “اون لباس قرمزه رو آبی کن” یا “افراد توی پسزمینه رو حذف کن” نه تنها راحتتر بود، بلکه به شکل شگفتانگیزی هم موثر عمل میکرد. همچنین میخوام به این نکته اشاره کنم که گوگل تغییراتی هم در قابلیت Guided Frame در برنامه دوربین خودش اعمال کرده است. این قابلیت به افراد نابینا یا کمبینا کمک میکند تا متوجه شوند در صحنه چه چیزی وجود دارد. حالا این ویژگی از مدلهای جیمینای استفاده میکند که به تشخیص بهتر اشیاء کمک خواهد کرد.
در نهایت، اشاره به پشتیبانی از ابتکار عمل C2PA (مخفف Content Authenticity Initiative به معنی طرح اصالت محتوا) ارزشش رو داره. گوگل این قابلیت رو در برنامه فوتوز خود پیادهسازی میکنه، جایی که متادیتای عکس نشان میدهد آیا هوش مصنوعی در ساخت یا ویرایش آن استفاده شده است یا خیر. گوشیهای پیکسل ۱۰ اولین دستگاههایی خواهند بود که استاندارد جدید “اعتبار محتوا” (Content Credentials – CR) را در برنامه دوربین خود به صورت بومی پیادهسازی میکنند. شرکتهایی مثل ادوبی، آمازون، گوگل، متا، مایکروسافت و اوپنایآی همگی در این طرح مشارکت دارند.
مجموعهای از بهروزرسانیهای دیگر که ارزش ذکر دارند
این موارد تنها بخشی از قابلیتهای جدید مرتبط با هوش مصنوعی بودند که در دموهای اخیر قبل از رویداد گوگل در این هفته، من را تحت تاثیر قرار دادند. اما چندین قابلیت دیگر هم وجود داشتند که به نظرم آیندهدار هستند، مانند “پوششهای بصری” (visual overlays) در جیمینای لایو (Gemini Live) و برنامه جدید پیکسل ژورنال (Pixel Journal). من وقت زیادی با این دو قابلیت نگذراندم، اما در دموهای کوتاهی که دیدم به خوبی کار میکردند. همینطور قابلیت “پیام بگیر” (take a message) که رونوشت پیامهای صوتی را برای شما ارسال میکند، راهی بسیار بهتر برای اطلاع از تماسهای از دست رفته به نظر میرسد تا اینکه بخواهید به بخش پنهان شدهای در برنامه تلفن سر بزنید.
در مورد دیلی هاب (Daily Hub) هنوز قانع نشدهام. این قابلیت اساساً نسخه بهروزرسانی شده صفحات موجود در سمت چپ صفحه اصلی است که اقدامات و مقالات مرتبط را برای گشت و گذار به شما نشان میدهد. من معمولاً در مورد آنچه میخواهم ببینم کاملاً هدفمند عمل میکنم و برنامههای خاصی را برای وقتگذرانی (Reddit برتر از همه) ترجیح میدهم، بنابراین مطمئن نیستم Daily Hub به کار من بیاید.
با این حال، اینکه من بخش عمدهای از قابلیتهای جدید هوش مصنوعی سری پیکسل ۱۰ را پسندیدم، یک نکته قابل توجه است. البته، هنوز قضاوت نهایی را به زمانی موکول میکنم که بتوانم بیشتر با آنها در دنیای واقعی کار کنم و امیدوارم بتوانم بررسیهایی درباره برخی از آنها بنویسم. اما از زمانی که با دموهای پیکسل ۱۰ گذراندم، مشخص است که گوگل در مورد نحوه گنجاندن هوش مصنوعی در سختافزار خود بسیار با فکر عمل کرده است و امیدوارم رقبایش از آن درس بگیرند.






