جمینای «توانمندترین» مدل هوش مصنوعی گوگل؛ انقلابی در تولید محصولات رسانه‌ای

به گزارش ملت ما، می‌گویند مدل جدید هوش مصنوعی گوگل منعطف‌ترین مدل هوش تولید شده تاکنون است و می‌تواند روی تلفن‌های همراهی مانند 8 Google Pixel Pro و همچنین مراکز داده کامل و گجت‌های دیگر اجرا شود.

Gemini1.0 سه نسخه دارد که هرکدام نیاز‌ی را برآورده می‌کنند:

Ultra بزرگ‌ترین و تواناترین مدل‌ جیمنای است و کار‌های بسیار پیچیده انجام می‌دهد . کارایی اصلی این مدل احتمالاً در مراکز داده است.

Pro نسخه میانی است و طیف گسترده‌ای کار از عهده‌اش برمی‌آید.

Nano نسخه ته‌تغاری است و دستگاه‌هایی مانند گوشی‌های هوشمند را تواناتر می کند.

گوگل می‌گوید: جمینای اولترا پا را از پیشرفته‌ترین یافته‌های تاکنون هوش‌مصنوعی فراتر گذاشته است و در 30 معیار از 32 معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل‌های زبانی بزرگ (LLM) عملکرد خیره کننده‌ای داشته است. این نسخه پرقدرت جمینای از درک طبیعی تصویر، صدا، و ویدیو گرفته تا استدلال ریاضی، عملکرد بهتری دارد و به‌خوبی می‌تواند انقلابی در تولید محصولات رسانه‌ای داشته باشد.

جمینای اولترا اولین مدل هوش مصنوعی است که در حوزه MMLU (درک زبان چندوظیفه‌ای بسیاربزرگ)، بهتر از متخصصان انسانی در زمینه دانش کلی و توانایی حل مسأله کار می‌کند. این مدل از ترکیبی از 57 موضوع مانند «ریاضی، فیزیک، تاریخ، حقوق، پزشکی، و اخلاق» برای آزمایش استفاده می‌کند و جیمینای اولترا با کسب امتیاز 90 از 100 از بهترین متخصصان انسانی پیشی گرفته است. و این برای رسانه‌ها یعنی تولید بهترین محتواها در این حوزه‌ها.

استدلال و فهم، و تحلیل محتوا و رفتار کاربران، از مهم‌ترین نیازهای رسانه‌ها است. گوگل می‌گوید که جمینای از مدل‌های معمولی هوش مصنوعی پیشرفته‌تر است، زیرا دیگر مدل‌ها درست است که در انجام وظایف خاص عملکرد خوبی دارند، اما در استدلال مفهومی و پیچیده‌ خوب ظاهر نمی‌شوند. جمینای چندوجهی است، و بر اساس ورودی‌های مختلف می‌فهمد و استدلال می‌کند و تحلیل ارائه می‌دهد.

توانایی‌های استدلال چندوجهی پیچیده می‌تواند به درک داده ـ اطلاعات نوشتاری و دیداری پیچیده کمک کند. گوگل ادعا می‌کند که این ویژگی جمینای باعث می‌شود که مهارت منحصر به فردی داشته باشد در کشف دانشی که تشخیص آن در میان حجم عظیمی از داده‌ها بسیار دشوار است.

توانایی قابل توجه جمینای در استخراجِ فهم و تحلیل از میان صد‌ها هزار سند از طریق خواندن، فیلتر کردن و درک اطلاعات، منجر به پیشرفت‌های بسیاری در زمینه‌های محتلف دانش تا امور مالی خواهد شد.

جمینای متن، تصویر، صدا و ده‌ها مورد دیگر را درک می‌کند و چندین نوع ورودی را همزمان تجزیه و تحلیل می‌کند تا بتواند متن و اطلاعات ظریفِ بافتار / Context را بهتر درک و استدلال کند، برنامه‌ریزی کند، و پیوسته داده‌های ورودی بیشتری را درک کند.

جمینای به مجموعه‌ای از به‌روزرسانی‌های جدید از جمله توانایی ضبط تایم لپس در شب در پیکسل پرو8، می‌پیوندد. گوگل اسم این ویژگی را Video Boost نامیده است. به کمک ویدیو بوست، ویدیو‌های ضبط‌شده روی موبایل در فضای ابری آپلود می‌شوند، و در آن‌جا مدل‌های محاسباتی، « رنگ، روشنایی، تثبیت‌، و نویز » را تصحیح و طبیعی‌تر می‌کنند تا فیلم‌ها «واقعی‌تر» جلوه کنند.

گوگل می‌گوید جمینای نانو ویژگی‌های جدیدی مانند خلاصه‌کردن گفتار یا Summarize در برنامه Recorder و همچنین پاسخ هوشمند Smart Reply در Gboard را تقویت می‌کند.

واین، یعنی دنیای جدیدی برای تولید محصولات رسانه‌ایِ واقعی‌تر و انسانی‌تر.