گوگل تازهترین و قدرتمندترین مدل هوش مصنوعی خود را منتشر کرده است، اما قابلیتهای آن چیست؟
جمینی که قبلاً با نام بارد شناخته میشد یک مدل هوش مصنوعی جدید و پیشرفته از گوگل است که توانایی درک متن، تصویر، ویدئو و صدا را دارد. به عنوان یک مدل چند رسانهای، جمینی قادر به انجام وظایف پیچیده در ریاضیات، فیزیک و سایر زمینهها معرفی شده است، همچنین میتواند کد با کیفیت بالا در زبانهای برنامهنویسی مختلف را درک و تولید کند.
در حال حاضر این مدل از طریق ادغام با گوگل بارد (Google Bard) و گوگل پیکسل ۸ (Google Pixel 8) در دسترس است و به تدریج در دیگر خدمات گوگل گنجانده خواهد شد.
دنیس هاسابیس، مدیرعامل و از بنیانگذاران Google DeepMind، بیان کرده که «جمینی حاصل تلاشهای گسترده و همکاری تیمهای مختلف گوگل، از جمله همکاران ما در Google Research است. جمینی از پایه و اساس برای یک مدل چندوجهی بودن ساخته شده است و به این معناست که میتواند به طور کلی درک کند، به صورت ناپیوسته عمل کند و انواع مختلفی از اطلاعات از جمله متن، کد، صوت، تصویر و ویدئو را درک و ترکیب نماید.»
چه کسی جمینی را ساخت؟
جمینی توسط Google و Alphabet، شرکت مادر گوگل، ایجاد و به عنوان پیشرفتهترین مدل هوش مصنوعی تا به امروز این شرکت منتشر شد. Google DeepMind نیز سهم قابل توجهی در توسعه جمینی داشته است.
آیا نسخههای مختلفی از جمینی وجود دارد؟
Google، جمینی را به عنوان یک مدل انعطافپذیر توصیف میکند که قادر به اجرا روی همه چیز، از مراکز داده گوگل گرفته تا دستگاههای تلفن همراه است. به منظور دستیابی به این قابلیت مقیاسپذیری، جمینی در سه اندازه منتشر میشود: جمینی نانو، جمینی پرو و جمینی اولترا.
جمینی نانو
جمینی نانو برای اجرا روی گوشیهای هوشمند، به خصوص گوگل پیکسل ۸، طراحی شده است. این مدل برای انجام وظایف روی دستگاه است که نیازمند پردازش موثر AI بدون نیاز به اتصال به سرورهای خارجی است، مانند پیشنهاد پاسخها در درون برنامههای چت یا خلاصهسازی متون.
جمینی پرو
جمینی پرو که روی مراکز دادهی گوگل اجرا میشود، برای به کارگیری در جدیدترین نسخهی چتبات AI شرکت، یعنی بارد، طراحی شده است. این مدل قادر به ارائهی زمان پاسخدهی سریع و درک پرسشهای پیچیده است.
جمینی اولترا
گرچه جمینی اولترا هنوز برای استفادهی گسترده در دسترس نیست، اما گوگل آن را به عنوان تواناترین و پیشرفته ترین مدل خود توصیف میکند که در 30 معیار از 32 معیار پرکاربرد دانشگاهی مورد استفاده در تحقیق و توسعه مدل زبان بزرگ (LLM)، فراتر رفته است. این مدل برای وظایف بسیار پیچیده طراحی شده و قرار است پس از اتمام فاز کنونی آزمایشهایش، منتشر شود.
چگونه میتوان به جمینی دسترسی پیدا کرد؟
جمینی اکنون در محصولات گوگل در اندازههای نانو و پرو، مانند تلفن همراه پیکسل 8 و چتبات بارد، موجود است. گوگل قصد دارد با گذشت زمان جمینی را در خدمات جستجو، تبلیغات، کروم و سایر سرویسهای خود ادغام کند.
توسعهدهندگان و مشتریان شرکتی از تاریخ 13 دسامبر میتوانند از طریق API جمینی در Google’s AI Studio و Google Cloud Vertex AI، به جمینی پرو دسترسی پیدا کنند. توسعهدهندگان اندروید نیز به جمینی نانو از طریق AICore دسترسی خواهند داشت که بر پایهی پیشنمایش زودهنگام در دسترس خواهد بود.
تفاوت جمینی با سایر مدلهای هوش مصنوعی مانند GPT-4 چیست؟
به نظر میرسد مدل جدید جمینی گوگل یکی از بزرگترین و پیشرفتهترین مدلهای هوش مصنوعی تا به امروز باشد، اما انتشار مدل اولترا است که این موضوع را به طور قطع تعیین میکند. در مقایسه با دیگر مدلهای محبوبی که چتباتهای هوش مصنوعی را به کار میبرند، جمینی به دلیل ویژگی محلی چند حالته متمایز است، در حالی که سایر مدلها مانند GPT-4، برای این که واقعا چندحالته باشند، به پلاگینها و ادغامها متکی هستند.
در مقایسه با GPT-4، که یک مدل عمدتاً مبتنی بر متن است، Gemini به راحتی وظایف چندرسانهای را انجام میدهد. GPT-4 در مورد وظایف مرتبط با زبان، مانند تولید محتوا و تحلیل متن پیچیده، بسیار عالی عمل میکند اما برای تحلیل تصویر و دسترسی به وب از پلاگینهای OpenAI استفاده میکند و برای تولید تصاویر به DALL-E 3 و پردازش صوت به Whisper وابسته است.
همچنین به نظر میرسد Gemini گوگل نسبت به سایر مدلهای موجود، بیشتر محصول-محور است. این مدل یا در اکوسیستم شرکت یکپارچه شده است یا برنامههایی برای چنین کاری دارد، چرا که هم Bard و هم دستگاههای Pixel 8 را قدرت میبخشد. سایر مدلها، مانند GPT-4 و Llama متا، بیشتر خدماتمحور هستند و برای توسعهدهندگان ثالث در برنامهها، ابزارها و خدمات مختلف در دسترس قرار دارند.
سوالات متداول
چرا جمینی مهم است؟
جمینی به عنوان پرقدرتترین مدل هوش مصنوعی تاکنون شناخته شده است و قابلیتهای پردازش و درک دادههای دوربرد را داراست که مناسب برای وظایفی از جمله تولید متن، ترجمه زبان و حل مسائل پیچیده است.
چگونه میتوان از جمینی استفاده کرد؟
به عنوان بهترین برنامه هوش مصنوعی گوگل برای اندروید، Google Assistant، که قابل دانلود از بازار است،از قابلیتهای جمینی بهره میبرد.
تفاوت جمینی با بقیه در چیست ؟
جمینی قرار است اطلاعات خود را از دل وب بهروز کند که این ویژگی آن را از سایر رقبا متمایز میکند.
گوگل جمینی برای چه کاربردی استفاده میشود؟
مدلهای گوگل جمینی چندرسانهای هستند و قادر به انجام وظایفی مانند تبدیل گفتار به متن، ترجمه، زیرنویس کردن تصاویر و تولید آثار هنری میباشند. قابلیتهای آن براساس مدل استفاده شده متفاوت است.
آیا استفاده از گوگل جمینی رایگان است؟
نسخههای پایهای گوگل جمینی رایگان هستند. میتوانید به جمینی نانو در گوشی پیکسل 8 یا جمینی پرو در برنامه چت جمینی، استودیو هوش مصنوعی گوگل و Vertex دسترسی داشته باشید. جمینی اولترا در جمینی پیشرفته از طریق برنامه گوگل وان AI پریمیوم با قیمت 19.99 دلار ماهانه در دسترس است.
معایب هوش مصنوعی جمینی چیست؟
گوگل اظهار میدارد که هوش مصنوعی جمینی ممکن است در انجام وظایف خاصی مانند مکانیابی دقیق اشیاء در تصاویر یا پردازش دادهها از ویدیوهای طولانی با مشکل مواجه شود. برای استفاده پزشکی توصیه نمیشود و ممکن است در برخی از معادلات ریاضی دقت کمتری داشته باشد.
گوگل جمینی نانو چیست؟
جمینی نانو یک مدل سبک است که در دو اندازه موجود است: نانو-1 (1.8 میلیارد پارامتر) و نانو-2 (3.25 میلیارد پارامتر). این مدل قابلیتهایی مانند پاسخ هوشمند در Gboard و خلاصهسازی در برنامه ضبط صدا در پیکسل 8 پرو را به قدرت میرساند.
گوگل جمینی پرو چیست؟
گوگل جمینی پرو نسخه اصلی است که ربات چت Bard را به قدرت میرساند و در انجام زنجیرههای استدلال پیچیده تبحر دارد اما ممکن است در حل مسائل ریاضی پیچیده کمی مشکل داشته باشد. این مدل قادر به پردازش مقادیر زیادی از متن، کد، صوت و ویدیو است.
گوگل جمینی اولترا چیست؟
گوگل جمینی اولترا پیشرفتهترین مدل هوش مصنوعی گوگل است که قادر به کمک در انجام وظایف مختلف از تکالیف فیزیک گرفته تا تولید تصاویر میباشد، اما هنوز به طور مستقیم در دسترس مصرفکنندگان قرار نگرفته است. به این مدل میتوان از طریق چتبات پیشرفته جمینی با اشتراک در برنامه پریمیوم گوگل وان AI دسترسی پیدا کرد.
قدرت مدلهای گوگل جمینی چقدر است؟
مدلها از نظر توانایی متفاوت هستند، با اولترا که پیشرفتهترین است و پس از آن نسخههای پرو و نانو که برای وظایف و اندازههای مختلف بهینه شدهاند، همگی در درک متن، تصاویر، ویدئوها، صدا، کد و موارد دیگر برجسته هستند.