شرکت OpenAI با فعالسازی قابلیت تولید تصویر داخلی مدل پیشرفته GPT-4o، بار دیگر مرزهای هوش مصنوعی را جابجا کرد و موجی از شگفتی و هیجان را در میان کاربران به راه انداخت. این قابلیت که از امروز در دسترس تمامی کاربران ChatGPT در پلنهای مختلف (رایگان، پلاس، پرو و تیمی) قرار گرفته و به زودی برای کاربران سازمانی، آموزشی و API نیز فعال خواهد شد، یک گام بلند و تحولی بنیادین نسبت به مدل قبلی تصویرسازی این شرکت، یعنی DALL-E 3، محسوب میشود.
GPT-4o دیگر صرفاً یک مدل تولید متن و کد نیست؛ بلکه به طور مستقیم قادر به خلق تصاویر با کیفیتی به مراتب واقعیتر و دقیقتر است. کاربران میتوانند به سادگی و از طریق گفتگو با ChatGPT، تصویر مورد نظر خود را توصیف کنند – خواه یک منوی جذاب برای رستوران باشد، خواه یک اینفوگرافیک informative، و یا حتی یک طرح فتوشاپی با پسزمینه شفاف. GPT-4o قادر است در کمتر از یک دقیقه، تصویر درخواستی را با دقت و جزئیات چشمگیر ارائه دهد.
بازخوردهای اولیه از سوی کاربرانی که این قابلیت جدید را آزمایش کردهاند، بسیار مثبت و تحسینبرانگیز بوده است. به عنوان مثال، آلی میلر، مشاور هوش مصنوعی، این مدل را “بهترین مدل تولید تصویر هوش مصنوعی که تا به حال دیده است” توصیف کرده و کیفیت تصاویر تولید شده را “دیوانهکننده” خوانده است.
GPT-4o از چندین مزیت کلیدی نسبت به مدلهای قبلی برخوردار است. این مدل در نمایش متن درون تصاویر بسیار قویتر و خواناتر عمل میکند و میتواند به طور هوشمندانه تا ۱۰ تا ۲۰ شیء مختلف را در یک صحنه واحد بچیند. علاوه بر این، GPT-4o با در نظر گرفتن تاریخچه گفتگو، قادر به اصلاح و هماهنگسازی تصاویر درخواستی بعدی است. برای نمونه، کاربر میتواند ابتدا درخواست ترسیم یک سگ را بدهد و سپس با دستوری مانند “حالا رنگش را آبی کن”، شاهد اعمال تغییرات دقیق و هوشمندانه در تصویر باشد. این قابلیت نشاندهنده درک عمیقتر GPT-4o از درخواستهای کاربر و توانایی آن در حفظ پیوستگی خلاقانه است.
با وجود این پیشرفتهای چشمگیر، این مدل هنوز با برخی چالشها روبرو است. یکی از این موارد، برش نامناسب تصاویر بزرگ در برخی مواقع است که ممکن است بخشی از جزئیات مهم را حذف کند. همچنین، OpenAI هنوز به طور دقیق مشخص نکرده است که از چه دادههایی برای آموزش این قابلیت استفاده کرده است. با توجه به سابقه این شرکت، احتمال استفاده از آثار هنری جمعآوریشده از سطح وب وجود دارد که میتواند بار دیگر بحثهای مربوط به حق تکثیر و مالکیت معنوی را به میان بکشد.
با این حال، عرضه این قابلیت جدید به وضوح نشان میدهد که OpenAI در رقابت با مدلهای قدرتمندی همچون Gemini 2 گوگل، بسیار جدی است و قصد دارد با ارائه ابزارهای خلاقانه و کاربردی، کاربران خود را همواره غافلگیر و راضی نگه دارد. فعالسازی قابلیت تولید تصویر در GPT-4o، نه تنها یک پیشرفت فنی قابل توجه است، بلکه دریچهای نو به سوی خلاقیت و نوآوری در حوزههای مختلف میگشاید و قدرت هوش مصنوعی را در خدمت کاربران قرار میدهد. این جهش بزرگ، بدون شک تاثیر بسزایی بر نحوه تولید محتوا و تعامل ما با دنیای دیجیتال خواهد داشت.























نظرات کاربران