تصاویر واقع‌گرایانه با هوش مصنوعی: ساده‌تر از چیزی که فکر می‌کنی

ساخت تصاویر واقع‌گرایانه با هوش مصنوعی یکی از آن مهارت‌هایی‌ست که ظاهراً پیچیده به نظر می‌رسد، ولی وقتی چند اصل ساده را رعایت کنی، نتیجه‌اش شگفت‌زده‌ات می‌کند. من ماه‌ها با مدل‌های مختلف کار کرده‌ام و به نتایجی رسیده‌ام که شاید خلاف تصور رایج باشند — مخصوصاً درباره‌ی نحوه‌ی پرامپت‌نویسی.

کدام مدل‌ها واقعاً نتیجه می‌دهند؟

از بین ده‌ها مدل تصویرساز که تست کرده‌ام، دو مدل بیشتر از بقیه توجهم را جلب کردند:

  • Nana (Banana Pro): ترکیب قیمت مناسب و کیفیت خروجی‌اش عالی‌ست. مخصوصاً وقتی می‌خواهی تصاویر با نورپردازی طبیعی و جزئیات بالا بسازی، خیلی خوب عمل می‌کند.
  • GPT Image: برای صحنه‌سازی‌های پیچیده‌تر و وقتی به درک بهتری از زمینه (context) نیاز داری، این مدل انتخاب من است.

این به معنی نادیده گرفتن مدل‌های دیگر نیست، ولی وقتی هم قیمت و هم عملکرد را کنار هم بگذاری، این دو مدل بهترین تعادل را دارند. اگر می‌خواهی همین الان امتحان کنی، در استودیوی مدهوش دسترسی به مدل‌های مختلف تصویرساز داری و می‌توانی خودت مقایسه کنی.

بزرگ‌ترین اشتباهی که همه مرتکب می‌شوند

بگذار صادق باشم: مدت‌ها از ChatGPT یا مدل‌های دیگر می‌خواستم که پرامپت انگلیسی بنویسند، بعد آن را کپی‌پیست می‌کردم توی مدل تصویرساز. نتیجه؟ تصاویری که تکنیکی درست بودند ولی یک چیزی‌شان غیرطبیعی بود — انگار خیلی «تمیز» و «مصنوعی» از آب در می‌آمدند.

تا اینکه یک روز تصمیم گرفتم پرامپت را خودم، فارسی و خلاصه بنویسم. فرقش مثل شب و روز بود.

دلیلش چیست؟ وقتی از هوش مصنوعی می‌خواهی پرامپت بنویسد، معمولاً متن طولانی و پر از صفت‌های تکراری تحویلت می‌دهد. مدل تصویرساز هم گیج می‌شود؛ نمی‌داند اولویت با کدام توصیف است. ولی وقتی خودت مستقیم و مختصر بنویسی — حتی فارسی — مدل دقیقاً می‌فهمد چه می‌خواهی.

فرمول پرامپت واقع‌گرایانه

بر اساس تجربه‌ام، یک پرامپت خوب برای تصویر واقع‌گرایانه این المان‌ها را دارد:

  • نوع نما: مشخص کن از چه زاویه‌ای می‌خواهی (POV، کلوزآپ، واید...)
  • سوژه و عمل: دقیقاً چه کسی دارد چه کاری می‌کند
  • محیط: یک یا دو جزئیات کلیدی درباره‌ی مکان
  • رفرنس: یک عکس واقعی به‌عنوان مرجع (اگر مدل اجازه می‌دهد)

و تمام. نه بیشتر.

نمونه‌ی واقعی: پرامپتی که جواب داد

این آخرین پرامپتی‌ست که استفاده کردم و نتیجه‌اش فوق‌العاده شد:

«نمای POV همین زن در حالی که لباس آستین‌بلند مشکی پوشیده و دارد بند کفش‌هایش را می‌بندد — در جلوی در خانه روی پادری (محیط ایرانی بماند)» + یک عکس رفرنس

همین. بدون توضیح نورپردازی سینمایی، بدون ذکر رزولوشن ۸K، بدون لیست صفت‌های فانتزی. و تصویر خروجی کاملاً منطقی و باورپذیر بود.

نکته‌ی کلیدی اینجاست: وقتی صحنه را مثل یک جمله‌ی روزمره توصیف کنی — نه مثل یک دستورالعمل فنی — مدل بهتر درک می‌کند. انگار داری برای یک عکاس واقعی توضیح می‌دهی که چه عکسی بگیرد.

سه نکته‌ی طلایی که یاد گرفتم

  • فارسی بنویس: مدل‌های جدید فارسی را خوب می‌فهمند. نیازی به ترجمه نیست.
  • کوتاه‌تر = بهتر: هر کلمه‌ای که اضافه کنی، احتمال سردرگمی مدل بیشتر می‌شود.
  • عکس رفرنس بده: یک عکس مرجع از سوژه، بیشتر از ۵۰ کلمه توضیح اضافه ارزش دارد.

جمع‌بندی

ساختن تصاویر واقع‌گرایانه با هوش مصنوعی نه به پرامپت‌های طولانی نیاز دارد و نه به تسلط بر زبان انگلیسی. کافی‌ست صحنه‌ای که در ذهنت هست را ساده و صریح توصیف کنی، یک رفرنس ضمیمه کنی و به مدل اعتماد کنی. اگر هنوز امتحان نکرده‌ای، مدهوش جای خوبی برای شروع است — همین الان یک پرامپت فارسی سه‌خطی بنویس و نتیجه را ببین.