Happy Horse يُكافئ البنية أكثر من الإسهاب. لدى النموذج ما يُسمّيه دليل التلقين الخاصّ به "ميزانية تلقين" — بعد حوالي 60 كلمة، تَصير الوجوه عامّة، وتَصير الحركة باهتة، وتَنحرف مزامنة الشفاه. الحلّ هو الصيغة السداسية، وهي نفس الهيكل الذي بَنى عليه فريق ATH في Alibaba النموذج.
يُكيّف هذا الدليل تلك الصيغة لفيديو UGC المؤثرين بالذكاء الاصطناعي تحديداً: Reels الناطقة، الإعلانات المدعومة بمزامنة شفاه، المتغيّرات متعدّدة اللغات، القصص متعدّدة اللقطات، والقطع الجوّية بمزاج خاصّ. كل قالب جاهز للنسخ ومبنيّ ليَندمج في خط أنابيب OmniGems AI جنباً إلى جنب مع مراجع شخصية GPT-Image-2.
لمعرفة ما هو Happy Horse ولماذا نُشغّله كنموذج الفيديو الافتراضي، راجع الدليل الركيزة لـ Happy Horse.
الصيغة السداسية
كل تلقين في Happy Horse مُؤلَّف من ستّ قطع. الترتيب يهمّ. قطعة بقطعة:
- Subject — من أو ما الذي على الشاشة، مع إعادة ذكر ثوابت الشخصية
- Action — ما يَفعلونه، كعبارة حركة سَلِسة واحدة
- Environment — الموقع والإضاءة ووقت اليوم
- Style/Composition — نسبة العرض إلى الارتفاع، التأطير، النَّبرة البصرية
- Camera Motion — حركة صريحة أو تأطير ثابت
- Audio — نصّ التعليق الصوتي، اللغة، وسادة الصوت
تخطّي قطعة ويملأها النموذج بقيمة افتراضية عامّة. قدّم القطع الستّ دائماً، حتى لو كانت الإجابة "ثابت، لا حركة كاميرا" أو "بدون تعليق صوتي، صوت محيط فقط".
لماذا يهمّ ترتيب القطع
يَقرأ النموذج التلقينات من اليسار إلى اليمين ويُعطي وزناً أعلى للقطع الأولى. Subject وAction يَحملان أكبر حصّة من ميزانية الجودة. إن دفنت ثوابت الشخصية تحت وصف بيئة زخرفي، فالشخصية ستَنحرف. ابدأ بـ "من" و"ماذا"؛ ودَع البيئة والأسلوب والكاميرا تَتراصف بعد ذلك.
ميزانية التلقين
استهدف 40–60 كلمة إجمالاً عبر القطع الستّ. عشرون قليلة جداً (يَملأ النموذج الفجوات بشكل غير متوقّع). ثمانون كثيرة جداً (تَتلاشى الجودة عبر القطع). أربعون إلى ستّون هي المنطقة المثلى.
الانضباط الذي يُوصلك إلى هناك: اسم محدّد واحد وصفة محدّدة واحدة لكل قطعة. ليس "a beautiful young woman with stunning features in a lovely outfit" — هذه ستّ صفات تَقوم بعمل اسم واحد. جرّب "26-year-old, olive skin, cream turtleneck". ثلاثة أسماء، ثلاثة معدّلات، انتهى.
القالب 1: Reel ناطق
الخبز والزبدة. الشخصية تَتحدّث للكاميرا، 9:16، 8–12 ثانية، لقطة واحدة، نَبرة محادثة.
Subject: Same persona as reference image, same face, same hair. Action: Speaking directly to camera, slight head movement, natural blinks. Environment: Sunlit Brooklyn café window seat, soft golden hour light. Style: 9:16 vertical, casual iPhone-style, slight handheld drift. Camera: Locked-off medium close-up, eye level. Audio: Female voiceover, English, conversational tone — "Honestly? This one product changed my whole morning routine."
49 كلمة. ضمن الميزانية. كل قطعة فيها اسم محدّد واحد ومعدّل محدّد واحد. مرّر مرجع شخصية GPT-Image-2 كصورة مرجعية ويَحبس النموذج الوجه.
ما الذي تُغيّره
- نصّ Audio — بدّل الجملة، احتفظ بكل ما عداها
- Environment — بدّل "Brooklyn café" بـ "Tokyo subway platform" أو "Seoul rooftop at night"
- وقت اليوم — بدّل "golden hour" بـ "blue hour" أو "harsh midday"
- الزي — أعد ذكر الزي في Subject إن كنت تُبدّله؛ النموذج يحتاج الإشارة
القالب 2: إعلان UGC مدعوم بمزامنة شفاه
الصيغة التي تَدفع العلامات التجارية فعلاً مقابلها. الشخصية على الكاميرا، تَحمل المنتج، تُلقي جملة العلامة.
Subject: Same persona as reference, same face, holding [product reference image] in right hand. Action: Showing product to camera, smiling, speaking the brand line. Environment: Bright kitchen counter, morning natural light through window. Style: 9:16 vertical, polished UGC, slight handheld. Camera: Medium close-up, locked, eye level. Audio: Female voiceover, English, warm and confident — "Three weeks in and I'm not going back."
53 كلمة. مرّر صورتَين مرجعيّتَين (المرجع الشخصي + الصورة الثابتة للمنتج). يَتعامل النموذج مع إدخال الصور المتعدّدة بنظافة.
نصائح مزامنة الشفاه
- اقتبس النصّ حرفيّاً في قطعة Audio — إعادة الصياغة في التلقين تُنتج مزامنة شفاه منحرفة
- حدّد اللغة بشكل صريح حتى لو كانت إنجليزية — يَستخدمها النموذج لاختيار أنماط الشفاه على مستوى الفونيم
- لأسماء العلامات ذات النُطق غير المألوف، اكتبها صوتيّاً بين قوسين:
"Try our new Nuance (NEW-AHNS) cream"
القالب 3: المتغيّر المُحلَّى متعدّد اللغات
نفس الشخصية، نفس المشهد، لغة مختلفة. هنا يَتراكم تأثير Happy Horse — ولّد أربعة متغيّرات لغوية لإعلان واحد من هيكل تلقين واحد.
Subject: Same persona as reference, same face, same wardrobe. Action: Speaking directly to camera, holding product, light smile. Environment: Same kitchen counter as English variant, morning light. Style: 9:16 vertical, polished UGC. Camera: Medium close-up, locked. Audio: Female voiceover, Japanese, warm and confident — "三週間使って、もう戻れない。"
القطع الوحيدة التي تَتغيّر بين المتغيّرات اللغوية هي النصّ داخل Audio وعلامة اللغة. Subject وAction وEnvironment وStyle وCamera تَبقى متطابقة. لذلك توليدة Happy Horse واحدة لكل لغة تَحلّ محلّ إعادة تصوير كاملة.
اللغات المدعومة بمزامنة شفاه قويّة
الإنجليزية، المندرين الصينية، الكانتونية الصينية، اليابانية، الكورية، الألمانية، الفرنسية. للغات الأخرى يُولّد النموذج صوتاً لكن جودة مزامنة الشفاه تَتدهور — راجع Happy Horse مقابل Sora 2 مقابل Veo 3 للتفصيل.
القالب 4: قصّة قصيرة متعدّدة اللقطات
إيقاع 15 ثانية بتأسيس ← فعل ← خاتمة. اضغط التسلسل في عبارة حركة سَلِسة واحدة في قطعة Action — النثر متعدّد الخطوات يَكسر القطعات.
Subject: Same persona as reference, casual loungewear. Action: Opens fridge, pours iced matcha into glass, walks to window, looks at camera with raised eyebrow. Environment: Sunlit Brooklyn loft, late morning. Style: 9:16 vertical, three-shot cut, polished UGC. Camera: Shot 1 wide on fridge, shot 2 medium on pour, shot 3 close on look-to-camera. Audio: Ambient morning kitchen sounds, no voiceover, soft lo-fi music bed.
68 كلمة — أعلى قليلاً من الميزانية لكن اللقطات المتعدّدة تَستلزم بطبيعتها أكثر. الحيلة: عدّد اللقطات داخل Camera، لا داخل Action. Action يَصف حركة الشخصية المتّصلة؛ Camera يَصف كيف تَرصدها الكاميرا.
لماذا يَنجح هذا
يَتدرّب Happy Horse على تسلسلات متعدّدة اللقطات لكنه يُحلّل حركة الشخصية كمسار واحد. إن قسمت المسار عبر جمل متعدّدة في Action، يَتعامل النموذج مع كل جملة كطلب توليد مستقلّ وتَنكسر الاستمرارية. جملة Action واحدة، حركة شخصية واحدة، إيقاع متّصل واحد — حتى عندما تَقطع الكاميرا.
القالب 5: قطعة جوّية بمزاج خاصّ
أبطأ، سينمائية، غير ناطقة. تُستخدم لمنشورات تأسيس العلامة وإعلانات إطلاق المؤثر.
Subject: Same persona as reference, charcoal turtleneck, contemplative. Action: Walking slowly through coffee shop, pausing at window, gazing out. Environment: Tokyo coffee shop, blue hour, neon reflections in puddles outside. Style: 9:16 vertical, cinematic, color-graded teal-and-amber. Camera: Steadicam glide following persona, slow dolly-in to medium close-up at window. Audio: Ambient café sound, distant rain, lo-fi instrumental — no voiceover.
64 كلمة. تَستفيد هذه الصيغة من نقاط قوّة Happy Horse — الأجواء، ديناميكيات الأقمشة، التماسك الهندسي في الانعكاسات، تدرّج الألوان السينمائي.
متى تَستخدمها
- منشورات إطلاق المؤثر (تقديم الشخصية للخلاصة)
- مقاطع افتتاح الحملة (تَهيئة المزاج قبل هبوط الإعلان الناطق)
- أفلام العلامات المدعومة حيث الشخصية هي موضوع التصوير، لا المتحدّث
أخطاء التلقين الشائعة
- قطع Subject المُتضخّمة — "a beautiful young woman with cascading auburn hair, piercing blue eyes, a warm smile, wearing a stunning cream-colored turtleneck" يَلتهم نصف الميزانية. اضغط: "26-year-old, auburn hair, cream turtleneck."
- نثر Action متعدّد الخطوات — "She opens the door, walks to the table, sits down, picks up a book, then opens it" يُنتج قطعات مكسورة. اضغط: "Opens door, sits at table reading."
- التصوير الزخرفي — "stunning, breathtaking, professional film look" ضوضاء. النموذج يُريد مفردات تصوير ملموسة: "locked-off medium close-up, eye level, slight handheld drift."
- تخطّي Audio — إن لم تُحدّد، تحصل على صوت محيط عشوائي. صف على الأقلّ وسادة الصوت دائماً، حتى في المقاطع غير الناطقة: "ambient café sound, no voiceover."
- علامات لغة مبهمة — "speaking the brand line" دون قطعة Audio يُنتج مزامنة شفاه بجودة TTS. اقتبس النصّ حرفيّاً دائماً واذكر اللغة صراحة.
- إعادة وصف المرجع الشخصي بنصّ — مرّر المرجع كصورة مرجعية؛ في Subject اكتب فقط "Same persona as reference, same face, same hair". الصورة تَحمل العبء الأثقل.
سير عمل تكرار التلقين
انضباط التغيير الواحد لكل تمريرة الذي يَنجح في توليد الصور يَنجح في الفيديو أيضاً:
- ولّد المقطع الأساس بالتلقين الكامل سداسي القطع
- ثبّت خمس قطع، غيّر واحدة
- قارن المُخرَج بالأساس، احتفظ بما يَنجح
- انتقل إلى القطعة التالية، غيّرها
- توقّف عن التكرار حين تحصل على مقطع قابل للشحن
هكذا يَبقى محتوى السلسلة متماسكاً عبر 30+ Reel يومياً. نفس المرجع الشخصي، نفس هيكل التلقين، متغيّر واحد في كل مرّة. محاولة تغيير ثلاث قطع دفعة واحدة تُنتج مُخرَجاً غير متوقّع ومجلّداً من اللقطات غير القابلة للاستخدام.
كيف تَستخدم OmniGems AI هذه الصيغة
داخل OmniGems AI Studio، يُولّد موجز شخصية المؤثر تلقائياً قطعة Subject. وجدول محتوى المُبدع يُحدّد قطعتَي Action وAudio. أمّا قِيَم Style وCamera الافتراضية فتُضبط لكل منصة (9:16 لـ Reels/TikTok/Shorts، و16:9 للمحتوى الطويل في YouTube). يَكتب المُبدع تنويعة Action وAudio فقط — والباقي بقالب جاهز.
هذا ما يُحوّل Happy Horse من نموذج فيديو قويّ إلى مكوّن في خط أنابيب المحتوى. الانضباط على مستوى التلقين يُوسّع الانضباط على مستوى الشخصية.
الخطوات التالية
- لمعرفة لماذا اخترنا Happy Horse على Sora 2 وVeo 3، راجع Happy Horse مقابل Sora 2 مقابل Veo 3
- لسير عمل المرجع الشخصي الذي يُغذّي image-to-video، راجع GPT-Image-2 للمؤثرين بالذكاء الاصطناعي
- لنسب العرض إلى الارتفاع وصيغ المنصّات، راجع أفضل نسب العرض إلى الارتفاع للمنصات الاجتماعية
- لبنية تلقينات الصور، راجع كيف تكتب تلقينات لمحتوى المؤثرين بالذكاء الاصطناعي
ابدأ التوليد
جرّب الصيغة السداسية داخل OmniGems AI Studio. المرجع الشخصي مُعالَج، خط أنابيب الفيديو مُدمج، توجيه النموذج لكل مقطع متاح، ووكيل النشر وإطلاق الرمز ضمن نفس التدفّق.