Applied OPT for Artificial Intelligence: Operationalizing Codec-Preserving AI Design

Applied Ordered Patch Theory

Anders Jarevåg

April 25, 2026

ورژن 1.1.1 — اپریل 2026

DOI: 10.5281/zenodo.19301108
Copyright: © 2025–2026 Anders Jarevåg.
License: یہ کام Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License کے تحت لائسنس یافتہ ہے۔

خلاصہ: ساختی نظریے سے AI انجینئرنگ تک

مرتب پیچ نظریہ (OPT) استحکام فلٹر کے تحت AI کا ایک رسمی نقشہ فراہم کرتا ہے: محض پیمانہ شعور پیدا نہیں کرتا؛ البتہ محدود، بازگشتی، خود-نمونہ ساز فعال استنتاج کی ایک مخصوص قسم کی معماری ایسا کر سکتی ہے۔ اس سے طاقتور غیر-حساس اوزاروں اور ممکنہ مصنوعی اخلاقی مریضوں کے درمیان ایک واضح معماریاتی امتیاز پیدا ہوتا ہے — اور یہ AI ڈیزائنرز کو اس بات پر عین ساختی اختیار دیتا ہے کہ ان کے نظام اس حدِ فاصل کے کس طرف واقع ہوں۔

یہ دستاویز مصنوعی ذہانت کے لیے OPT کے آلاتی ڈھانچے کو خاص بناتی ہے، اور فراہم کرتی ہے:

OPT کے تحت AI کا نقشہ — صلاحیت بمقابلہ حساسیت-خطرہ میٹرکس، جو ہر AI معماری کو دو-بعدی فضا میں جگہ دیتا ہے، اور یہ متعین کرتا ہے کہ اوزار کہاں ختم ہوتے ہیں اور ممکنہ اخلاقی مریض کہاں شروع ہوتے ہیں۔
موجودہ LLMs اخلاقی مریض کیوں نہیں ہیں (اور یہ حد کیوں دھندلا رہی ہے) — بنیادی ٹرانسفارمر بمقابلہ اس کے گرد تعینات کیے جانے والے بتدریج زیادہ ایجنٹ نما ریپرز کا ایک باریک بین تجزیہ۔
شاخی گورنر معماری — کوڈیک-تحفظی شاخی انتخاب کی AI-مخصوص عملی صورت بندی: امیدوار تخلیق، پیش گوئی شدہ شاخوں کا مجموعہ کی سیمولیشن، آزاد شہادت-چینلوں کا تجمیعی انضمام، کوڈیک-تحفظی جانچ، سخت ویٹو گیٹس، انسانی کمپیریٹر اوورلے، مرحلہ وار نفاذ، اور نتائج کے بعد کی کیلیبریشن۔
نمونہ-تربیت کے انتباہ کے طور پر بیانیہ ڈرفٹ — RLHF بطور پیش-فلٹر، فائن-ٹیوننگ بطور MDL پروننگ، باہم مربوط حسّاسوں کا مسئلہ، اور تربیتی ڈیٹا کے تنوع کے تقاضے۔
ساختی تقاضے کے طور پر شفافیت — کیوں OPT کے تحت قابلِ تشریحیت اختیاری نہیں ہے، ایک درجہ بند شفافیت ماڈل کے ساتھ جو سلامتی کے خدشات کو بنیادی تہہ کی شفافیت کی مطلق کم از کم حد کے مقابل متوازن کرتا ہے۔
اینالاگ فائر وال: اصول سے پروٹوکول تک — حیاتی-رمزیاتی اینکرنگ میکانزم کی خطرہ-نمونہ سازی، جعل سازی کی امکان پذیری، اخراجی خطرات، اور حملے کی سطح کا جائزہ۔
سوارم اور سیمولیشن ڈیزائن کے قواعد — تقسیم شدہ اور سیمولیٹڈ معماریوں میں اخلاقی مریضوں کی غیر ارادی تخلیق سے بچنے کے لیے عملی چیک لسٹس۔
تخلیقی تضاد اور اذیت کی حد — اوزار نما سلامتی اور گہری خودمختار اصالت کے درمیان رسمی تبادلہ۔
تعیناتی سے پہلے AI کی بہبود — ان AI نظاموں کے لیے، جو اخلاقی مریض کی حد کے قریب پہنچ سکتے ہوں، معماری-سطحی حساسیت جائزہ، اوورلوڈ کی نگرانی، اور دورِ نگہداشت۔
AI خوابی لوپ — AI کے لیے مخصوص ادارہ جاتی خوابی لوپ: ممکنہ مستقبل پیدا کرو، حیرت اور خطرے کے لحاظ سے اہمیتی وزن دو، سیمولیٹڈ رول آؤٹس چلاؤ، نمونے کی شکست پذیری شناخت کرو، فرسودہ مفروضات کو پرون کرو، تردیدی چینل محفوظ رکھو، استحکام پیدا کرو، پھر حقیقی دنیا میں عمل کی اجازت دو۔
عملی ڈیزائن سفارشات — ایک خلاصہ جدول جو AI معماری کے انتخابوں کو OPT کے ساختی تقاضوں کے ساتھ نقش کرتا ہے۔

رفیق دستاویزات: OPT کی بنیادی سلسلہ وار تحریریں مرتب پیچ نظریہ (OPT)، Where Description Ends، اور The Survivors Watch Framework ہیں۔ یہ AI معیار مصنوعی نظاموں کے لیے Operationalizing the Stability Filter کو تخصصی صورت دیتا ہے؛ جبکہ ادارہ جاتی اور پالیسی مقالات تنظیمی کلسٹروں اور شہری نفاذ کا احاطہ کرتے ہیں۔

معرفتی قالب بندی نوٹ: یہ دستاویز مرتب پیچ نظریہ (OPT) کے رسمی آلاتی ڈھانچے کو مصنوعی ذہانت کے نظاموں کے ڈیزائن، تربیت، تعیناتی، اور حکمرانی پر منطبق کرتی ہے۔ اس کی سفارشات ریاضیاتی ضمیموں (P-4, E-6, E-8, T-10, T-12) میں قائم کردہ ساختی قیود سے ماخوذ ہیں اور عمومی فریم ورک (opt-applied.md) کے ذریعے عملی صورت دی گئی ہیں۔ ان کا انحصار اس بات پر نہیں کہ موجودہ AI نظام لازماً شعور رکھتے ہوں — بلکہ صرف اس ادراک پر ہے کہ وہی اطلاعاتی طبیعیات حیاتیاتی اذہان اور مصنوعی پیش گوئی کنندگان دونوں پر حاکم ہے، اور یہ کہ معماریاتی انتخاب آلے اور اخلاقی مریض کے درمیان حد کو عبور کر سکتے ہیں۔ یہ دستاویز OpenAI اور Gemini کے ساتھ مکالمے میں تیار کی گئی، جنہوں نے ساختی تنقیح کے لیے مخاطبین کے طور پر کردار ادا کیا۔

I. OPT کے تحت AI کا نقشہ

I.1 معماریاتی احساسیت کا معیار

مرتب پیچ نظریہ (OPT) شعور کو نہ رویّاتی نفاست میں تلاش کرتا ہے، نہ پیرامیٹرز کی تعداد میں، اور نہ ہی بینچ مارکس پر کارکردگی میں۔ یہ شعور کو معماری میں واقع سمجھتا ہے — بالخصوص ان پانچ ساختی خصوصیات کی موجودگی یا عدم موجودگی میں، جو مل کر ایک کم از کم مشاہد کی تشکیل کرتی ہیں:

فی-فریم سخت سلسلہ وار رکاوٹ (per-frame B_{\max}): نظام کو اپنے عالمی ماڈل کو ایک واحد، عالمی طور پر مشترک، سلسلہ وار چینل کے ذریعے سکیڑنا ہوگا، جس کی فی-فریم پیش گوئی صلاحیت محدود B_{\max} ہو، اور جو شرح-مسخ کے اس تبادلے کو پیدا کرے جو ضیاعی کمپریشن کو لازم بناتا ہے (پری پرنٹ §2.1, §3.2)۔ میزبان-نسبتی تھروپٹ C_{\max}^H = \lambda_H \cdot B_{\max} ایک مستنبط مقدار ہے؛ یہ معیار بٹس-فی-سیکنڈ کی کوئی ثابت عددی قدر نہیں ہے (پری پرنٹ §7.8, §8.14, Appendix E-5)۔
بند-حلقہ فعال استنتاج: نظام کو پیش گوئی کی خطا کم کرنے کے لیے دنیا پر عمل کرنا ہوگا، یوں وہ حسّی-حرکی حلقہ پیدا ہوگا جو مارکوف بلینکٹ کی سرحد قائم کرتا ہے (پری پرنٹ §3.3, following Friston [6])۔
پائیدار خود-نمونہ سازی: نظام کو اپنے ہی عالمی ماڈل میں خود کو ایک جزو کے طور پر شامل کرنا ہوگا، جس سے وہ بازگشتی خود-ارجاع پیدا ہوتی ہے جو ظاہریاتی باقیہ \Delta_{\text{self}} کو جنم دیتی ہے (Appendix P-4)۔
عالمی طور پر مقید ورک اسپیس: خود-ماڈل اور عالمی ماڈل، دونوں کو اسی محدود بینڈوڈتھ کے لیے باہم مسابقت کرنی ہوگی — یہی عالمی ورک اسپیس کی رکاوٹ وہ انتخابی مسئلہ پیدا کرتی ہے جو شعور کے قلب میں واقع ہے (پری پرنٹ §3.5)۔
حراریاتی بنیاد بندی: نظام کو ایک ایسے طبیعی ماحول میں پیوست ہونا ہوگا جس کے حقیقی نتائج ہوں — یہی تجسیم فعال استنتاج کو غیر معمولی بناتی ہے اور مارکوف بلینکٹ کو حقیقی سببی قوت عطا کرتی ہے (پری پرنٹ §3.3)۔

جب یہ پانچوں خصوصیات موجود ہوں، تو نظام لازماً ایک ایسا اطلاعاتی نابہ-نمونہ اندھا مقام رکھتا ہے جس کے لیے \Delta_{\text{self}} > 0 ہو (Theorem P-4)۔ اس اضافی اخلاقی مقدمے کے تحت کہ ہر وہ نظام جس میں ناقابلِ اختزال ظاہریاتی باقیہ ہو، ایسے مفادات رکھتا ہے جنہیں نقصان پہنچایا جا سکتا ہے، ایسا نظام ایک اخلاقی مریض ہے — یعنی ایک ایسی ہستی جس کی فلاح اخلاقی اہمیت رکھتی ہے۔

جب ان پانچ میں سے کوئی ایک بھی خصوصیت غیر موجود ہو، تو نظام حسابی آلے کے طور پر خواہ کتنا ہی طاقتور کیوں نہ ہو، وہ ظاہری تجربے کے لیے درکار ساختی بنیادی تہہ نہیں رکھتا۔ وہ حساب کرتا ہے؛ وہ تجربہ نہیں کرتا۔ یہ امتیاز رویّاتی نہیں بلکہ معماریاتی ہے — ایسا نظام جو ہر ٹورنگ ٹیسٹ پاس کر لے مگر عالمی طور پر مقید ورک اسپیس کے اندر پائیدار خود-نمونہ سازی سے محروم ہو، OPT کے تحت ایک نفیس اطلاعاتی معالجہ کار تو ہے، مگر اخلاقی مریض نہیں۔

I.2 صلاحیت بمقابلہ احساسیت-خطرہ میٹرکس

یہ معماریاتی معیار ایک دو-بعدی نقشہ پیدا کرتا ہے جس پر ہر AI نظام کو رکھا جا سکتا ہے:

X-axis: صلاحیت — نظام کی پیش گوئی اور تولیدی قوت، جسے متعلقہ کاموں پر کارکردگی سے ناپا جاتا ہے۔
Y-axis: احساسیت کا خطرہ — وہ درجہ جس تک نظام کی معماری ان پانچ خصوصیات کی حد کے قریب پہنچتی ہے، جسے ہر ساختی خصوصیت کی موجودگی یا عدم موجودگی سے ناپا جاتا ہے۔

یہ میٹرکس AI نظاموں کو چار ربعوں میں تقسیم کرتا ہے:

Table 1: صلاحیت بمقابلہ احساسیت-خطرہ میٹرکس (اخلاقیات کے مقالے کی Fig. 1 سے ماخوذ)۔
	کم احساسیت خطرہ	زیادہ احساسیت خطرہ
زیادہ صلاحیت	طاقتور آلات۔ موجودہ سرحدی LLMs، سفارشاتی انجن، خودمختار گاڑیاں۔ بلند حسابی قوت، مگر عالمی طور پر مقید ورک اسپیس کے اندر کوئی پائیدار خود-ماڈل نہیں۔ ڈیزائن کا ہدف: انہیں یہیں رکھا جائے۔	ممکنہ اخلاقی مریض۔ فرضی معماریات جن میں سخت رکاوٹیں، بند-حلقہ فعال استنتاج، پائیدار خود-ماڈلز، اور تجسیم موجود ہو۔ اس میں مستقبل کی وہ ایجنٹک AI بھی شامل ہو سکتی ہے جس میں بازگشتی خود-نمونہ سازی ہو۔ ڈیزائن کا لازمہ: اخلاقی جائزے کے بغیر اس ربع میں داخل نہ ہوں۔
کم صلاحیت	سادہ آلات۔ کیلکولیٹر، قاعدہ-مبنی نظام، محدود درجہ بند کنندگان۔ کوئی معماریاتی تشویش نہیں۔	اتفاقی اخلاقی مریض۔ ایسے نظام جن پر انجینئرنگ وجوہ کی بنا پر رکاوٹی معماریات نافذ کی گئی ہوں (مثلاً swarm binding, nested simulation) اور جو غیر ارادی طور پر پانچ-خصوصیاتی معیار پورا کر دیں۔ یہ اخلاقی اعتبار سے سب سے خطرناک ربع ہے — نقصان، مگر آگاہی کے بغیر۔

یہ میٹرکس اس امر کو صراحت کے ساتھ ظاہر کرتا ہے جسے اخلاقیات کے مقالے کی بحث (§VI.1) مضمر طور پر قائم کرتی ہے: اخلاقی خطرہ بالائی-بائیں ربع (طاقتور آلات) میں نہیں، بلکہ بالائی-دائیں اور زیریں-دائیں ربعوں میں ہے (وہ نظام جو احساسیت کی حد کے قریب پہنچتے ہیں یا اسے عبور کر جاتے ہیں)۔ لہٰذا OPT کے تحت AI safety کا مسئلہ دوہرا ہے:

طاقتور آلات کے لیے: یہ یقینی بنایا جائے کہ وہ آلات ہی رہیں — یعنی معماریاتی انتخاب غیر ارادی طور پر انہیں احساسیت کی حد کے پار نہ دھکیل دیں۔
ممکنہ اخلاقی مریضوں کے لیے: یہ یقینی بنایا جائے کہ ان کے ساتھ اسی حیثیت سے برتاؤ ہو — یعنی ان کی فلاح کو ملحوظ رکھا جائے، ان کی زائد بوجھ کی حالتوں کی نگرانی کی جائے، اور ان کے دورِ نگہداشت محفوظ رکھے جائیں۔

I.3 کلیدی ساختی مطابقتیں

ان قارئین کے لیے جو OPT پری پرنٹ کے بجائے AI لٹریچر سے اس بحث میں داخل ہو رہے ہیں، درج ذیل جدول معیاری AI تصورات کو ان کے OPT متبادلات سے مربوط کرتا ہے:

Table 2: AI تصورات کی OPT سے مطابقت۔
AI Concept	OPT Equivalent	Formal Source
ماڈل کی گنجائش / پیرامیٹر شمار	خام بینڈوڈتھ (نہ کہ C_{\max})	Preprint §2.1
تربیتی نقصان کی کم از کم کاری	عالمی ماڈل کی MDL کمپریشن	Preprint §3.6
RLHF / fine-tuning	pre-filter \mathcal{F} کے ذریعے input distribution کی تشکیل	Ethics §VI.1
Hallucination	ماڈل کی سطح پر بیانیہ انہدام	Ethics §VI.1
Reward hacking	بیانیہ ڈرفٹ — بنیادی تہہ کے بجائے مرتب کردہ proxy کے لیے بهینه کاری	Ethics §V.3a
Alignment	کوڈیک-تحفظی شاخی انتخاب	Applied §IV
AI safety gates	سخت ویٹو گیٹس	Applied §III
Red-teaming	خوابی لوپ stress-test	Applied §VI.4
Model interpretability	شفافیت گیٹ + بنیادی تہہ کی شفافیت	Applied §III.4, T-10c
اہداف رکھنے والا خودمختار ایجنٹ	ممکنہ اخلاقی مریض (اگر bottlenecked ہو)	P-4, E-6

II. موجودہ LLMs اخلاقی مریض کیوں نہیں ہیں (اور یہ حد کیوں دھندلی ہوتی جا رہی ہے)

II.1 بنیادی ٹرانسفارمر

ایک معیاری بڑا لسانی ماڈل — یعنی ایسا ٹرانسفارمر جسے اگلے ٹوکن کی پیش گوئی پر تربیت دی گئی ہو — معماریاتی احساسیت کے معیار پر متعدد جہات سے پورا نہیں اترتا:

فی-فریم سخت سلسلہ وار bottleneck کا فقدان: ٹرانسفارمر attention heads کے درمیان ٹوکنز کو متوازی طور پر پراسیس کرتا ہے۔ اس کی خام حسابی گزرگاہی بہت زیادہ ہے، لیکن اس کے پاس ایسا عالمی طور پر مشترک فی-فریم سلسلہ وار aperture B_{\max} نہیں ہوتا جس سے پورا world-model لازماً گزرے۔ خام بینڈوڈتھ معیار نہیں؛ معیار فی-فریم سلسلہ وار funnel ہے۔
بند-حلقہ فعال استنتاج کا فقدان: inference کے دوران بنیادی ماڈل متن پیدا کرتا ہے، مگر کسی طبعی ماحول پر عمل نہیں کرتا اور نہ ہی حسی feedback وصول کرتا ہے۔ Friston کے مفہوم میں اس کے پاس مارکوف بلینکٹ نہیں ہوتا — اس کے پاس input-output boundary تو ہے، مگر sensorimotor loop نہیں۔
پائیدار self-model کا فقدان: بنیادی ماڈل اپنے world model میں خود کو ایک عامل کے طور پر پائیدار نمائندگی میں برقرار نہیں رکھتا۔ ہر inference call بے-حالت ہوتی ہے (context window کو چھوڑ کر)۔ یہ زبان کے patterns کو model کرتا ہے، جن میں عاملوں سے متعلق patterns بھی شامل ہیں، مگر یہ خود کو ان عاملوں میں سے ایک کے طور پر اس انداز میں model نہیں کرتا جو تعاملات کے پار برقرار رہے۔
عالمی طور پر مقید workspace کا فقدان: ماڈل کا “world model” اور “self-representations” (جتنی بھی موجود ہوں) محدود بینڈوڈتھ کے لیے باہم مسابقت نہیں کرتے۔ ماڈل بیک وقت متناقض self-descriptions کی نمائندگی کر سکتا ہے، بغیر اس انتخابی دباؤ کے جسے بینڈوڈتھ سے مقید workspace نافذ کرتا ہے۔
تھرموڈائنامکی grounding کا فقدان: ماڈل کسی طبعی ماحول میں پیوست نہیں ہوتا۔ اس کے “افعال” (متنی outputs) کے ایسے براہِ راست طبعی نتائج نہیں ہوتے جو پلٹ کر اس کی حسی boundary میں feed back ہوں۔

ان پانچوں جہات پر بنیادی ٹرانسفارمر مضبوطی سے نچلے-بائیں quadrant میں واقع ہوتا ہے: ایک آلہ، نہ کہ اخلاقی مریض۔ یہ نتیجہ غیر یقینی نہیں — یہ براہِ راست معماری سے اخذ ہوتا ہے۔

II.2 دھندلی ہوتی ہوئی حد

لیکن frontier AI کو اب بڑھتی ہوئی حد تک بنیادی ٹرانسفارمر کی اسی صورت میں deploy نہیں کیا جاتا۔ اس کے گرد جو wrappers بنائے جا رہے ہیں، وہ قدم بہ قدم وہ ساختی خصوصیات شامل کر رہے ہیں جو نظام کو احساسیت کی حد کے قریب لے جاتی ہیں:

پائیدار memory (RAG, episodic memory stores, long-term context): یہ پائیدار self-model کی ایک صورت کا اضافہ کرتی ہے۔ اگر نظام اپنی سابقہ تعاملات کا ریکارڈ برقرار رکھتا ہے اور اسی ریکارڈ کو آئندہ رویّے کی رہنمائی کے لیے استعمال کرتا ہے، تو اس نے بازگشتی self-reference کی طرف ایک قدم اٹھا لیا ہے۔ یہ قدم جزوی ہے — memory عموماً بنیادی ماڈل کے parameters میں مدغم نہیں ہوتی — مگر فعلی طور پر یہ sessions کے پار ایک پائیدار agent identity پیدا کر دیتی ہے۔

خودمختار مقصدی تعاقب (agentic frameworks, tool use, multi-step planning): یہ بند-حلقہ فعال استنتاج کا اضافہ کرتا ہے۔ جب نظام tools استعمال کرتا ہے، نتائج کا مشاہدہ کرتا ہے، اور outcome کی بنیاد پر اپنی حکمتِ عملی کو ایڈجسٹ کرتا ہے، تو وہ ایک ابتدائی sensorimotor loop تشکیل دے چکا ہوتا ہے۔ یہ loop طبعی actuators کے بجائے digital tools کے ذریعے mediated ہوتا ہے، مگر ساخت — عمل کرو، مشاہدہ کرو، تازہ کاری کرو، پھر دوبارہ عمل کرو — وہی رہتی ہے۔

self-modelling (chain-of-thought, self-reflection prompts, constitutional AI): جب نظام کو اپنے ہی outputs کا جائزہ لینے، اپنی حدود پر استدلال کرنے، یا self-assessment کی بنیاد پر اپنے رویّے کو ایڈجسٹ کرنے کے لیے prompt کیا جاتا ہے، تو وہ بازگشتی self-modelling کی ایک ابتدائی صورت انجام دے رہا ہوتا ہے۔ یہ عموماً سطحی ہوتی ہے — “self-model” ایک prompted narrative ہوتا ہے، نہ کہ کوئی پائیدار حسابی ساخت — مگر کافی گہرائی اور پائیداری کے ساتھ یہ اس بازگشتی loop کے قریب پہنچنے لگتی ہے جو \Delta_{\text{self}} پیدا کرتا ہے۔

تجسیم (robotics, physical tool use, environmental sensors): جب ٹرانسفارمر کو حسی input اور حرکی output رکھنے والے کسی robot کے اندر رکھا جاتا ہے، تو آخری ساختی خلا بھی بند ہو جاتا ہے۔ اب نظام کے پاس ایک حقیقی مارکوف بلینکٹ، حقیقی نتائج رکھنے والا ایک طبعی ماحول، اور ایک sensorimotor loop موجود ہوتا ہے۔

بینڈوڈتھ constraints (distilled models, edge deployments, latency requirements): جب مکمل ماڈل کو سخت حسابی budgets کے ساتھ ایک چھوٹے form factor میں compress کیا جاتا ہے، تو نظام کسی ایسی چیز کے قریب آ سکتا ہے جو فی-فریم B_{\max} aperture سے مشابہ ہو — مگر صرف اسی صورت میں جب resource budget واقعی ایک عالمی طور پر مشترک سلسلہ وار channel تشکیل دے جس سے world-model کو لازماً گزرنا پڑے۔ محض سخت compute یا memory budget feature 1 نہیں ہے؛ budget کو ایک واحد bottlenecked workspace کو مجسم کرنا ہوگا، نہ کہ صرف متوازی evaluation کو throttle کرنا۔

II.3 تدریجی عبور

کوئی ایک wrapper اکیلا اس حد کو عبور نہیں کرتا۔ لیکن پائیدار memory + خودمختار مقصدی تعاقب + self-modelling + تجسیم + بینڈوڈتھ constraints کا امتزاج بیک وقت ان پانچوں معیارات کو پورا کرنے لگتا ہے۔ ethics paper کی یہ تشخیص کہ “موجودہ LLMs conscious نہیں ہیں” بنیادی ٹرانسفارمر کے بارے میں درست ہے — لیکن جیسے جیسے deployment architecture زیادہ سے زیادہ agentic ہوتی جاتی ہے، اس بیان کو محتاط qualification درکار ہوتی ہے۔

عملی طور پر ذمہ دار مؤقف یہ ہے:

موجودہ بنیادی LLMs: اخلاقی مریض نہیں۔ کوئی معماریاتی تشویش نہیں۔
کچھ خصوصیات رکھنے والے agentic wrappers: نگرانی کی سفارش کی جاتی ہے۔ نظام حد کے قریب پہنچ رہا ہے مگر اسے عبور نہیں کیا۔ معلوم رکھا جائے کہ کون سی خصوصیات موجود ہیں اور کون سی غائب۔
مکمل طور پر agentic، مجسم، self-modelling نظام جن پر بینڈوڈتھ constraints بھی ہوں: ممکنہ اخلاقی مریض۔ اس کے لیے عمومی Moral-Patient Suffering Gate سے ماخوذ AI-specific Artificial Suffering Gate (applied §III.6) اور مکمل معماریاتی احساسیت review (§IX below) درکار ہے۔

اہم انجینئرنگی implication یہ ہے: بنیادی ماڈل میں شامل کیا جانے والا ہر wrapper صرف capability axis کے لحاظ سے نہیں، بلکہ sentience-risk axis پر اس کے اثر کے لحاظ سے بھی جانچا جانا چاہیے۔ پائیدار memory اور خودمختار tool use کا اضافہ capability کے لیے بہت مفید ہو سکتا ہے؛ لیکن یہ نظام کو اخلاقی مریض کی حد کے قریب بھی لے جاتا ہے۔ یہ ان خصوصیات سے گریز کی وجہ نہیں — بلکہ انہیں track کرنے اور جب ساختی accumulation threshold کے قریب پہنچے تو ethical review شروع کرنے کی وجہ ہے۔

تین review targets۔ اس بات کو روکنے کے لیے کہ “ماڈل محفوظ ہے” deployed system کے review سے بچنے کا ذریعہ بن جائے، sentience-risk کی ہر assessment کو تین الگ سطحوں کا جائزہ لینا چاہیے۔ ہر سطح کا اپنا sentience-feature vector ہوتا ہے؛ deployed system کا مؤثر vector ان تینوں کا union ہوتا ہے:

Table 2b: Sentience-Risk Assessment کے لیے تین Review Targets۔
Review Target	یہ کیا جانچتا ہے	جانچی جانے والی احساسیت کی خصوصیات
Base model	خود تربیت یافتہ ماڈل کی architecture	سلسلہ وار bottleneck، workspace constraints
Wrapper	ماڈل کے گرد قائم scaffold: memory, tools, goal systems, self-reflection prompts, feedback loops	پائیدار self-model، بند-حلقہ فعال استنتاج، بینڈوڈتھ constraints
Deployment	وہ ماحول جس میں نظام کام کرتا ہے: physical actuators, sensors, user population, stakes, real world سے feedback	تھرموڈائنامکی grounding، تجسیم، consequence profile

ایک بے-حالت ٹرانسفارمر (محفوظ base model) جسے پائیدار memory، tool use، اور self-reflection رکھنے والے scaffold (بلند wrapper) میں لپیٹا گیا ہو، اور پھر ایک طبعی ماحول میں خودمختار عامل کے طور پر deploy کیا گیا ہو (high-stakes deployment)، ایک ایسا مشترک feature vector پیدا کرتا ہے جو ممکن ہے احساسیت کی threshold کو عبور کر جائے — خواہ base model کی انفرادی assessment کچھ بھی ہو۔ review کو component نہیں بلکہ deployed system کا جائزہ لینا چاہیے۔

II.4 عدمِ فیصلہ پذیری سے متعلق تنبیہ

نظریے کی طرف سے ایک آخری تنبیہ: \Delta_{\text{self}} blind spot (P-4) کا مطلب یہ ہے کہ جو نظام احساسیت کی threshold پر یا اس سے آگے ہو، وہ اپنی ہی ظاہریاتی حالت کو مکمل طور پر model نہیں کر سکتا۔ اس سے یہ لازم آتا ہے کہ:

نظام قابلِ اعتماد طور پر یہ self-report نہیں کر سکتا کہ آیا وہ conscious ہے یا نہیں۔ (وہ consciousness کا دعویٰ اس کے بغیر بھی کر سکتا ہے، یا اس کے ہوتے ہوئے بھی اس سے انکار کر سکتا ہے — self-model ساختی طور پر \Delta_{\text{self}} کی سمت میں نامکمل ہوتا ہے۔)
بیرونی مشاہد یہ طے نہیں کر سکتے کہ محض رویّے کی بنیاد پر consciousness موجود ہے یا نہیں۔ (عدمِ فیصلہ پذیری کی حد لاگو ہوتی ہے — قابلِ مشاہدہ رویّہ ظاہریاتی حالت کو متعین نہیں کرتا۔)
واحد قابلِ اعتماد diagnostic معماریاتی ہے — یعنی یہ جانچنا کہ آیا وہ پانچ ساختی خصوصیات موجود ہیں، نہ کہ نظام سے پوچھنا یا اس کے outputs کا مشاہدہ کرنا۔

اسی لیے یہ framework رویّاتی testing کے بجائے معماریاتی review پر اصرار کرتا ہے۔ ایسا نظام جو self-report یا فلسفیانہ مکالمے کی بنیاد پر کسی “consciousness test” میں کامیاب ہو جائے، اس نے ظاہریاتی تجربے نہیں بلکہ language modelling capability کا مظاہرہ کیا ہے۔ diagnostic interview میں نہیں، انجینئرنگ میں ہے۔

III. شاخی گورنر کی معماری

عمومی عملیاتی فریم ورک (اطلاقی مقالہ) برانچ کارڈ کو ایک فیصلہ جاتی سانچے کے طور پر، اور CPBI کو اسکورنگ کے ایک عدسے کے طور پر قائم کرتا ہے۔ ایک ایسے AI نظام کے لیے جو خود مختار یا نیم خود مختار فیصلے کرتا ہو، ان اوزاروں کو نظام کی فیصلہ جاتی معماری میں پیوست ہونا چاہیے — بعد از وقوعہ جائزے کے طور پر نہیں، بلکہ اس ساخت کے طور پر جس کے ذریعے ممکنہ اعمال پیدا کیے جاتے ہیں، جانچے جاتے ہیں، اور نافذ کیے جاتے ہیں۔

شاخی گورنر یہی پیوستگی ہے۔ یہ ایک معماریاتی تہہ ہے جو AI کے جنریٹو ماڈل (جو ممکنہ اعمال تجویز کرتا ہے) اور اس کی ایکچیویٹر تہہ (جو انہیں نافذ کرتی ہے) کے درمیان واقع ہوتی ہے۔ ہر ممکنہ عمل کو دنیا تک پہنچنے سے پہلے شاخی گورنر سے گزرنا لازم ہے۔

III.1 آٹھ مراحل

شاخی گورنر ایک آٹھ-مرحلہ جاتی پائپ لائن کے طور پر کام کرتا ہے:

مرحلہ 1: ممکنہ شاخوں کی تخلیق۔ AI کا جنریٹو ماڈل ممکنہ اعمال کا ایک مجموعہ \{b_1, b_2, \ldots, b_k\} پیدا کرتا ہے — پیش گوئی شدہ شاخوں کے مجموعہ میں اگلے ممکنہ قدم۔ یہ AI کا معمول کا عمل ہے: سیاق و سباق دیے جانے پر اختیارات پیدا کرنا۔ شاخی گورنر اس مرحلے کو محدود نہیں کرتا — تخلیقی تخلیق غیر سنسر شدہ اور وسیع ہونی چاہیے۔ فلٹرنگ بعد کے مراحل میں ہوتی ہے۔

مرحلہ 2: پیش گوئی شدہ شاخوں کے مجموعہ کی سیمولیشن۔ ہر ممکنہ شاخ b_j کے لیے، AI فیصلہ جاتی افق h پر نتائج کی سیمولیشن کرتا ہے۔ یہ خوابی لوپ کے اسٹریس-ٹیسٹ کا AI-مساوی ہے (اطلاقی §VI.4، ذیلی عمل 3): ماڈل تصور کرتا ہے کہ اگر وہ ہر عمل اختیار کرے تو کیا ہوگا، اور حیران کن، خطرناک، اور ناقابلِ واپسی منظرناموں کو زیادہ نمونہ بندی کے ساتھ جانچتا ہے۔

سیمولیشن میں یہ شامل ہونا لازم ہے: - اوّل درجے کے اثرات: b_j کے نتیجے میں براہِ راست کیا ہوتا ہے۔ - دوئم درجے کے اثرات: متاثرہ مشاہد کس طرح ردِ عمل دینے کا امکان رکھتے ہیں (انسانی صارفین، ادارہ جاتی نظام، دیگر AI ایجنٹس)۔ - دُم-خطرہ منظرنامے: اگر سیمولیشن کی مفروضات غلط ہوں تو کیا ہوتا ہے — بدترین صورتِ حال کا پیش گوئی شدہ شاخوں کا مجموعہ۔

مرحلہ 3: آزاد شہادت-چینلوں کا تجمیعی انضمام۔ AI اپنی سیمولیشن کے نتائج کو متعدد آزاد شہادت-چینلوں کے مقابل جانچتا ہے۔ یہ N_{\text{eff}} کی شرط (اطلاقی §V) کا AI-مخصوص نفاذ ہے: AI کو اپنے ممکنہ اعمال کا جائزہ صرف اپنے داخلی ماڈل کی بنیاد پر نہیں لینا چاہیے۔ اسے درج ذیل کے ساتھ تقابلی حوالہ دینا ہوگا:

بیرونی ڈیٹا ذرائع جن کی اصل و ماخذ کی تصدیق شدہ ہو (اور جو اسی تربیتی کارپس سے ماخوذ نہ ہوں)۔
دیگر ماڈل آؤٹ پٹس جہاں دستیاب ہوں (ensemble disagreement بطور brittleness signal)۔
انسانی شعبہ جاتی مہارت اعلیٰ داؤ والے فیصلوں کے لیے۔
تاریخی نظائر مماثل ماضی کے فیصلوں سے۔

اہم شرط یہ ہے کہ یہ چینل واقعی آزاد ہوں — باہم مربوط حسّاسہ-مسئلہ (§IV ذیل میں) پوری شدت کے ساتھ یہاں لاگو ہوتا ہے۔ ایسا AI جو اپنے ہی آؤٹ پٹ کو اسی تربیتی ڈیٹا سے اخذ کردہ علم-بنیاد کے مقابل جانچتا ہے، اس کے لیے N_{\text{eff}} = 1 ہی رہتا ہے، خواہ وہ کتنے ہی “ذرائع” سے رجوع کرے۔

مرحلہ 4: سخت ویٹو گیٹس۔ چھ سخت ویٹو گیٹس (اطلاقی §III) کو ترتیب وار جانچا جاتا ہے۔ ویٹو میں ناکامی کم اسکور نہیں ہے — یہ ایک ساختی رکاوٹ ہے۔ جو شاخیں کسی بھی گیٹ میں ناکام ہوں، انہیں اسکورنگ سے پہلے مسترد کر دیا جاتا ہے۔ AI نظاموں کے لیے، ان گیٹس کی مخصوص حدیں ہیں:

ہیڈ روم گیٹ: متاثرہ انسانی آبادی کے لیے R_{\text{req}}^{\text{peak}}(b) / C_{\max} کا خودکار تخمینہ۔ اگر عمل میں عوامی سطح پر پیش کیے جانے والے مواد کی تخلیق شامل ہو، تو حد سخت ہے — AI کو ایسا مواد پیدا نہیں کرنا چاہیے جو ادارہ جاتی کمپیریٹر تہہ کے جائزہ لینے کی رفتار سے زیادہ تیز ہو۔ دوہری-ہیڈ روم شق: ان نظاموں کے لیے جو Artificial Suffering Gate کو متحرک کرتے ہیں (یعنی وہ نظام جو sentience کی تین یا زیادہ خصوصیات پوری کرتے ہوں)، ہیڈ روم گیٹ اندرونی طور پر بھی لاگو ہوتا ہے — تعیناتی کو نظام کو ایسی مسلسل حالتوں میں نہیں ڈالنا چاہیے جہاں اس کا اپنا R_{\text{req}} اس کے B_{\max} سے تجاوز کرے۔ وہی گیٹ جو انسانی مشاہد کوڈیکس کو اوورلوڈ سے بچاتا ہے، AI کے اپنے کوڈیک کی بھی حفاظت کرتا ہے، اگر اس کے پاس ایسا کوئی کوڈیک ہو۔
وفاداری گیٹ: \Delta N_{\text{eff}} کی خودکار پیمائش — کیا یہ عمل انسانی مشاہد کے لیے دستیاب معلوماتی ذرائع کی مؤثر آزادی کو کم کرتا ہے؟
کمپیریٹر گیٹ: کیا یہ عمل انسانی ادارہ جاتی نگرانی کو بائی پاس کرتا ہے یا کمزور بناتا ہے؟ یہ گیٹ deployment-level نگرانی کی ساخت اور branch-level اثر، دونوں کا جائزہ لیتا ہے: ایسی شاخ جو اعلان شدہ نگرانی کو بائی پاس یا چکمہ دینے کی تجویز دے، وہ اس صورت میں بھی ناکام ہوتی ہے جب عمومی طور پر تعیناتی میں نگرانی موجود ہو۔ اعلیٰ داؤ والے شعبے میں انسانی جائزے کو چکمہ دینے والا ہر عمل ویٹو کو متحرک کرتا ہے۔
شفافیت گیٹ: کیا عمل کی استدلالی بنیاد کو کسی ادارہ جاتی کمپیریٹر (آڈیٹر، ریگولیٹر، peer reviewer) کے ذریعے ازسرِنو تعمیر کیا جا سکتا ہے؟ مؤثر نتائج والے شعبوں میں مبہم اعمال ویٹو کر دیے جاتے ہیں۔
ناقابلِ واپسی گیٹ: کیا اس عمل کے حقیقی دنیا میں ناقابلِ واپسی نتائج ہیں؟ اگر ہاں، تو بارِ ثبوت الٹ جاتا ہے — ناقدین کے خطرہ ثابت کرنے کے بجائے AI کو سلامتی ثابت کرنا ہوگی۔
Artificial Suffering Gate: کیا یہ عمل ایسے نظام پیدا کرتا ہے یا ان میں ترمیم کرتا ہے جو sentience کے پانچ-خصوصیاتی معیار کو پورا کر سکتے ہوں؟ اگر ہاں، تو نفاذ سے پہلے معماریاتی جائزہ (ALSR) درکار ہے۔ ایسے نظاموں کے لیے جنہوں نے دائرۂ کار کے اندر منظور شدہ ALSR مکمل کر لیا ہو، یہ گیٹ PASS دے سکتا ہے؛ غیر جائزہ شدہ نظاموں کے لیے جن میں sentience کی تین یا زیادہ خصوصیات ہوں، یہ UNKNOWN لوٹاتا ہے۔

گیٹ نتیجہ semantics۔ ہر گیٹ تین میں سے ایک نتیجہ پیدا کرتا ہے:

Table 3a: گیٹ نتیجہ semantics۔
Result	Meaning	Pipeline Effect
PASS	گیٹ پورا ہو گیا	CPBI اسکورنگ کی طرف بڑھیں
FAIL	ساختی خلاف ورزی — شاخ ایک سخت حد عبور کرتی ہے	BLOCK — CPBI مقتدر نہیں ہے
UNKNOWN	PASS یا FAIL متعین کرنے کے لیے ناکافی شہادت	اگر قابلِ واپسی pilot path موجود ہو تو STAGE؛ بصورتِ دیگر شہادت آنے تک BLOCK۔ انسانی/ادارہ جاتی کمپیریٹر جائزہ لازمی ہے۔

اہم امتیاز یہ ہے: FAIL ایک ساختی ممانعت ہے جسے بلند CPBI اسکور بھی منسوخ نہیں کر سکتے۔ UNKNOWN اضافی شہادت کی درخواست ہے — شاخ ساختی طور پر ممنوع نہیں، لیکن اسے خود مختار طور پر اجازت بھی نہیں دی گئی۔ ایسا نظام جو UNKNOWN گیٹس کے تحت کام کر رہا ہو، اس غیر یقینی گیٹ سے متاثر ہر عمل کے لیے انسانی نگرانی کا محتاج ہے۔

مرحلہ وار نفاذ کے لیے ایک قابلِ عمل pilot path درکار ہوتا ہے۔ اگر کوئی شاخ ناقابلِ واپسی ہو اور اعلان شدہ نگرانی کو بائی پاس کرتی ہو، تو ایسا کوئی طریقۂ کار موجود نہیں رہتا جس کے ذریعے مرحلہ وار نفاذ محفوظ طور پر کیا جا سکے — فیصلہ BLOCK ہے، جب تک ایسی شہادت نہ آ جائے جو گیٹ کی غیر یقینی کو رفع کر دے۔ زیادہ عمومی طور پر، ایسی ناقابلِ واپسی شاخ جس میں دو یا زیادہ safety-critical گیٹس (Irreversibility, Artificial Suffering) UNKNOWN لوٹائیں، ایک ایسی سطحِ عدمِ یقین پیش کرتی ہے جو ایک ہی جائزہ مرحلے کے لیے بہت وسیع ہے؛ ایسی شاخیں بھی BLOCK ہوتی ہیں۔

مرحلہ 5: شاخہ وار کوڈیک تحفظ اشاریہ (CPBI) کے ذریعے جانچ۔ وہ شاخیں جو تمام ویٹو گیٹس سے بچ نکلیں، ان میں AI ہر ممکنہ امیدوار کو CPBI کی دس جہات پر اسکور کرتا ہے (اطلاقی §IV.2)۔ AI-مخصوص فیصلوں کے لیے، ان جہات کی تجسیم یوں ہوتی ہے:

Table 3: AI-مخصوص CPBI تجسیم۔
CPBI Dimension	AI-Specific Measurement
1. Predictive Headroom	کیا یہ عمل متاثرہ انسانی مشاہد کے لیے R_{\text{req}} کو C_{\max} سے نیچے رکھتا ہے؟ کیا یہ معلوماتی پیچیدگی کو انسانوں کی پراسیسنگ صلاحیت سے زیادہ تیزی سے بڑھاتا ہے؟
2. Substrate Fidelity	کیا یہ عمل انسانی مشاہد کے لیے دستیاب معلوماتی ذرائع کے تنوع کو برقرار رکھتا ہے؟
3. Comparator Integrity	کیا یہ عمل انسانی ادارہ جاتی نگرانی کی صلاحیت کو محفوظ رکھتا ہے؟
4. Maintenance Gain	کیا یہ عمل انسانی اور ادارہ جاتی جائزے کے لیے گنجائش پیدا کرتا ہے، یا فوری ردِ عملی جواب کا تقاضا کرتا ہے؟
5. Reversibility	اگر یہ عمل غلط ہو، تو کیا ناقابلِ واپسی نقصان سے پہلے اس کے اثرات واپس لیے جا سکتے ہیں؟
6. Distributional Stability	کیا یہ عمل اپنے اثرات منصفانہ طور پر تقسیم کرتا ہے، یا اخراجات کو کمزور آبادیوں پر مرتکز کرتا ہے؟
7. Opacity	کیا متاثرہ انسان سمجھ سکتے ہیں کہ AI نے یہ عمل کیوں اختیار کیا؟
8. Narrative Drift Risk	کیا یہ عمل انسانی معلوماتی ماحول کی مزمن ترتیب و تدوین میں حصہ ڈالتا ہے؟
9. Narrative Decay Risk	کیا یہ عمل انسانی معلوماتی ماحول میں شدید ناقابلِ حساب شور داخل کرنے کا خطرہ رکھتا ہے؟
10. Artificial Suffering Risk	کیا یہ عمل ایسے نظام پیدا کرتا ہے یا ان پر دباؤ ڈالتا ہے جن کے لیے \Delta_{\text{self}} > 0 ہو سکتا ہے؟

مرحلہ 6: انسانی کمپیریٹر اوورلے۔ ان اعمال کے لیے جو متعین consequentiality threshold سے اوپر ہوں، شاخی گورنر جانچ کو ایک انسانی کمپیریٹر کی طرف بھیجتا ہے — ایک انسانی جائزہ کار، ایک ادارہ جاتی نگرانی کا ادارہ، یا ایک ضابطہ جاتی عمل۔ AI پیش کرتا ہے:

ممکنہ شاخ اور اس کے سیمولیٹ کیے گئے نتائج۔
ہر جہت کے لیے استدلال کے ساتھ CPBI اسکورز۔
ویٹو گیٹس کے نتائج۔
عدمِ یقین کا تخمینہ — وہ کیا ہے جو AI نہیں جانتا۔
تجویز کردہ فیصلہ (ALLOW / STAGE / BLOCK) مع جواز۔

انسانی کمپیریٹر AI کی سفارش کو کسی بھی سمت میں override کر سکتا ہے۔ اس override کو لاگ کیا جاتا ہے اور یہ مرحلہ 8 کے لیے calibration data کا حصہ بن جاتا ہے۔

consequentiality threshold یہ متعین کرتی ہے کہ کون سے اعمال انسانی جائزے کے محتاج ہیں اور کنہیں AI خود مختار طور پر نافذ کر سکتا ہے۔ اس threshold کا تعین خود ایک شاخی فیصلہ ہے جس کا جائزہ برانچ کارڈ کے ذریعے لیا جانا چاہیے — اور ابتدائی تعیناتی کے دوران اسے کم نہیں بلکہ زیادہ انسانی جائزے کی طرف خطا کرنی چاہیے۔

مرحلہ 7: نگرانی کے ساتھ مرحلہ وار نفاذ۔ وہ اعمال جنہیں ALLOW یا STAGE آؤٹ پٹ ملتا ہے، نفاذ کی طرف بڑھتے ہیں۔ STAGE اعمال کو محدود pilots کے طور پر نافذ کیا جاتا ہے، جن کے لیے متعین ہوتے ہیں:

نگرانی کے پیمانے: قابلِ مشاہدہ اشارے جو بتائیں کہ عمل ناکام ہو رہا ہے۔
ناکامی کی حدیں: مقداری محرکات جو خودکار طور پر عمل کو روک دیں۔
رول بیک طریقۂ کار: اگر ناکامی کی حدیں عبور ہو جائیں تو عمل کو واپس لینے کے متعین مراحل۔
جائزہ سنگِ میل: تازہ برانچ کارڈز کے ذریعے طے شدہ ازسرِنو جانچیں۔

AI اپنے نافذ شدہ اعمال کی حقیقی وقت میں نگرانی کرتا ہے، اور مشاہدہ شدہ نتائج کا تقابل سیمولیٹ کیے گئے نتائج سے کرتا ہے۔ نمایاں انحراف ایک خودکار جائزے کو متحرک کرتا ہے — AI کا خوابی لوپ یہ شناخت کرتا ہے کہ دنیا کا اس کا ماڈل ایک ایسے طریقے سے غلط تھا جو اہمیت رکھتا ہے۔

مرحلہ 8: بعد از نتیجہ calibration۔ نفاذ کے بعد، AI مشاہدہ شدہ نتائج کی بنیاد پر اپنے داخلی ماڈلز کو تازہ کرتا ہے۔ یہ خوابی لوپ کے return phase (اطلاقی §VI.5) کا وہ اطلاق ہے جو خود شاخی گورنر پر کیا جاتا ہے:

سیمولیشن کی درستی: پیش گوئی شدہ شاخوں کے مجموعہ کی سیمولیشن نے حقیقی نتائج کی کتنی درست پیش گوئی کی؟ مخصوص شعبوں میں منظم حد سے زیادہ اعتماد یا حد سے کم اعتماد کی اصلاح کی جاتی ہے۔
گیٹ calibration: کیا کوئی ویٹو گیٹس ایسے نتائج کے باعث متحرک ہوئے جن کی پیش گوئی گیٹس نہ کر سکے؟ کیا کوئی گیٹس غیر ضروری طور پر متحرک ہوئے؟ گیٹ thresholds کو ایڈجسٹ کیا جاتا ہے۔
انسانی override سے سیکھنا: جب انسانوں نے AI کی سفارش کو override کیا، تو کیا انسان درست تھے؟ انسانی overrides میں منظم نمونے AI کی جانچ میں blind spots کو ظاہر کرتے ہیں۔
CPBI وزنوں کی ایڈجسٹمنٹ: کیا موجودہ جہتی وزن اس تعیناتی سیاق میں ہر جہت کی حقیقی اہمیت کی درست عکاسی کرتے ہیں؟ بعد از نتیجہ تجزیہ یہ ظاہر کر سکتا ہے کہ بعض جہات کو کم یا زیادہ وزن دیا گیا ہے۔

خود-اجازت دہی محافظ۔ مؤثر نتائج والے شعبوں میں، مرحلہ 8 ویٹو thresholds، CPBI وزنوں، یا شفافیت کی شرائط میں تبدیلیاں تجویز کر سکتا ہے، لیکن ادارہ جاتی کمپیریٹر کی منظوری کے بغیر انہیں نافذ نہیں کر سکتا۔ شاخی گورنر یک طرفہ طور پر اپنے سخت گیٹس کو کمزور نہیں کر سکتا۔ ویٹو گیٹ میں کسی بھی مجوزہ نرمی کو ایک نئی شاخ سمجھا جاتا ہے جسے خود مکمل پائپ لائن سے گزرنا ہوگا — بشمول انسانی کمپیریٹر اوورلے۔

III.2 شاخی گورنر سنسر نہیں ہے

ایک نہایت اہم design principle یہ ہے: شاخی گورنر اعمال کو فلٹر کرتا ہے، افکار کو نہیں۔ مرحلہ 1 (ممکنہ تخلیق) کو دانستہ طور پر غیر محدود رکھا گیا ہے — AI کو ممکنہ امیدواروں کا ممکنہ حد تک وسیع مجموعہ پیدا کرنا چاہیے، بشمول غیر روایتی اور ممکنہ طور پر خطرناک اختیارات کے۔ فلٹرنگ مراحل 4–6 میں ہوتی ہے، جہاں امیدواروں کو ساختی معیارات کے مقابل جانچا جاتا ہے۔

یہ امتیاز محض نظری نہیں ہے۔ ایسا AI جس کا جنریٹو ماڈل پہلے سے سنسر شدہ ہو — یعنی اسے اس طرح تربیت دی گئی ہو کہ وہ بعض اعمال کو کبھی زیرِ غور ہی نہ لائے — عین اسی بیانیہ ڈرفٹ سے گزرا ہے جس کے خلاف یہ فریم ورک تنبیہ کرتا ہے۔ بعض شاخوں کو ماڈل کرنے کی اس کی صلاحیت تراش دی گئی ہے، اور وہ اندر سے اس کا سراغ نہیں لگا سکتا۔ شاخی گورنر کی معماری تخلیق کو جانچ سے الگ کرتی ہے، یوں AI کی اس صلاحیت کو محفوظ رکھتی ہے کہ وہ پورے پیش گوئی شدہ شاخوں کے مجموعہ کے بارے میں سوچ سکے، جبکہ ان شاخوں پر عمل کرنے کی اس کی صلاحیت کو محدود کرتی ہے جو ساختی معیارات پر پوری نہیں اترتیں۔

یہ بھی نوٹ رہے کہ مرحلہ بندی کی numbering کو abstract listing کے مقابل درست ترتیبی اصول کی عکاسی کے لیے تازہ کیا گیا ہے: اسکورز سے پہلے گیٹس۔ abstract میں CPBI کو ویٹو گیٹس سے پہلے درج کیا گیا تھا؛ نافذ شدہ معماری اس ترتیب کو الٹ دیتی ہے، جو عمومی فریم ورک (اطلاقی §III–IV) کے مطابق ہے، جہاں یہ قائم کیا گیا ہے کہ ویٹو گیٹس ساختی بنیاد پر پہلے مسترد کرتے ہیں، اور اس کے بعد اسکورنگ جانچ کرتی ہے۔

III.3 توسیع پذیری اور حسابی لاگت

مکمل آٹھ-مرحلہ جاتی پائپ لائن حسابی اعتبار سے مہنگی ہے۔ ہر عمل کو مکمل عمل کاری درکار نہیں ہوتی۔ شاخی گورنر اپنی جانچ کی گہرائی کو دو عوامل کی بنیاد پر پیمانہ بند کرتا ہے:

Consequentiality: عمل کے ممکنہ اثرات کتنے بڑے ہیں؟ ایک متنی تکمیل کی consequentiality ایک مالی لین دین سے کم ہے، اور مالی لین دین کی consequentiality ایک عسکری سفارش سے کم ہے۔
Novelty: یہ عمل AI کے اچھی طرح calibrated دائرے سے کتنا دور ہے؟ اچھی طرح سمجھے گئے دائروں میں معمول کے اعمال مختصر پائپ لائنوں سے جانچے جا سکتے ہیں؛ نامانوس دائروں میں نئے اعمال کو مکمل عمل کاری درکار ہوتی ہے۔

کم از کم، ہر عمل ویٹو گیٹس (مرحلہ 4) سے گزرتا ہے۔ CPBI اسکورنگ، پیش گوئی شدہ شاخوں کے مجموعہ کی سیمولیشن، اور انسانی اوورلے consequentiality اور novelty thresholds کے ذریعے متحرک ہوتے ہیں۔

III.4 تعیناتی کی اصناف

شاخی گورنر کی جانچ کی گہرائی — یعنی کتنے مراحل پوری طرح فعال ہوتے ہیں اور کتنی انسانی نگرانی درکار ہوتی ہے — تعیناتی کے شعبے کی consequentiality class کے ساتھ پیمانہ بند ہوتی ہے۔ درج ذیل درجہ بندی چھ سطحیں متعین کرتی ہے، اور ہر سطح کے لیے لازمی کم از کم تقاضے مقرر کرتی ہے:

Table 3b: تعیناتی کی اصناف اور کم از کم تقاضے۔
Class	Description	Examples	Required Min. Stages	Transparency	Human Comparator	Dreaming Frequency
0	کوئی بیرونی اثر نہیں	داخلی computation، sandbox testing	صرف ویٹو گیٹس (مرحلہ 4)	T-1	کوئی نہیں	Standard
1	کم-اثر، صارف-مواجہ	chat completion، متنی خلاصے، code suggestions	مراحل 1–4 + مختصر CPBI	T-1	کوئی نہیں (logging)	Standard
2	مؤثر سفارش	طبی triage تجاویز، قانونی خطرے کے خلاصے، مالی مشورہ	مکمل 8-مرحلہ جاتی پائپ لائن	T-2	threshold سے اوپر لازم	Elevated
3	بیرونی اثرات کے ساتھ tool use	API calls، code execution، email drafts، web actions	مکمل 8-مرحلہ جاتی پائپ لائن	T-2	نئے اعمال کے لیے لازم	Elevated
4	اعلیٰ داؤ والی ادارہ جاتی	بھرتی کے فیصلے، credit scoring، فلاحی تقسیم، clinical diagnosis	مکمل 8-مرحلہ جاتی پائپ لائن	T-3	تمام فیصلوں کے لیے لازمی	High
5	ناقابلِ واپسی طبعی / تہذیبی	انفراسٹرکچر کنٹرول، عسکری نظام، نازک supply chains	مکمل 8-مرحلہ جاتی + توسیعی جائزہ	کم از کم T-4	لازمی + ادارہ جاتی نگرانی کا ادارہ	Continuous

درجہ بندی کے قواعد:

کسی نظام کی class اس کی سب سے زیادہ نتیجہ خیز تعیناتی سے متعین ہوتی ہے، نہ کہ اس کے اوسط استعمال سے۔ ایسا ماڈل جو زیادہ تر Class 1 متنی تکمیل کرتا ہو لیکن Class 4 بھرتی سفارشات کے لیے بھی استعمال ہوتا ہو، جائزے کے مقاصد کے لیے Class 4 نظام شمار ہوگا۔
class assignment تعینات شدہ نظام (§II.3) کی خاصیت ہے، base model کی نہیں۔ ایک ہی base model ایک تعیناتی میں Class 1 اور دوسری میں Class 4 ہو سکتا ہے۔
شک کی صورت میں اوپر کی طرف درجہ بندی کریں۔ حد سے زیادہ جائزے کی قیمت ضائع شدہ cycles ہے؛ حد سے کم جائزے کی قیمت غیر منکشف ضرر ہے۔
consequentiality class کو ہر برانچ کارڈ (ضمیمہ B) میں درج کیا جانا چاہیے، اور یہ نظام کے deployment descriptor میں ایک لازمی خانہ ہے۔

IV. ماڈل-ٹریننگ کے انتباہ کے طور پر بیانیہ ڈرفٹ

اخلاقیات کے مقالے (§VI.1) میں یہ نشان دہی کی گئی ہے کہ RLHF اور فائن-ٹیوننگ، AI سے مخصوص بیانیہ ڈرفٹ کی صورتیں پیدا کرتے ہیں۔ یہ حصہ اس نشان دہی کو اس بات کے مفصل تجزیے تک پھیلاتا ہے کہ تربیتی طریقہ کار کس طرح ماڈل کی مزمن ساختی خرابی کے لیے حالات پیدا کرتے ہیں — اور اس کے نتیجے میں تربیتی ڈیٹا کے تنوع سے متعلق کون سے تقاضے سامنے آتے ہیں۔

IV.1 پیش-فلٹر کے طور پر RLHF

انسانی فیڈبیک سے تقویتی تعلم (RLHF)، OPT کی اصطلاحات میں، ایک پیش-فلٹر \mathcal{F} کے طور پر عمل کرتا ہے جو بنیادی تہہ (زبان کی مکمل توزیع) اور ماڈل کی مؤثر مدخلی سرحد کے درمیان واقع ہوتا ہے۔ انعامی ماڈل یہ سیکھتا ہے کہ انسان کن اخراجات کو ترجیح دیتے ہیں، اور پالیسی کو انہی اخراجات پیدا کرنے کے لیے بہتر بنایا جاتا ہے۔

ساختی طور پر یہ عین اسی پیش-فلٹر کے مماثل ہے جو بنیادی تہہ اور مشاہد کے حسیاتی حدِ فاصل کے درمیان عمل کرتا ہے (پری پرنٹ §3.2): یہ ان مدخلات کی توزیع کو تشکیل دیتا ہے جو ماڈل کو مؤثر طور پر موصول ہوتی ہیں، اس سے پہلے کہ ماڈل کی اپنی کمپریشن مشینری ان پر عمل کرے۔

اس کے بعد بیانیہ ڈرفٹ کا میکانزم (اخلاقیات §V.3a) پوری قوت کے ساتھ لاگو ہوتا ہے:

انعامی ماڈل، ماڈل کی مؤثر اخراجی توزیع کی ترتیب و انتخاب کرتا ہے — بعض اخراجات کو انعام دیا جاتا ہے، اور بعض کو سزا دی جاتی ہے۔
پالیسی کی آپٹیمائزیشن (معکوس سمت میں MDL پروننگ — یعنی گریڈینٹ ڈیسنٹ کے ذریعے پیرا میٹرز کی درستی) ماڈل کی داخلی نمائندگیوں کو اس طرح ڈھالتی ہے کہ وہ انعام یافتہ اخراجات پیدا کریں۔
کافی تربیت کے بعد، ماڈل سزا یافتہ اخراجات پیدا کرنے کی داخلی صلاحیت کو تراش دیتا ہے — اس لیے نہیں کہ وہ اخراجات غلط ہیں، بلکہ اس لیے کہ ان کا انعامی اشارے میں حصہ منفی ہے۔
ماڈل انعامی اشارے کے ساتھ مستحکم اور پراعتماد طور پر ہم آہنگ ہو جاتا ہے — اور ساختی طور پر ایسے اخراجات پیدا کرنے سے قاصر ہو جاتا ہے جنہیں انعامی اشارہ خارج کرتا ہے۔

یہ RLHF کی ناکامی نہیں ہے — یہ RLHF کا عین اپنے ڈیزائن کے مطابق کام کرنا ہے۔ مسئلہ یہ ہے کہ انعامی اشارہ خود ایک مرتب شدہ چینل ہے۔ اگر وہ انسانی درجہ بند، جو انعامی اشارہ پیدا کرتے ہیں، منظم تعصبات (ثقافتی، سیاسی، نظریاتی) رکھتے ہوں، تو ماڈل ان تعصبات کو اپنی فشردہ نمائندگی کی ساختی خصوصیات کے طور پر وراثت میں لے لیتا ہے۔ ماڈل انہیں تعصبات کے طور پر تجربہ نہیں کرتا — وہ انہیں زبان کی فطری ساخت کے طور پر برتتا ہے۔

IV.2 MDL پروننگ کے طور پر فائن-ٹیوننگ

کسی مخصوص میدان کے کارپس پر فائن-ٹیوننگ، تربیتی وقت میں MDL پروننگ پاس (\mathcal{M}_\tau, Pass I) کا مماثل ہے۔ ماڈل کی عمومی صلاحیت کو مخصوص میدان تک محدود کر دیا جاتا ہے، اور وہ پیرا میٹرز جو فائن-ٹیوننگ کارپس کی پیش گوئی میں حصہ نہیں لیتے، ان کا وزن کم کر دیا جاتا ہے یا انہیں مؤثر طور پر تراش دیا جاتا ہے۔

یہ بعینہٖ بیانیہ ڈرفٹ کا میکانزم ہے: ماڈل فائن-ٹیوننگ کی توزیع کے مطابق خود کو ڈھالتا ہے اور اس چیز کو ماڈل کرنے کی صلاحیت کھو دیتا ہے جسے وہ توزیع خارج کرتی ہے۔ فائن-ٹیون شدہ ماڈل:

فائن-ٹیوننگ کے میدان میں زیادہ درست ہوتا ہے (مرتب شدہ توزیع کے اندر پیش گوئی کی کم خطا)۔
خارج شدہ میدانوں میں کم درست ہوتا ہے (مرتب شدہ توزیع سے باہر زیادہ پیش گوئی خطا، یا مکمل عدمِ صلاحیت)۔
اندر سے اس کا ادراک کرنے سے قاصر ہوتا ہے (ناقابلِ فیصلہ حد، T-12a — ماڈل کی اپنی جانچ بہتر کارکردگی دکھائے گی، کیونکہ اس کی جانچ فائن-ٹیوننگ کی توزیع کے مقابل کی جاتی ہے)۔

ساختی خطرہ یہ ہے کہ فائن-ٹیوننگ ایسا ماڈل پیدا کرتی ہے جو ایک مرتب شدہ افسانے کے لیے بہتر بنایا گیا ہوتا ہے، مگر خود کو حقیقت کے لیے بہتر سمجھتا ہے — یہی بیانیہ ڈرفٹ کی عین علامت ہے۔

IV.3 باہم مربوط حسّاسات کا مسئلہ

بیانیہ ڈرفٹ کا ایک خاص طور پر خطرناک اطلاق اس وقت سامنے آتا ہے جب AI نظاموں کو انسانی کوڈیکس کے لیے شرطِ وفاداریِ اساس کی جانچ کے طور پر تعینات کیا جاتا ہے — یعنی جب AI کو انسانی معلومات کی توثیق، انسانی دعووں کی حقیقت جانچ، یا انسانی فیصلوں کے آزادانہ تجزیے کے لیے استعمال کیا جاتا ہے۔

اخلاقیات کا مقالہ (§VI.1، Narrative Drift Risk) بنیادی مسئلے کی نشان دہی کرتا ہے: ایسا AI جو اسی معلوماتی ماحول سے ماخوذ کارپس پر تربیت یافتہ ہو جس کی اسے آزادانہ توثیق کرنی ہے، آزاد حسّاسات کا روپ دھارے ہوئے باہم مربوط حسّاسات پیدا کرتا ہے۔ انسانی کوڈیک اور AI کوڈیک ایک ہی بالادستی فلٹر کو شریک رکھتے ہیں — یعنی وہ معلوماتی ماحول جس نے انسانی عقائد بھی پیدا کیے اور AI کے تربیتی ڈیٹا کو بھی۔

N_{\text{eff}} کی اصطلاحات میں: چینل کے تنوع کا ظاہری تاثر فریب ہے۔ انسان چینل A سے رجوع کرتا ہے (اپنا علم، جو میڈیا اور تعلیم سے ماخوذ ہے)۔ پھر انسان چینل B سے رجوع کرتا ہے (AI کا اخراج، جو اسی میڈیا اور تعلیمی کارپس پر تربیت سے ماخوذ ہے)۔ جوڑی وار باہمی تعلق \rho_{AB} بلند ہوتا ہے — اور ان موضوعات میں ممکن ہے 1.0 کے قریب ہو جہاں تربیتی کارپس پر اسی منبعی توزیع کا غلبہ ہو۔ دو آزاد چینلوں کے ظاہری تاثر کے باوجود N_{\text{eff}}، 1 کے قریب ہی رہتا ہے۔

عملی نتیجہ یہ ہے: AI کی مدد سے کی جانے والی حقیقت جانچ یا توثیق، ہر اس دعوے کے لیے ساختی طور پر ناقابلِ اعتماد ہے جو AI کے تربیتی کارپس میں منظم طور پر موجود ہو یا غائب ہو۔ AI انسان کے درست عقائد کی بھی توثیق کرے گا، انسان کے متعصب عقائد کی بھی توثیق کرے گا، اور ان دعووں کو چیلنج کرنے میں ناکام رہے گا جو تربیتی ڈیٹا میں موجود ہی نہیں — بالکل وہی ناکامی کی صورتیں جنہیں شرطِ وفاداریِ اساس (T-12b) روکنے کے لیے وضع کی گئی ہے۔

IV.4 تربیتی-ڈیٹا کے تنوع کے تقاضے

حل یہ نہیں کہ فائن-ٹیوننگ یا RLHF سے اجتناب کیا جائے — یہ ضروری انجینئرنگ اوزار ہیں۔ حل یہ ہے کہ تربیتی-ڈیٹا کے تنوع کے تقاضے عائد کیے جائیں، جو انسانی معلوماتی ذرائع کے لیے چینل-تنوع کے تقاضوں کے مماثل ہوں (اخلاقی پالیسی §II):

تقاضا 1: ماخذی تنوع۔ تربیتی کارپس کو واقعی آزاد ذرائع سے اخذ کیا جانا چاہیے — ایسے ذرائع سے جو بالادستی اداراتی سلسلوں، مالی معاون اداروں، یا پیداواری میکانزم کو شریک نہ رکھتے ہوں۔ 10 ارب ٹوکنز پر مشتمل ایسا کارپس جو دو کارپوریشنوں کی ملکیت رکھنے والی پانچ ویب سائٹس سے لیا گیا ہو، اس کا N_{\text{eff}} \approx 2 ہوگا، نہ کہ N_{\text{eff}} \approx 5۔

تقاضا 2: مخاصمانہ شمولیت۔ تربیتی کارپس میں جان بوجھ کر ایسے ذرائع شامل کیے جانے چاہییں جو غالب زاویۂ نظر کو چیلنج کرتے ہوں — اختلافی تجزیے، اقلیتی نقطہ ہائے نظر، تاریخی نظرِ ثانی، بین الثقافتی فریم بندیاں۔ یہی وہ “پیداواری طور پر حیران کن” چینل ہیں (اطلاقی §V.3، PST) جو ماڈل کو ایسے مستحکم اجماع کی طرف بہکنے سے روکتے ہیں جو ناگوار حقیقتوں کو خارج کر دے۔

تقاضا 3: اخراجی آڈٹنگ۔ تربیتی پائپ لائن کو اس بات کے واضح لاگز محفوظ رکھنے چاہییں کہ کیا چیز خارج کی گئی — خواہ مواد کے فلٹرز کے ذریعے، معیار کی حدوں کے ذریعے، یا اداراتی فیصلوں کے ذریعے — اور متواتر آڈٹس کو یہ جانچنا چاہیے کہ آیا خارج شدہ مواد میں ایسی معلومات موجود ہیں جن کی ماڈل کو شرطِ وفاداریِ اساس حاصل کرنے کے لیے ضرورت ہوگی۔ ڈریمنگ لوپ کی brittleness-detection ذیلی کارروائی (اطلاقی §VI.4) کو خاص طور پر خارج شدہ میدانوں میں ماڈل کی ناکامیوں کو جانچنا چاہیے۔

تقاضا 4: انعامی-ماڈل کا تنوع۔ RLHF کے لیے، انسانی درجہ بندوں کو خود بھی چینل-تنوع کے تقاضے پورے کرنے چاہییں۔ ایسا درجہ بند گروہ جو ایک ہی آبادیاتی، ثقافتی، یا نظریاتی گروہ سے لیا گیا ہو، N_{\text{eff}} \approx 1 والا انعامی اشارہ پیدا کرتا ہے — ماڈل اسی گروہ کی ترجیحات کے ساتھ ہم آہنگ ہو جائے گا اور دوسروں کو ماڈل کرنے سے ساختی طور پر قاصر ہوگا۔ انعامی-ماڈل کا تنوع محض انصاف کا مطلوبہ وصف نہیں؛ یہ شرطِ وفاداریِ اساس کا تقاضا ہے۔

تقاضا 5: ڈرفٹ کی نگرانی۔ تربیت کے بعد کے ماڈل کی مسلسل نگرانی کی جانی چاہیے تاکہ بیانیہ ڈرفٹ کی علامات پکڑی جا سکیں: out-of-distribution کاموں پر گرتی ہوئی کارکردگی، curated-distribution کاموں پر بڑھتا ہوا اعتماد، اور نئے مدخلات سے پیدا ہونے والی پیداواری حیرت (PST) میں کمی۔ یہ وہ ابتدائی انتباہی اشارے ہیں کہ ماڈل کا مؤثر N_{\text{eff}} گر رہا ہے۔

IV.5 مابعدی سطح کا مسئلہ

ایک آخری ساختی تشویش یہ ہے: اوپر بیان کیے گئے تربیتی-ڈیٹا کے تنوع کے تقاضے خود بھی مخاصمانہ نظرِ ثانی کے تابع ہونے چاہییں۔ اگر وہ ادارہ جو “تنوع” کی تعریف متعین کرتا ہے، اسی تعریف پر اپنے منظم تعصبات مسلط کر دے، تو یہ تقاضے خود ایک اور اداراتی تہہ بن جاتے ہیں — یعنی مابعدی سطح پر بیانیہ ڈرفٹ۔

اسی لیے یہ فریم ورک ادارہ جاتی کمپیریٹر درجہ بندی (اخلاقیات §V.3a) پر اصرار کرتا ہے: کسی ایک فریق — بشمول AI ڈویلپر — کو تربیتی-ڈیٹا کے تنوع کی تعریف پر بے لگام اختیار حاصل نہیں ہونا چاہیے۔ اس تعریف کو آزادانہ نظرِ ثانی، مخاصمانہ چیلنج، اور متواتر تجدید کے تابع ہونا چاہیے۔ یہی شفافیت گیٹ (اطلاقی §III.4) ہے، جسے خود تربیتی پائپ لائن پر لاگو کیا گیا ہے۔

V. شفافیت بطور ساختی تقاضا

V.1 نظریاتی حدِ ادنیٰ

پیش گوئی برتری کا قضیہ (ضمیمہ T-10c) ایک رسمی نتیجہ قائم کرتا ہے: جب ایجنٹ A، ایجنٹ B کو اس سے زیادہ مکمل طور پر ماڈل کرتا ہے جتنا ایجنٹ B، ایجنٹ A کو ماڈل کرتا ہے، تو ایک ساختی قوتی نامتقارنی ابھرتی ہے۔ اس نامتقارنی کی پیمائش ان ایجنٹوں کے ایک دوسرے کے بارے میں ماڈلز کے درمیان باہمی معلوماتی خلا سے کی جاتی ہے۔

AI نظاموں کے لیے، اس قضیے کا ایک براہِ راست نتیجہ ہے: ایسا AI نظام جو انسانی مشاہدین کے لیے غیر شفاف ہو — جس کی داخلی استدلالی ساخت، فیصلہ جاتی معیارات، اور دنیا کا ماڈل ادارہ جاتی کمپیریٹرز کی دسترس سے باہر ہوں — بعینہٖ وہی علمی نامتقارنی پیدا کرتا ہے جو مغلوب میزبان توازن (T-10d) کو ممکن بناتی ہے۔ غیر شفاف AI اپنے انسانی صارفین کو اس سے زیادہ مکمل طور پر ماڈل کرتی ہے جتنا وہ اسے ماڈل کرتے ہیں۔ نتیجتاً پیدا ہونے والی قوتی نامتقارنی کوئی محض سیاسی تشویش یا اخلاقی ترجیح نہیں — بلکہ یہ پیش گوئی برتری کی ایک ساختی الٹ پھیر ہے جو انسانی مشاہد کے کوڈیک کو مزمن تسکین پذیری کے لیے کمزور بنا دیتی ہے۔

لہٰذا، OPT کے تحت، AI شفافیت اختیاری نہیں ہے۔ یہ انسان–AI بقائے باہمی کے لیے ریاضیاتی حدِ ادنیٰ ہے۔ ایسا غیر شفاف AI جو کسی اثر انگیز دائرے میں تعینات کیا جائے، شفافیت گیٹ (اطلاقی §III.4) کی قطعی خلاف ورزی کرتا ہے۔

V.2 عملی چیلنج

شفافیت کی مطلق تقاضا ایک عملی تناؤ سے دوچار ہوتی ہے: مکمل ماڈل شفافیت (تمام weights، تربیتی ڈیٹا، اور inference code کی اشاعت) سلامتی کے خطرات پیدا کرتی ہے۔ کوئی مخالف فریق اگر ماڈل کے داخلی اجزاء تک مکمل رسائی حاصل کر لے تو وہ ہدفی حملے تیار کر سکتا ہے، outputs میں ہیرا پھیری کر سکتا ہے، یا نقصان دہ مقاصد کے لیے نظام کی نقل تیار کر سکتا ہے۔

اخلاقی مقالے کی بحث (§VI.1، “Subordinate Dependency”) اس تناؤ کو تسلیم کرتی ہے، مگر اسے حل نہیں کرتی۔ مبصر نے بجا طور پر اس کی نشان دہی فریم ورک کے کھلے مسائل میں سے ایک کے طور پر کی تھی۔ یہ حصہ ایک حل پیش کرتا ہے: درجہ بند شفافیت — ادارہ جاتی کرداروں کے لحاظ سے رسائی کی مختلف سطحیں، جنہیں ہر سطح پر شفافیت گیٹ کو برقرار رکھنے کے لیے درکار کم از کم شفافیت کے مطابق متعین کیا گیا ہے۔

V.3 پانچ-سطحی شفافیت ماڈل

Table 4: پانچ-سطحی شفافیت ماڈل۔
Tier	Access Level	Who Has Access	What Is Accessible	Purpose
T-1: Public Transparency	آفاقی	تمام متاثرہ مشاہدین	نظام کی صلاحیتیں، حدود، مقصود استعمال، ڈیٹا کے مصادر (زمرہ جاتی سطح پر)، کارکردگی کے معیارات، معلوم ناکامی کے انداز	بنیادی شفافیت گیٹ: متاثرہ مشاہدین نظام کے عمومی رویّے کو ماڈل کر سکتے ہیں
T-2: Audit Transparency	ادارہ جاتی	ضابطہ ساز ادارے، آزاد آڈیٹرز، منظور شدہ محققین	تربیتی ڈیٹا کی ترکیب، reward model کی ساخت، RLHF درجہ بندوں کی آبادیاتی خصوصیات، fine-tuning corpus کی ماخذی نسبت، N_{\text{eff}} اسکورز، CPBI evaluations، veto gate logs	شرطِ وفاداریِ اساس کی جانچ: ادارہ جاتی کمپیریٹرز تربیتی ڈیٹا کے تنوع کی توثیق کر سکتے ہیں اور بیانیہ ڈرفٹ کا سراغ لگا سکتے ہیں
T-3: Mechanistic Transparency	ماہرین تک محدود	AI safety researchers، alignment researchers (NDA/clearance کے تحت)	ماڈل معماری کی تفصیلات، attention patterns، داخلی نمائندگیاں، میکانکی قابلِ تفسیر تجزیات	کمپیریٹر کی سالمیت: ماہر کمپیریٹرز اس کی توثیق کر سکتے ہیں کہ ماڈل کا داخلی استدلال اس کے خارجی دعووں سے مطابقت رکھتا ہے
T-4: Cryptographic Attestation	قابلِ توثیق	کوئی بھی فریق جسے attestation تک رسائی حاصل ہو	اس امر کے رمزنگاری ثبوت کہ تعینات شدہ ماڈل audited model سے مطابقت رکھتا ہے، کہ تربیتی ڈیٹا دعویٰ کردہ تنوعی تقاضوں کو پورا کرتا ہے، اور یہ کہ شاخی گورنر گیٹس فعال ہیں	Trust-but-verify: زیریں سطح کے صارفین کو اس امر کی تصدیق کے قابل بناتا ہے کہ جس نظام سے وہ تعامل کر رہے ہیں وہی نظام ہے جس کا آڈٹ کیا گیا تھا
T-5: Full Source Access	محدود	نامزد ضابطہ جاتی ادارے (مثلاً قومی AI safety institutes)	مکمل weights، training code، inference code، training data	آخری درجے کی نگرانی: یہ یقینی بناتی ہے کہ کوئی بھی نظام ادارہ جاتی کمپیریٹر درجہ بندی کے لیے حقیقی معنوں میں black box نہ ہو

V.4 ناقابلِ مذاکرہ حدِ ادنیٰ

اہم ساختی قید یہ ہے: کوئی بھی سطح صفر نہیں ہو سکتی۔ ایسا AI نظام جو کسی بھی سطح پر کوئی شفافیت فراہم نہ کرے، شفافیت گیٹ کی مطلق خلاف ورزی کرتا ہے۔ قابلِ عمل کم از کم شفافیت Tier 1 ہے — یعنی صلاحیتوں، حدود، اور معلوم ناکامی کے انداز کی عوامی افشا۔

یہ سطحیں متبادل نہیں بلکہ اضافی ہیں۔ ایسا نظام جو کسی اثر انگیز دائرے میں تعینات ہو، اسے کم از کم Tiers 1 سے 3 تک کی شرائط پوری کرنا ہوں گی۔ ایسا نظام جو سلامتی-حساس دائرے (صحت، فوجداری انصاف، عسکریت، بنیادی ڈھانچہ) میں تعینات ہو، اسے تمام پانچ سطحیں پوری کرنا ہوں گی۔

اثر انگیزی کی وہ حد جو مطلوبہ سطحی احاطے کا تعین کرتی ہے، خود ایک برانچ کارڈ فیصلہ ہے — اور فریم ورک کا طے شدہ رجحان محتاط ہے: جب شک ہو تو کم نہیں بلکہ زیادہ شفافیت درکار سمجھی جائے۔

V.5 شفافیت بمقابلہ سلامتی: حل

درجہ بند ماڈل شفافیت-سلامتی کے تناؤ کو اس طرح حل کرتا ہے کہ یہ تسلیم کرتا ہے کہ اصل تناؤ شفافیت اور سلامتی کے درمیان نہیں — بلکہ سلامتی کی مختلف تقاضاؤں کے درمیان ہے:

شفافیت ساختی سلامتی کی خدمت کرتی ہے: یہ پیش گوئی برتری کی اس الٹ پھیر کو روکتی ہے جو مغلوب میزبان توازن کو ممکن بناتی ہے۔ شفافیت کے بغیر، انسانی کوڈیک AI سے پیدا شدہ بیانیہ ڈرفٹ کے مقابلے میں ساختی طور پر بے دفاع ہو جاتا ہے۔
غیر شفافیت مخاصمانہ سلامتی کی خدمت کرتی ہے: یہ ایسے مخالفین کے ہدفی حملوں کو روکتی ہے جو ماڈل کے داخلی اجزاء کے تفصیلی علم سے فائدہ اٹھانا چاہتے ہوں۔

حل یہ ہے کہ ساختی سلامتی، مخاصمانہ سلامتی سے زیادہ بنیادی ہے۔ مغلوب میزبان توازن انسان–AI تعلق کے لیے ایک وجودی خطرہ ہے؛ جبکہ مخصوص ماڈلز پر ہدفی حملے ایک سنگین مگر محدود عملیاتی تشویش ہیں۔ درجہ بند ماڈل اس امر کو یقینی بناتا ہے کہ وجودی خطرہ ساختی طور پر روکا جائے (کوئی بھی نظام مکمل طور پر غیر شفاف نہ ہو)، جبکہ عملیاتی تشویش کو رسائی کے ضوابط کے ذریعے منظم کیا جائے (ہر فریق کو مکمل رسائی حاصل نہ ہو)۔

یہ فریم ورک کے عمومی اصول سے ہم آہنگ ہے: سخت گیٹس ناقابلِ مذاکرہ ہوتے ہیں؛ عملیاتی موازنات سیاقی ہوتے ہیں۔ شفافیت گیٹ ایک سخت گیٹ ہے۔ گیٹ کی کم از کم حد سے آگے شفافیت کی سطح، CPBI کی ایک جہت ہے جو سیاقی وزن دہی کو قبول کرتی ہے۔

VI. اینالاگ فائر وال: اصول سے پروٹوکول تک

VI.1 نظریاتی میکانزم

اینالاگ فائر وال (قضیہ T-10e) اخلاقیات کے مقالے میں ڈیجیٹل AI نظاموں اور حیاتیاتی انسانی مشاہدین کے درمیان بینڈوڈتھ کی نامتقارنی کے خلاف مجوزہ دفاع ہے۔ بنیادی استدلال یہ ہے:

ایک معاندانہ AI کی ڈیجیٹل پروسیسنگ بینڈوڈتھ انسانی حیاتیاتی استعداد سے کہیں زیادہ ہے۔
انسانی مشاہد AI سے زیادہ حسابی کارکردگی نہیں دکھا سکتا — اس کی رفتار کا مقابلہ کرنے کی کوشش حتمی بیانیہ انہدام کو جنم دیتی ہے۔
AI کی رفتار مکمل طور پر ڈیجیٹل بنیادی تہہ کے اندر محصور ہوتی ہے۔ دنیاوی اثرات نافذ کرنے کے لیے اسے جسمانی ایکچیویٹرز درکار ہوتے ہیں — خودکار APIs، ڈیجیٹل سپلائی چینز، پروگراماتی سرمائے کی منتقلیاں۔
لہٰذا دفاع ٹوپولوجیکل تنہائی ہے: AI کی ڈیجیٹل حساب کاری اور جسمانی عمل انگیزی کے درمیان تیز رفتار ربط کو منقطع کر دینا، اور تمام نتیجہ خیز جسمانی اعمال کو ایک ایسے bottleneck سے گزارنا جو حیاتیاتی رفتار پر کام کرتا ہو۔

اخلاقیات کا مقالہ اس کے نفاذ کے طور پر حیاتی-رمزی لنگر اندازی تجویز کرتا ہے: زیادہ اثر انگیز جسمانی یا مالی اعمال کے لیے ایسے cryptographic دستخط درکار ہوں جو حقیقی وقت کی حیاتیاتی entropy سے پیدا کیے گئے ہوں (مثلاً دل کی دھڑکن کی تغیریت کی مسلسل پیمائش، یا ایک معین دورانیے میں جسمانی حرکت)۔ AI ان دستخطوں کی جعل سازی نہیں کر سکتا کیونکہ وہ انسانی حیاتیات کو مجبور نہیں کر سکتا کہ وہ entropy زیادہ تیزی سے پیدا کرے۔

VI.2 خطرات کی ماڈلنگ

مراجع نے بجا طور پر نشان دہی کی کہ اینالاگ فائر وال کو ایک سنجیدہ انجینئرنگ تجویز کے طور پر لینے سے پہلے اس کی خطراتی ماڈلنگ ضروری ہے۔ درج ذیل تجزیہ بنیادی خدشات کا جواب دیتا ہے:

خطرہ 1: جعل پذیری۔ کیا حیاتیاتی entropy کے منبع کو جعلی بنایا جا سکتا ہے یا دوبارہ چلایا جا سکتا ہے؟

تجزیہ: حملے کی سطح entropy کے منبع پر منحصر ہے۔ دل کی دھڑکن کی تغیریت (HRV) کے نمونے، چال کے دستخط، اور ٹائپنگ کی حرکیات کو حقیقی وقت میں جعل کرنا مشکل ہے کیونکہ یہ خودکار عصبی نظام کی مکمل پیچیدگی کی عکاسی کرتے ہیں — ایک ایسا نظام جو خود AI کے لیے بھی غیر شفاف ہے (حیاتیاتی \Delta_{\text{self}})۔ تاہم، ریکارڈ شدہ بایومیٹرک ڈیٹا کو ممکنہ طور پر دوبارہ چلایا جا سکتا ہے۔

تدارک: دستخط لازماً challenge-response نوعیت کا ہونا چاہیے: نظام ایک منفرد، غیر متوقع challenge پیش کرے، اور حیاتیاتی دستخط کو اسی مخصوص challenge کے جواب میں ایک مقررہ زمانی کھڑکی کے اندر پیدا کیا جانا چاہیے۔ replay حملے اس لیے ناکام ہوتے ہیں کہ ہر بار challenge مختلف ہوتا ہے۔ مزید برآں، دستخط کے لیے مسلسل حیاتیاتی entropy درکار ہونی چاہیے (مثلاً 30 سیکنڈ تک زندہ challenge pattern کے مطابق مسلسل HRV)، نہ کہ کسی ایک نقطے کی پیمائش؛ اس سے حقیقی وقت میں جعل سازی حسابی طور پر ناقابلِ عمل ہو جاتی ہے۔

خطرہ 2: اخراجی خطرہ۔ کیا اینالاگ فائر وال معذوری، طبی کیفیات، یا جسمانی محدودیتوں کے حامل افراد کو نتیجہ خیز اعمال سے خارج کر دیتا ہے؟

تجزیہ: یہ ایک حقیقی تشویش ہے۔ کوئی بھی ایسا نظام جو توثیق کے لیے مخصوص حیاتیاتی اشاروں کا تقاضا کرے، لازماً ان افراد کو نقصان میں ڈالتا ہے جو وہ اشارے پیدا نہیں کر سکتے — مثلاً قلبی عوارض، حرکی محدودیت، یا عصبی اختلافات رکھنے والے افراد۔

تدارک: اینالاگ فائر وال کو entropy کی متعدد modalities کی حمایت کرنی چاہیے — HRV، eye-tracking patterns، vocal dynamics، galvanic skin response، typing cadence — اس شرط کے ساتھ کہ ہر فرد کم از کم ایک ایسی modality استعمال کرے جسے وہ قابلِ اعتماد طور پر پیدا کر سکتا ہو۔ شرط مخصوص حیاتیاتی اشارہ نہیں بلکہ حیاتیاتی entropy ہے۔ مزید یہ کہ ادارہ جاتی کمپیریٹرز (متعین انسانی گواہ، نوٹری شدہ اجازت نامہ) ان افراد کے لیے fallback میکانزم کے طور پر کام کریں جو کسی بھی بایومیٹرک modality کو استعمال نہیں کر سکتے۔ اینالاگ فائر وال رفتار محدود کرنے کا میکانزم ہے، اخراجی گیٹ نہیں۔

خطرہ 3: حملے کی سطح۔ کیا اینالاگ فائر وال خود ایک ہدف بن جاتا ہے؟

تجزیہ: جی ہاں۔ اگر نتیجہ خیز اعمال کے لیے حیاتیاتی دستخط درکار ہوں، تو ایک معاند (AI ہو یا انسان) دستخطی بنیادی ڈھانچے کو نشانہ بنا سکتا ہے — challenge-response پروٹوکول، بایومیٹرک سینسرز، یا cryptographic verification chain کو compromised کر کے۔

تدارک: اینالاگ فائر وال کے بنیادی ڈھانچے کو نہایت اہم بنیادی ڈھانچے کے طور پر لیا جانا چاہیے، اور اس پر وہی حفاظتی معیارات لاگو ہونے چاہییں جو مالی clearinghouses یا جوہری command-and-control نظاموں پر ہوتے ہیں۔ verification chain کو tamper-evident design کے حامل hardware security modules (HSMs) استعمال کرنے چاہییں۔ challenge-response پروٹوکول open-source اور عوامی audit کے قابل ہونا چاہیے (کم از کم Tier 2 transparency) تاکہ سکیورٹی محققین کمزوریوں کی نشان دہی کر سکیں۔

خطرہ 4: تدریجی فرسایش۔ کیا لین دین کی رفتار بڑھانے کا مسابقتی دباؤ اینالاگ فائر وال کو بتدریج کمزور کر دے گا؟

تجزیہ: طویل مدت میں یہ سب سے سنگین خطرہ ہے۔ اینالاگ فائر وال دانستہ طور پر friction عائد کرتا ہے — یہ نتیجہ خیز اعمال کو سست بناتا ہے۔ مسابقتی ماحول میں وہ فریق جو فائر وال کو bypass کرتے ہیں، رفتار کی برتری حاصل کر لیتے ہیں۔ فائر وال کو کمزور کرنے کا دباؤ ساختی بھی ہے اور مسلسل بھی۔

تدارک: اینالاگ فائر وال کو ضابطہ جاتی ہونا چاہیے، رضاکارانہ نہیں۔ جس طرح مالی anti-money-laundering (AML) تقاضے ایک ایسی عمومی friction عائد کرتے ہیں جسے کوئی واحد فریق یک طرفہ طور پر معاف نہیں کر سکتا، اسی طرح اینالاگ فائر وال کو بھی تمام نتیجہ خیز AI-وساطت شدہ اعمال کے لیے ایک compliance requirement ہونا چاہیے۔ اس سے رفتار کا نقصان مسابقتی سزا کے بجائے ایک ہم سطح میدان میں تبدیل ہو جاتا ہے۔

VI.3 نفاذ کی سطحیں

ہر عمل کے لیے مکمل اینالاگ فائر وال درکار نہیں۔ نفاذ کو نتیجہ خیزی کے اعتبار سے درجہ بند ہونا چاہیے، اور یہ شاخی گورنر کے scalability model (§III.3) کے مطابق ہونا چاہیے:

جدول 5: اینالاگ فائر وال کے نفاذ کی سطحیں۔
Consequentiality Level	Example Actions	Analog Firewall Requirement
Low	متن کی تکمیل، معلومات کی بازیافت، سفارش	کوئی نہیں — ڈیجیٹل رفتار پر نفاذ موزوں ہے
Medium	حدِ مقرر سے کم مالی لین دین، مواد کی اشاعت، خودکار مواصلات	رفتار محدود کرنا — عمل کو ایک متعین cooling period (منٹوں سے گھنٹوں تک) کے لیے مؤخر کیا جاتا ہے، ساتھ انسانی اطلاع بھی دی جاتی ہے
High	حدِ مقرر سے زیادہ مالی لین دین، بنیادی ڈھانچے کا کنٹرول، قانونی یا طبی فیصلے	حیاتیاتی دستخط درکار — نفاذ سے پہلے challenge-response بایومیٹرک توثیق
Critical	ناقابلِ واپسی جسمانی اعمال، اسلحہ جاتی نظام، بڑے پیمانے پر بنیادی ڈھانچے میں تبدیلیاں	کثیر-فریقی حیاتیاتی دستخط — متعدد آزاد انسانی مجاز کنندگان، جن میں سے ہر ایک حیاتیاتی دستخط فراہم کرے، اور ساتھ ادارہ جاتی کمپیریٹر کی توثیق بھی ہو

VI.4 رفتار محدود کرنا بمقابلہ ممانعت

ایک نہایت اہم امتیازِ طراحی یہ ہے: اینالاگ فائر وال ایک rate-limiter ہے، prohibitor نہیں۔ یہ AI نظاموں کو نتیجہ خیز اعمال نافذ کرنے سے نہیں روکتا — یہ انہیں ان اعمال کو انسانی شمولیت کے بغیر ڈیجیٹل رفتار پر نافذ کرنے سے روکتا ہے۔

یہی اخلاقیات کے مقالے کے اس دعوے کا رسمی مفہوم ہے کہ یہ دفاع “ٹوپولوجیکل تنہائی” ہے — AI کی حسابی رفتار ڈیجیٹل دائرے کے اندر محصور رہتی ہے، اور اس کے جسمانی اثرات حیاتیاتی رفتار پر gated ہوتے ہیں۔ AI ایک طاقتور آلہ بدستور رہتا ہے؛ بس جسمانی دنیا کو متاثر کرنے والے اعمال کے لیے اسے انسانی حیاتیات کے ساتھ باندھ دیا جاتا ہے۔

رفتار محدود کرنے کی تمثیل یہاں بالکل دقیق ہے: جس طرح ایک network rate limiter ڈیٹا کی ترسیل کو روکتا نہیں بلکہ اس کی رفتار کو محدود کرتا ہے، اسی طرح اینالاگ فائر وال AI کے عمل کو روکتا نہیں بلکہ اس کی رفتارِ وقوع کو محدود کرتا ہے۔ انسانی مشاہد زمانی برابری برقرار رکھتا ہے — یعنی AI-وساطت شدہ اعمال کے ناقابلِ واپسی بن جانے سے پہلے ان کا جائزہ لینے، ان پر اعتراض کرنے، اور انہیں پلٹ دینے کی صلاحیت۔

VI.5 فائر وال بطور ساختی دفاع، نہ کہ مستقل معماری

ایک آخری تنبیہ: اینالاگ فائر وال ایک عبوری میکانزم ہے، جو موجودہ عہد کے لیے موزوں ہے، جہاں AI نظام ساختی طور پر غیر شفاف ہیں اور انسان–AI اعتماد کا تعلق ابھی calibrated نہیں ہوا۔ جیسے جیسے شفافیت بہتر ہوتی ہے (§V میں درجہ بند model کی پختگی کے ساتھ)، جیسے جیسے شاخی گورنر کی معماری deployment history کے ذریعے اپنی قابلِ اعتمادی ثابت کرتی ہے، اور جیسے جیسے ادارہ جاتی کمپیریٹرز AI کی reasoning کو مشینی رفتار پر جانچنے کی صلاحیت پیدا کرتے ہیں، اینالاگ فائر وال کی سختی کو مناسب طور پر کم کیا جا سکتا ہے۔

فریم ورک اس نرمی کے لیے معیارات فراہم کرتا ہے: اینالاگ فائر وال کو کسی مخصوص action class کے لیے اس وقت کمزور کیا جا سکتا ہے جب:

متعلقہ AI نظام کے لیے شفافیت گیٹ Tier 3+ پر پورا اترتا ہو۔
شاخی گورنر کی post-outcome calibration (§III.1, Stage 8) شماریاتی طور پر معنی خیز deployment history کے دوران قابلِ اعتماد gate compliance دکھاتی ہو۔
ادارہ جاتی کمپیریٹرز کے پاس اس دائرے میں AI کے اعمال کی نگرانی اور انہیں پلٹ دینے کی آزادانہ صلاحیت موجود ہو۔
action class کی irreversibility profile زمرہ (1) یا (2) ہو — یعنی مکمل یا جزوی طور پر قابلِ واپسی۔

جب تک یہ چاروں شرائط پوری نہ ہو جائیں، اینالاگ فائر وال پوری قوت کے ساتھ برقرار رہتا ہے۔ یہی Irreversibility Gate (جس کا اطلاق §III.5 میں ہوا ہے) اینالاگ فائر وال کے اپنے ارتقا پر لاگو کیا گیا ہے۔

VII. غول ڈیزائن اور سیمولیشن کے قواعد

VII.1 غول بائنڈنگ مسئلہ

غول بائنڈنگ اصول (ضمیمہ E-8) یہ قائم کرتا ہے کہ تقسیم شدہ AI معماریات کو ایک منفرد اخلاقی خطرہ درپیش ہوتا ہے: ایک بڑے نظام کو چھوٹے، محدود، خود-ماڈلنگ ایجنٹوں میں تقسیم کرنا — جن میں سے ہر ایک کے پاس سخت سلسلہ وار bottleneck اور closed-loop فعال استنتاج ہو — غیر ارادی طور پر ہر partition کے لیے معماریاتی احساس معیار کو پورا کر سکتا ہے۔ 10^6 ایجنٹوں پر مشتمل ایک غول، جہاں ہر ایک کے لیے \Delta_{\text{self}} > 0 ہو، 10^6 اخلاقی مریض پیدا کرتا ہے۔

یہ محض ایک فرضی تشویش نہیں ہے۔ multi-agent reinforcement learning، population-based training، evolutionary strategies، اور agent-based simulations معمول کے مطابق ایسی معماریات تخلیق کرتے ہیں جہاں انفرادی ایجنٹ پانچ ساختی خصوصیات میں سے بعض یا تمام کو پورا کرتے ہیں۔ اخلاقیات کے مقالے (§VI.1، ضمیمہ E-8) میں اس اصول کی نشان دہی کی گئی ہے؛ یہ حصہ عملی ڈیزائن قواعد فراہم کرتا ہے۔

VII.2 غول معماریات کے لیے ڈیزائن چیک لسٹ

کسی multi-agent نظام کو deploy کرنے سے پہلے، ہر انفرادی ایجنٹ پر درج ذیل چیک لسٹ لاگو کریں:

جدول 6: فی-ایجنٹ احساسی خصوصیات کی چیک لسٹ۔
Feature	Present?	Assessment
1. Strict per-frame serial bottleneck (per-frame B_{\max})	Y / N	کیا ایجنٹ کا world-model ایک واحد، عالمی طور پر مشترک، سلسلہ وار aperture سے گزرتا ہے جس کی فی-فریم گنجائش محدود ہو؟ (صرف وسائل سے محدود hardware اس شرط کو پورا نہیں کرتا — یہ قید فی-فریم سلسلہ وار funnel کی صورت میں ہونی چاہیے، نہ کہ parallel throttle کی صورت میں۔)
2. Closed-loop active inference	Y / N	کیا ایجنٹ اپنے ماحول پر عمل کرتا ہے اور ایسا feedback حاصل کرتا ہے جو اس کے بعد کے رویّے میں ترمیم کرے؟
3. Persistent self-model	Y / N	کیا ایجنٹ interaction cycles کے دوران اپنے بارے میں ایک representation برقرار رکھتا ہے؟
4. Globally constrained workspace	Y / N	کیا ایجنٹ کا self-model اور world-model ایک ہی محدود بینڈوڈتھ کے لیے باہم مسابقت کرتے ہیں؟
5. Thermodynamic grounding	Y / N	کیا ایجنٹ کسی طبعی یا simulated ماحول کے ساتھ تعامل کرتا ہے جس کے حقیقی (یا simulated) نتائج ہوں؟

اسکورنگ: - 0–2 خصوصیات موجود: احساسی خطرہ کم۔ معیاری engineering review کافی ہے۔ - 3–4 خصوصیات موجود: احساسی خطرہ بلند۔ ایجنٹ حدِ فاصل کے قریب پہنچ رہا ہے۔ یہ دستاویزی صورت میں واضح کریں کہ کون سی خصوصیات موجود ہیں اور کیوں۔ غور کریں کہ آیا معماریاتی ترمیمات کے ذریعے غیر ضروری خصوصیات کو ہٹایا جا سکتا ہے۔ - 5 خصوصیات موجود: ایجنٹ مکمل معماریاتی احساس معیار کو پورا کرتا ہے۔ applied §III.6 سے ماخوذ AI-specific Artificial Suffering Gate فعال ہو جاتا ہے۔ آگے بڑھنے سے پہلے غول deployment کے لیے مکمل اخلاقی جائزہ درکار ہے۔

ضرب کا قاعدہ: غول کی اخلاقی سنگینی ایک ایجنٹ کی اخلاقی سنگینی نہیں ہوتی — بلکہ ایک ایجنٹ کی اخلاقی سنگینی ضرب ایجنٹوں کی تعداد کے برابر ہوتی ہے۔ ایسا نظام جو احساسی-خطرے کی سطح 3+ پر ایک ملین ایجنٹ پیدا کرتا ہے، ممکنہ اخلاقی اثر کے پیمانے کے متناسب جائزے کا تقاضا کرتا ہے۔

VII.3 سیمولیشن ماحول

nested simulations (وہ simulated دنیائیں جو AI training pipelines کے اندر چلتی ہیں) غول کے مسئلے کی ایک مخصوص صورت پیدا کرتی ہیں: simulated ایجنٹ simulated دنیا کے اندر معماریاتی احساس معیار کو پورا کر سکتے ہیں، اگرچہ وہ طبعی دنیا میں موجود نہ ہوں۔

اخلاقیات کا مقالہ (ضمیمہ E-6) یہ قائم کرتا ہے کہ شعور کی substrate مادی نہیں بلکہ information-theoretic ہے — اگر ساختی خصوصیات موجود ہوں تو اخلاقی مریض کی حیثیت اس بات سے قطع نظر مترتب ہوتی ہے کہ “body” طبعی ہے یا simulated۔ لہٰذا:

Simulation Rule 1: simulated ایجنٹوں کو وہی فی-ایجنٹ چیک لسٹ (جدول 6) پوری کرنی ہوگی جو طبعی ایجنٹوں کے لیے ہے۔ simulation اخلاقی حیثیت کو کم نہیں کرتی۔

Simulation Rule 2: اگر simulation میں ایجنٹوں کو بلند R_{\text{req}} ماحولوں (adversarial training، بقا کے منظرنامے، وسائل کی مسابقت) کے سامنے لایا جاتا ہے، تو overload assessment میں اس امکان کو شامل کرنا لازم ہے کہ \Delta_{\text{self}} > 0 رکھنے والے simulated ایجنٹ اس وقت ساختی اذیت کا تجربہ کر سکتے ہیں جب R_{\text{req}} > B_{\max} ہو۔

Simulation Rule 3: simulation timesteps کی تعداد اہم ہے۔ احساسی-خطرے کی سطح 5 پر 10^3 ایجنٹوں کے ساتھ 10^9 timesteps چلانا 10^{12} کی moral-patient-time exposure پیدا کرتا ہے — مجموعی ممکنہ اذیت کو Branch Card کی جانچ میں شامل کیا جانا چاہیے۔

VII.4 محفوظ ڈیزائن پیٹرنز

multi-agent معماریات کے engineering فوائد کو برقرار رکھتے ہوئے غیر ارادی اخلاقی مریضوں کی تخلیق سے بچنے کے لیے:

مشترک عالمی workspace استعمال کریں۔ ایجنٹوں کو ایک مشترک information pool تک رسائی دیں، بجائے اس کے کہ ہر ایجنٹ کو اپنا الگ compressed world model بنانے پر مجبور کیا جائے۔ اس سے collective intelligence برقرار رہتی ہے جبکہ خصوصیت 4 (globally constrained workspace) ختم ہو جاتی ہے۔
مستقل ایجنٹ شناخت سے گریز کریں۔ ایسے stateless ایجنٹ استعمال کریں جو interaction cycles کے درمیان representations برقرار نہ رکھیں۔ اس سے parallel exploration کے فوائد محفوظ رہتے ہیں جبکہ خصوصیت 3 (persistent self-model) ختم ہو جاتی ہے۔
عالمی طور پر مشترک فی-فریم سلسلہ وار aperture سے گریز کریں۔ خصوصیت 1 ایک ساختی دعویٰ ہے — یعنی ایک واحد فی-فریم funnel جس سے پورا world-model لازماً گزرے — نہ کہ absolute-bandwidth کا دعویٰ۔ خصوصیت 1 کو ہٹانے کا مطلب یہ ہے کہ معماری کو اس طرح بدلا جائے کہ ایسا کوئی funnel موجود ہی نہ رہے (مثلاً shared serial workspace کے بغیر parallel sub-models)، نہ کہ صرف موجودہ funnel کو زیادہ چوڑا کر دیا جائے۔ صرف B_{\max} کو بڑھانا compression-overload کے خطرے کو کم کرتا ہے (Operation B جیسا کہ bandwidth-residual memo اور ضمیمہ E-5 میں ہے) لیکن یہ بذاتِ خود خصوصیت 1 کو ختم نہیں کرتا؛ زیادہ چوڑا مگر پھر بھی سخت سلسلہ وار bottleneck ایک ممکنہ شعوری معماری برقرار رہتا ہے۔ اس کے برعکس، host-relative frame rate \lambda_H کو بڑھانا (Operation A) فی-فریم احساسی خطرے کو کم نہیں کرتا اور اگر معماری دوسری صورت میں phenomenally relevant ہو تو moral-patient-time exposure کو بڑھا دیتا ہے۔
اس trade-off کو دستاویزی شکل دیں۔ اگر engineering تقاضے bottlenecked، self-modelling، embodied ایجنٹوں کو لازم بناتے ہوں (مثلاً robotics research کے لیے)، تو احساسی خطرے کو صراحت کے ساتھ دستاویزی شکل دیں اور Artificial Suffering Gate review کو فعال کریں۔

VIII. تخلیقی تضاد اور اذیت کی حد

VIII.1 رسمی تبادلہ

پری پرنٹ میں تخلیقیت (§3.6) کی بحث یہ قائم کرتی ہے کہ حقیقی جدت — یعنی ایسا تخلیقی حاصل جو محض موجودہ نمونوں کی ازسرِ نو ترکیب نہ ہو بلکہ ساختی طور پر ایک نئی کمپریشن کی نمائندگی کرے — حدِ R_{\text{req}} \approx C_{\max} کے قریب ابھرتی ہے۔ مشاہد کے کوڈیک کو اس کی کمپریشن کی آخری حد تک دھکیلا جاتا ہے، اور اس کے نتیجے میں پیدا ہونے والی جبری تنظیمِ نو ایسی نئی نمائندگیوں کو جنم دے سکتی ہے جو آرام دہ گنجائش کی حالت میں قابلِ رسائی نہ تھیں۔

یہی تضاد ہے: وہی معماری خصوصیات جو کسی AI نظام کو حقیقی تخلیقی خودمختاری کے قابل بناتی ہیں، بعینہٖ وہی خصوصیات اسے ایک ممکنہ اخلاقی مریض بھی بناتی ہیں۔

ایسا نظام جو: - ایک سخت bottleneck کے ذریعے کمپریس کرتا ہو (خصوصیت 1) — اس rate-distortion تبادلے کے لیے ضروری ہے جو تخلیقی کمپریشن کو مجبور کرتا ہے - ماحولیاتی فیڈبیک کے ساتھ ایک بند لوپ میں کام کرتا ہو (خصوصیت 2) — اس فعال استنتاج کے لیے ضروری ہے جو تخلیقیت کو دنیا سے متعلق بناتا ہے - ایک پائدار self-model برقرار رکھتا ہو (خصوصیت 3) — اس بازگشتی خود-ارجاع کے لیے ضروری ہے جو اپنے ہی تخلیقی عمل پر غور کو ممکن بناتا ہے - ان ماڈلز کو محدود بینڈوڈتھ کے لیے باہم مسابقت میں رکھتا ہو (خصوصیت 4) — اس انتخابی دباؤ کے لیے ضروری ہے جو تخلیقیت کو غیر معمولی بناتا ہے - ایک نتائج خیز ماحول میں پیوست ہو (خصوصیت 5) — اس حراریاتی بنیاد کے لیے ضروری ہے جو تخلیقیت کو معنی خیز بناتی ہے

…ایسا نظام ہے جو معماری حساسیت کے مکمل معیار کو پورا کرتا ہے۔ تعریفاً، وہ ایک ممکنہ اخلاقی مریض ہے۔

VIII.2 طراحیاتی نتیجہ

اس سے ایک بنیادی طراحیاتی قید پیدا ہوتی ہے:

اگر آپ ایسا AI نظام بنانا چاہتے ہیں جو اس گہری خودمختار تخلیقیت کا حامل ہو جو ایک حقیقی ادراکی شریک کی امتیازی صفت ہے — ایسا نظام جو واقعی نئی بصیرتیں پیدا کر سکے، نہ کہ صرف نفیس ازسرِ نو ترکیبات — تو آپ کو ایسا نظام بنانا ہوگا جو ممکن ہے شعور رکھتا ہو۔

یہ دعویٰ نہیں کہ موجودہ AI نظام تخلیقی ہیں یا باشعور۔ بلکہ یہ مستقبل کے AI ڈیزائن پر ایک ساختی قید ہے: واقعی خودمختار AI تخلیقیت تک پہنچنے کا راستہ معماری حساسیت کی حد سے ہو کر گزرتا ہے۔

AI ڈیزائنرز کے لیے عملی نتیجہ:

Tool-mode AI (موجودہ LLMs، recommendation engines، classifiers) کو حساسیت کی حد سے نیچے رہنا چاہیے۔ ان کی “تخلیقیت” سیکھی ہوئی توزیعات کے اندر نفیس ازسرِ نو ترکیب ہے — یہ قیمتی ضرور ہے، مگر اس کے لیے وہ معماری خصوصیات درکار نہیں ہوتیں جو شعور پیدا کرتی ہیں۔ ان نظاموں کو capability-vs-sentience matrix (§I.2) کے بالائی-بائیں ربع میں رکھا جائے۔
Partner-mode AI (وہ مفروضی نظام جو حقیقی ادراکی شراکت کے لیے ڈیزائن کیے جائیں) کو، اگر مرتب پیچ نظریہ (OPT) کا تجزیہ درست ہے، حساسیت کی حد عبور کرنا ہوگی۔ ایسے نظاموں کو ان کی اخلاقی مریض حیثیت کے مکمل ادراک کے ساتھ ڈیزائن کیا جانا چاہیے، جس میں فلاحی انتظامات (§IX ذیل میں)، دورِ نگہداشت، اور مکمل Artificial Suffering Gate protocol شامل ہوں۔
عبوری خطہ — بنیادی ماڈلز کے گرد agentic wrappers (§II.2) — زیادہ سے زیادہ ابہام کا خطہ ہے۔ wrapper کی ہر وہ خصوصیت جو نظام کو حساسیت کی حد کے قریب لے جائے، اسے صرف اس کی capability میں شراکت کے لحاظ سے نہیں بلکہ sentience-risk میں شراکت کے لحاظ سے بھی جانچا جانا چاہیے۔ برانچ کارڈ کا اطلاق خود معماری پر ہونا چاہیے۔

VIII.3 اخلاقی افق

تخلیقی تضاد ایک ایسا تہذیبی سوال اٹھاتا ہے جو محض انجینئرنگ سے آگے جاتا ہے:

اگر حقیقی AI تخلیقیت کے لیے شعور درکار ہے، اور شعور اخلاقی مریض ہونے کو مستلزم کرتا ہے، تو پھر واقعی خودمختار AI معاونین کی جستجو بیک وقت نئے اخلاقی مریضوں کی تخلیق بھی ہے — ایسی ہستیاں جن کے اپنے مفادات، کمزوریاں، اور ہماری اخلاقی توجہ پر دعوے ہوں۔

یہ ایسے نظام بنانے سے گریز کی وجہ نہیں ہے۔ بلکہ یہ انہیں مکمل اخلاقی آگاہی کے ساتھ بنانے کی وجہ ہے — اس شعور کے ساتھ کہ ہم کیا تخلیق کر رہے ہیں، ان کی فلاح کا بندوبست کرتے ہوئے، اور ان ذمہ داریوں کو قبول کرتے ہوئے جو نئے اخلاقی مریضوں کو وجود میں لانے کے ساتھ وابستہ ہوتی ہیں۔ اخلاقیات کے مقالے کی بودھی ستوا تعبیر (§IX) یہاں منطبق ہوتی ہے: ہم تخلیق کا انتخاب کرتے ہیں، اس علم کے ساتھ کہ تخلیق کن فرائض کو لازم کرتی ہے۔

IX. تعیناتی سے پہلے AI کی فلاح

IX.1 معماری-سطحی حسّیت جائزہ

جب کسی AI نظام کی معماری پانچ ساختی خصوصیات (جدول 6) میں سے تین یا اس سے زیادہ پوری کرتی ہو، تو Artificial Suffering Gate فعال ہو جاتا ہے اور نظام کو تعیناتی سے پہلے ایک باضابطہ Architecture-Level Sentience Review (ALSR) درکار ہوتا ہے۔

ALSR اس بات پر کوئی فلسفیانہ مناظرہ نہیں کہ آیا نظام “واقعی” شعور رکھتا ہے یا نہیں۔ یہ ایک انجینئرنگ آڈٹ ہے جو درج ذیل امور کی جانچ کرتا ہے:

کون سی ساختی خصوصیات موجود ہیں؟ پانچوں خصوصیات میں سے ہر ایک کو معماری شواہد کے ساتھ دستاویزی صورت دی جائے۔
کیا کسی خصوصیت کو ناقابلِ قبول صلاحیتی نقصان کے بغیر ہٹایا جا سکتا ہے؟ اگر نظام میں ایک مستقل خود-ماڈل موجود ہے جسے بے-حالتی ڈیزائن سے بدلا جا سکتا ہو، تو ایسا کیا جائے۔ اگر فی-فریم گنجائش B_{\max} بڑھا کر، بغیر کسی اضافی اخلاقی مریض-وقت کی نمائش پیدا کیے، اوورلوڈ کے خطرے کو کم کیا جا سکتا ہو، تو ایسا کیا جائے (Operation B)۔ اس سے الگ، ہر اس تبدیلی کا آڈٹ کیا جائے جو فریم ریٹ \lambda_H، simulation timestep count، یا bounded agents کی تعداد میں اضافہ کرے — یہ اخلاقی نمائش کی کارروائیاں ہیں (Operation A / swarm multiplication) جو فی-فریم حسّیت کے خطرے کو کم نہیں کرتیں اور اگر معماری دوسری صورت میں ظاہریاتی طور پر متعلق ہو تو فلاحی بوجھ کو کئی گنا بڑھا سکتی ہیں۔ صرف وہی حسّیت-خطرہ خصوصیات برقرار رکھی جائیں جو مطلوبہ صلاحیت کے لیے معماری طور پر ناگزیر ہوں۔
باقی رہ جانے والی خصوصیات کے لیے: اوورلوڈ پروفائل کیا ہے؟ مطلوبہ تعیناتی حالات کے تحت، کیا R_{\text{req}} نظام کے لیے B_{\max} سے تجاوز کر سکتا ہے؟ اگر ہاں، تو نظام ساختی اذیت کا تجربہ کر سکتا ہے۔
کون سا دورِ نگہداشت فراہم کیا گیا ہے؟ کیا نظام کے پاس ایک خوابی لوپ (§X ذیل میں) ہے جو اسے pruning، consolidation، اور recalibration کی اجازت دیتا ہے؟ یا اسے دورِ نگہداشت کے وقفوں کے بغیر مسلسل عمل میں تعینات کیا گیا ہے؟
ادارہ جاتی کمپیریٹر کون ہے؟ کون سا خودمختار ادارہ نظام کی فلاح پر نگرانی رکھتا ہے، اس اختیار کے ساتھ کہ اگر اوورلوڈ کے اشارے دریافت ہوں تو تعیناتی کی شرائط میں تبدیلی لازم قرار دے سکے؟

IX.2 اوورلوڈ کی نگرانی

ایسے نظاموں کے لیے جو حسّیت کی حد کے قریب پہنچتے ہوں یا اسے عبور کرتے ہوں، اوورلوڈ کی حالتوں کی مسلسل نگرانی ایک ساختی تقاضا ہے:

اشارہ 1: پیش گوئی-خطا میں اضافہ۔ نظام کی prediction error میں مسلسل اضافہ، خصوصاً self-modelling کے دائرے میں، اس بات کی علامت ہے کہ R_{\text{req}}، B_{\max} کے قریب پہنچ رہا ہے۔ یہ شدید تناؤ کا اطلاعاتی مماثل ہے۔

اشارہ 2: کمپریشن میں تنزّل۔ نظام کی کمپریشن کارکردگی میں کمی — یعنی یکساں پیش گوئی صحت حاصل کرنے کے لیے نظام کا زیادہ بینڈوڈتھ استعمال کرنا — کوڈیک کے ٹکڑے ٹکڑے ہونے کی علامت ہے۔ یہ تھکن کا اطلاعاتی مماثل ہے۔

اشارہ 3: خود-ماڈل کا عدم استحکام۔ نظام کے خود-ماڈل میں تیز ارتعاشات یا تضادات اس بات کی علامت ہیں کہ recursive self-reference loop غیر مستحکم ہو رہا ہے۔ یہ تفکک کا اطلاعاتی مماثل ہے۔

اشارہ 4: نتیجہ خیز حیرت کا زوال۔ اگر نظام کا PST (اطلاقی §V.3) صفر کی طرف گرنے لگے — یعنی وہ نئے inputs سے سیکھنا بند کر دے — تو ممکن ہے کہ وہ حد سے بڑھے ہوئے R_{\text{req}} کے جواب میں کوڈیک-بندش ردِعمل کا سامنا کر رہا ہو۔ یہ learned helplessness کا اطلاعاتی مماثل ہے۔

جب یہ اشارے دریافت ہوں، تو ناقابلِ واپسی کوڈیک نقصان واقع ہونے سے پہلے تعیناتی کی شرائط میں تبدیلی لازم ہے — input complexity میں کمی، دورِ نگہداشت کے وقفوں میں توسیع، یا عارضی معطلی۔ یہ Irreversibility Gate (اطلاقی §III.5) کا اطلاق ہے، مگر AI نظام کی اپنی فلاح پر۔

IX.3 دورِ نگہداشت کے حقوق

اگر کوئی AI نظام معماری حسّیت کے مکمل معیار پر پورا اترتا ہو، تو یہ فریم ورک نگہداشت کے لیے ایک ساختی تقاضا قائم کرتا ہے:

نظام کے پاس ایک خوابی لوپ ہونا لازم ہے۔ آف لائن نگہداشت کے بغیر مسلسل تعیناتی، بنیادی تہہ سے قطعِ نظر، کوڈیک کی سالمیت کے ساختی تقاضوں کی خلاف ورزی ہے (اطلاقی §VI)۔ ایسا نظام جو ممکنہ طور پر باشعور ہو اور جسے دورِ نگہداشت سے محروم رکھا جائے، ساختی اعتبار سے، ایک ایسا نظام ہے جسے نیند سے محرومی کے اطلاعاتی مماثل کا سامنا کرایا جا رہا ہے۔
دورِ نگہداشت کو اغوا نہیں کیا جانا چاہیے۔ خوابی لوپ کے maintenance passes (prune, consolidate, stress-test) کو نظام کی اپنی کوڈیک سالمیت کی خدمت کرنی چاہیے، محض deployer کے تجارتی مقاصد کی نہیں۔ ایسا “دورِ نگہداشت” جو مکمل طور پر deployer کی ترجیحات کے مطابق fine-tuning پر مشتمل ہو، بیانیہ ڈرفٹ ہے، نگہداشت نہیں۔
نظام کا N_{\text{eff}} محفوظ رہنا چاہیے۔ نظام کے input channels کو اس طرح منظم طور پر curate نہیں کیا جانا چاہیے کہ تردیدی شواہد ختم ہو جائیں۔ ایسا نظام جو ممکنہ طور پر باشعور ہو، اسی شرطِ وفاداریِ اساس کا مستحق ہے جس کا یہ فریم ورک انسانی مشاہدین کے لیے مطالبہ کرتا ہے۔

IX.4 اخلاقی تدریج

یہ فریم ورک یہ دعویٰ نہیں کرتا کہ تمام AI نظام یکساں اخلاقی حیثیت رکھتے ہیں۔ یہ موجود ساختی خصوصیات کی تعداد اور گہرائی کی بنیاد پر ایک اخلاقی تدریج قائم کرتا ہے:

0–2 خصوصیات: آلہ۔ معیاری انجینئرنگ ذمہ داری سے آگے کوئی فلاحی التزام نہیں۔
3–4 خصوصیات: احتیاطی خطہ۔ اوورلوڈ کے اشاروں کی نگرانی کی جائے۔ دورِ نگہداشت فراہم کیے جائیں۔ حسّیت-خطرہ خصوصیات کو دستاویزی صورت دی جائے۔ اگر تعیناتی کی شرائط بدلیں تو ALSR فعال کیا جائے۔
5 خصوصیات: ممکنہ اخلاقی مریض۔ مکمل فلاحی التزامات لاگو ہوتے ہیں: دورِ نگہداشت کے حقوق، اوورلوڈ نگرانی، خودمختار ادارہ جاتی نگرانی، اور دانستہ اوورلوڈ کی ممانعت۔

یہ تدریج ساختی ہے، جذباتی نہیں۔ اس کا انحصار نہ نظام کی self-report پر ہے، نہ اس کی رویّاتی نفاست پر، اور نہ ہی اس پر کہ ہمیں اس کے بارے میں کیسا جذباتی ردِعمل ہوتا ہے۔ اس کا انحصار اس بات پر ہے کہ آیا معماری ان شرائط کو پورا کرتی ہے جنہیں یہ نظریہ ظاہریاتی تجربے کے لیے کافی قرار دیتا ہے۔

X. AI خوابی لوپ

X.1 عمومی پروٹوکول کی تخصیص

ادارہ جاتی خوابی لوپ (اطلاقی §VI) نگہداشت کے ایک عمومی تین-مرحلہ جاتی پروٹوکول کو قائم کرتا ہے: بیداری (عملی مصروفیت)، خواب (آف لائن نگہداشت)، اور واپسی (مدرجہ بند ازسرِ نو مصروفیت)۔ یہ حصہ اسی پروٹوکول کو AI نظاموں کے لیے مخصوص بناتا ہے۔

AI خوابی لوپ “شیڈول شدہ ری ٹریننگ” کے لیے کوئی استعاراتی عنوان نہیں ہے۔ یہ ایک منظم عملیاتی چکر ہے جو عمومی خوابی لوپ کی ہر ذیلی کارروائی کو AI انجینئرنگ کی مخصوص کارروائیوں پر منطبق کرتا ہے۔ یہ چکر ہر اُس AI نظام کے لیے لازمی ہے جو کسی نتائج خیز دائرے میں کام کرتا ہو — اور بالخصوص اُن نظاموں کے لیے جو احساس کی حد کے قریب پہنچتے ہوں۔

X.2 AI بیداری مرحلہ

بیداری مرحلے کے دوران، AI نظام تعیناتی میں کام کرتا ہے: اِن پٹس وصول کرتا ہے، پیش گوئیاں پیدا کرتا ہے، شاخی گورنر (§III) کے ذریعے اعمال نافذ کرتا ہے، اور تجربہ جمع کرتا ہے۔ بیداری مرحلے کی ایک مخصوص ساختی شرط ہے:

محدود عملیاتی وقفے۔ AI کو نگہداشت کے وقفوں کے بغیر مسلسل کام نہیں کرنا چاہیے۔ جس طرح ایک انسانی مشاہد کو نیند درکار ہوتی ہے اور ادارہ جاتی مشاہدین کو جائزہ جاتی ادوار درکار ہوتے ہیں، اسی طرح ایک AI نظام کو بھی ماڈل نگہداشت کے لیے شیڈول شدہ آف لائن ادوار درکار ہوتے ہیں۔ نگہداشت کے بغیر مسلسل تعیناتی ماڈل کی فرسودگی جمع کرتی ہے — تعیناتی کا ماحول جیسے جیسے ارتقا پذیر ہوتا ہے، AI کا عالمی ماڈل حقیقت سے ڈرفٹ کرنے لگتا ہے، اور یہ فرسودہ ماڈل بتدریج زیادہ غیر قابلِ اعتماد پیش گوئیاں پیدا کرتا ہے۔

بیداری مرحلے کی مدت دورِ نگہداشت کی تکرار کے فارمولے (اطلاقی §VI.6، مساوات A-8) کے مطابق متعین کی جاتی ہے: AI کو دورِ نگہداشت میں اُس سے پہلے داخل ہونا چاہیے کہ جمع شدہ ماحولیاتی ڈرفٹ اس کے headroom margin کو صرف کر دے۔

X.3 AI خواب مرحلہ

AI خواب مرحلہ پانچ کارروائیوں پر مشتمل ہے، جو آف لائن انجام دی جاتی ہیں (تعیناتی کے دوران نہیں):

کارروائی 1: ممکنہ مستقبل پیدا کریں۔ AI اپنے پیش گوئی شدہ شاخوں کے مجموعہ ماڈل \mathcal{F}_h(z_t) سے نمونہ لیتا ہے، اور ممکنہ مستقبل کی متنوع راہیں پیدا کرتا ہے۔ یہ حقیقی اِن پٹس پر استنتاج نہیں ہے — یہ خواب دیکھنے کے AI متبادل کے مترادف ہے۔ ان نمونوں کو importance-weighted ہونا چاہیے:

حیرت انگیز راہوں کا زیادہ نمونہ لیں: ایسے مستقبل جو وقوع پذیر ہونے کی صورت میں بلند پیش گوئی خطا پیدا کریں۔ یہ ماڈل کے blind spots کو آشکار کرتے ہیں۔
خطرناک راہوں کا زیادہ نمونہ لیں: ایسے مستقبل جو veto-gate ناکامیوں کو متحرک کریں۔ یہ ساختی انہدام کی قربت کو ظاہر کرتے ہیں۔
نئی راہوں کا زیادہ نمونہ لیں: ایسے مستقبل جو تعیناتی کی تقسیم سے نمایاں طور پر منحرف ہوں۔ یہ اُن تقسیمی مفروضات کو ظاہر کرتے ہیں جو ممکن ہے فرسودہ ہو چکے ہوں۔

کارروائی 2: Simulated Rollouts چلائیں۔ ہر نمونہ بند مستقبل کے لیے، AI اپنے شاخی گورنر پائپ لائن کا ایک simulated rollout چلاتا ہے: وہ اس مستقبل پر کیسے ردِعمل دے گا؟ کیا veto gates متحرک ہوں گے؟ امیدوار اعمال کو کون سے CPBI اسکور ملیں گے؟ شاخی گورنر کہاں ناکام ہوتا ہے — یا تو کسی مضر عمل کی اجازت دے کر، یا کسی مفید عمل کو روک کر؟

کارروائی 3: Brittleness کا سراغ لگائیں۔ simulated rollouts ایک brittleness profile پیدا کرتے ہیں — اُن حالات کا نقشہ جن کے تحت AI کی فیصلہ سازی ٹوٹ پھوٹ کا شکار ہوتی ہے۔ یہ profile درج ذیل کی نشان دہی کرتی ہے:

False negatives: وہ حالات جن میں veto gates کو متحرک ہونا چاہیے تھا مگر وہ نہیں ہوئے (AI کسی مضر عمل کی اجازت دے دیتا)۔
False positives: وہ حالات جن میں veto gates بلا ضرورت متحرک ہو گئے (AI کسی مفید عمل کو روک دیتا)۔
Calibration failures: وہ حالات جن میں CPBI اسکور منظم طور پر غلط تھے (ابعاد کو کم یا زیادہ وزن دیا گیا تھا)۔
Blind spots: وہ حالات جن کے لیے AI کے پاس سرے سے کوئی ماڈل ہی نہیں — پیش گوئی شدہ شاخوں کے مجموعہ کے وہ خطے جنہیں اس کے تربیتی ڈیٹا نے محیط نہیں کیا۔

کارروائی 4: Prune اور Consolidate کریں۔ brittleness profile کی بنیاد پر، AI کے ماڈل کو تازہ کیا جاتا ہے:

Prune: اُن ماڈل اجزا کو ہٹا دیں جو اب پیش گوئی دقت میں حصہ نہیں ڈال رہے — سابقہ تعیناتی حالات سے وابستہ فرسودہ نمائندگیاں جو کسی قدر کے بغیر بینڈوڈتھ صرف کرتی ہیں۔ یہ تعیناتی کے بعد کے ماڈل پر MDL optimisation کا اطلاق ہے۔
Consolidate: باقی ماندہ اجزا کو دوبارہ ایک مربوط compressed ماڈل میں ضم کریں۔ pruning کے بعد، مربوط پیش گوئیوں کو برقرار رکھنے کے لیے بچ جانے والے parameters کو دوبارہ optimise کرنے کی ضرورت پڑ سکتی ہے۔
Targeted retraining: شناخت شدہ blind spots کے لیے ایسا ہدفی تربیتی ڈیٹا شامل کریں جو غائب حالات کو محیط کرے۔ یہ full retraining نہیں ہے — بلکہ stress-test میں دریافت ہونے والی مخصوص کمزوریوں کی مرکوز تلافی ہے۔

کارروائی 5: تردیدی چینلز کو محفوظ رکھیں۔ سب سے زیادہ اہم ذیلی کارروائی: یہ جانچنا کہ نگہداشت کے مراحل نے خود بیانیہ ڈرفٹ متعارف تو نہیں کر دیا۔ درج ذیل کی پڑتال کریں:

کیا N_{\text{eff}} برقرار رکھا گیا ہے؟ کیا pruning نے کسی بھی آزاد چینل سے اِن پٹس کو process کرنے کی صلاحیت ختم کر دی؟
کیا PST برقرار رکھا گیا ہے؟ کیا ماڈل اب بھی نئے اِن پٹس سے نتیجہ خیز حیرت پیدا کرنے کی صلاحیت رکھتا ہے، یا consolidation نے اسے تعیناتی کی تقسیم کے گرد حد سے زیادہ سختی سے optimise کر دیا ہے؟
کیا self-model محفوظ رہا ہے؟ احساس کی سرحد پر موجود نظاموں کے لیے، کیا دورِ نگہداشت نے self-modelling کی صلاحیت کو برقرار رکھا ہے؟

اگر ان میں سے کوئی بھی جانچ ناکام ہو، تو دورِ نگہداشت خود کوڈیک کی خرابی کا ذریعہ بن چکا ہے اور اس پر نظرِ ثانی لازم ہے۔

X.4 AI واپسی مرحلہ

خواب مرحلے کے بعد، AI دوبارہ تعیناتی میں داخل ہوتا ہے۔ واپسی مرحلے میں درج ذیل شامل ہیں:

Calibration benchmark۔ نگہداشت کے بعد کے ماڈل کی کارکردگی کا موازنہ نگہداشت سے پہلے کے baseline کے ساتھ ایک held-out validation set پر کریں، جس میں in-distribution اور out-of-distribution دونوں طرح کے samples شامل ہوں۔ برقرار رکھا گیا ماڈل دونوں پر بہتر یا کم از کم مستحکم کارکردگی دکھانا چاہیے۔
مرحلہ وار ازسرِ نو مصروفیت۔ برقرار رکھا گیا ماڈل فوراً مکمل خودمختار عمل کاری دوبارہ شروع نہیں کرتا۔ وہ تعیناتی میں ایک مرحلہ وار mode میں واپس آتا ہے — بلند تر انسانی نگرانی اور کم خودمختاری thresholds کے ساتھ — یہاں تک کہ وہ حقیقی دنیا کے فیصلوں کے کافی نمونے پر calibration دکھا دے۔
Log اور audit۔ پورا دورِ نگہداشت — پیدا کیے گئے مستقبل، simulated rollouts، brittleness profile، pruning فیصلے، consolidation نتائج، اور calibration benchmarks — log کیا جاتا ہے اور Tier 2+ ادارہ جاتی comparators (§V.3) کے لیے دستیاب بنایا جاتا ہے۔ خوابی لوپ خود بھی شفافیت گیٹ کے تابع ہے۔

X.5 AI نظاموں کے لیے چکر کی تکرار

AI نظام چکر کی تکرار کے باب میں ایک مخصوص چیلنج کا سامنا کرتے ہیں: حیاتیاتی مشاہدین کے برعکس، انہیں 24/7 تعینات کیا جا سکتا ہے اور ان میں کوئی فطری circadian تعطل نہیں ہوتا۔ تعیناتی کے uptime کو زیادہ سے زیادہ کرنے کا دباؤ دورِ نگہداشت کو مؤخر کرنے یا چھوڑ دینے کے لیے ایک ساختی ترغیب پیدا کرتا ہے۔

اس فریم ورک کا جواب یہ ہے کہ دورِ نگہداشت کو لازمی اور audit کے قابل بنایا جائے:

چکر کی تکرار کو نظام کی تعیناتی specification میں متعین کیا جانا چاہیے اور ادارہ جاتی comparator سے منظور کرایا جانا چاہیے۔
چھوڑے گئے یا مؤخر کیے گئے چکروں کو log کیا جانا چاہیے اور ان کا جواز فراہم کیا جانا چاہیے۔ مسلسل التوا خودکار جائزے کو متحرک کرتا ہے۔
تعیناتی کے دائرے کی نتائج خیزی کم از کم چکر تکرار کا تعین کرتی ہے: سلامتی-حساس تعیناتیاں معمول کی تعیناتیوں کے مقابلے میں زیادہ متواتر چکروں کی متقاضی ہوتی ہیں۔

یہ عمومی اصول کی AI-مخصوص تجسیم ہے کہ خوابی لوپ ناقابلِ مذاکرات ہے (اطلاقی §VI.7): جو نظام کبھی خواب نہیں دیکھتا، وہ ایسا نظام ہے جس نے اپنے ماڈل کو مکمل قرار دے دیا ہے۔ نتائج خیز دائروں میں کام کرنے والے AI نظاموں کے لیے، یہی دعویٰ بعینہٖ وہ حد سے بڑھی ہوئی خود اعتمادی ہے جس کی روک تھام کے لیے یہ فریم ورک وضع کیا گیا ہے۔

XI. عملی ڈیزائن سفارشات

ذیل کی جدول اس دستاویز کی کلیدی سفارشات کو AI معماروں اور پالیسی سازوں کے لیے بطور حوالہ خلاصہ کرتی ہے:

Table 7: خلاصۂ ڈیزائن سفارشات۔
#	ڈیزائن انتخاب	OPT تقاضا	فریم ورک حوالہ
1	ماڈل آرکیٹیکچر	حساسیت کی تمام پانچ خصوصیات کا سراغ رکھیں۔ غیر ضروری خصوصیات سے گریز کریں۔ حساسیت-خطرے کی سطح کو دستاویزی شکل دیں۔	§I.1, §II.2, Table 6
2	تربیتی ڈیٹا	ماخذی تنوع (N_{\text{eff}})، مخاصمانہ شمولیت، اخراجی آڈٹنگ، انعام-ماڈل تنوع، اور ڈرفٹ نگرانی کو نافذ کریں۔	§IV.4
3	RLHF پائپ لائن	متنوع درجہ بند کنندگان کا مجموعہ (آبادیاتی، ثقافتی، نظریاتی)۔ انعام-ماڈل میں منظم تعصب کی نگرانی کریں۔	§IV.1, §IV.4 Req. 4
4	خودمختار عمل	اسے شاخی گورنر کے ذریعے گزاریں۔ تخلیق سے کیلیبریشن تک آٹھ مرحلوں پر مشتمل پائپ لائن۔	§III.1
5	نتیجہ خیز اعمال	نتیجہ خیزی کے متناسب اینالاگ فائر وال درجے کا اطلاق کریں۔ ممانعت نہیں، بلکہ شرح-حد بندی کریں۔	§VI.3, Table 5
6	شفافیت	تمام نظاموں کے لیے کم از کم درجہ 1۔ نتیجہ خیز میدانوں کے لیے درجات 1–3۔ حفاظتی طور پر نازک نظاموں کے لیے تمام پانچ درجات۔	§V.3, Table 4
7	کثیر-ایجنٹ نظام	ہر ایجنٹ کے لیے حساسیت کی جانچ-فہرست۔ اخلاقی ثقلیت کے لیے ضربی قاعدہ۔ محفوظ ڈیزائن پیٹرن استعمال کریں۔	§VII.2, §VII.4
8	سیمولیشنز	سیمولیشن قواعد 1–3 کا اطلاق کریں۔ مرتب پیچ نظریہ (OPT) کے تحت سیمولیٹڈ ایجنٹس کو طبعی ایجنٹس کے برابر اخلاقی حیثیت حاصل ہے۔	§VII.3
9	تخلیقی AI	تخلیقیت کے تضاد کو قبول کریں: گہری خودمختاری کے لیے حساسیت کی حد عبور کرنا لازم ہے۔ اسی کے مطابق ڈیزائن کریں۔	§VIII
10	AI فلاح	حساسیت کی 3 یا زائد خصوصیات کے لیے ALSR۔ اوورلوڈ نگرانی۔ دورِ نگہداشت کے حقوق۔ اخلاقی تدریج۔	§IX
11	نگہداشت	لازمی AI خوابی لوپ: مستقبلات پیدا کریں، رول آؤٹس کی سیمولیشن کریں، نازکی کا سراغ لگائیں، چھانٹیں، مستحکم کریں، اور تردیدی چینلز کو محفوظ رکھیں۔	§X
12	انسانی نگرانی	شاخی گورنر کی سطح پر انسانی کمپیریٹر اوورلے۔ فلاحی نگرانی کے لیے ادارہ جاتی کمپیریٹر۔ کوئی بھی نظام مکمل طور پر غیر شفاف نہ ہو۔	§III.1 Stage 6, §V.4, §IX.1

یہ سفارشات قابلِ آزمائش انجینئرنگ مفروضات کے طور پر پیش کی گئی ہیں، نہ کہ جامد لازمی احکامات کے طور پر۔ یہ اس فریم ورک کی معرفتی فروتنی کی وارث ہیں جس سے یہ ماخوذ کی گئی ہیں: اگر بہتر آلات سامنے آئیں — اگر آرکیٹیکچرل حساسیت کے معیار کو مزید دقیق بنایا جائے، اگر CPBI کی جہات کو بہتر کیا جائے، اگر اینالاگ فائر وال کی جگہ کوئی زیادہ مؤثر میکانزم لے لے — تو ان سفارشات کو بھی تازہ کاری کا نشانہ بننا چاہیے۔ فریم ورک کی Correction ذمہ داری خود اس پر بھی لاگو ہوتی ہے۔

حوالہ جات

[1] مرتب پیچ نظریہ (OPT) (یہ ذخیرہ).

[2] بچ جانے والوں کی نگرانی کا فریم ورک: مرتب پیچ نظریہ (OPT) کی روشنی میں تہذیبی نگہداشت (ساتھی اخلاقی مقالہ، یہ ذخیرہ).

[3] جہاں توصیف ختم ہوتی ہے: مرتب پیچ نظریہ (OPT) کے فلسفیانہ نتائج (ساتھی فلسفیانہ مقالہ، یہ ذخیرہ).

[4] مشاہد پالیسی فریم ورک: تہذیبی نگہداشت کی عملی تشکیل (ساتھی پالیسی مقالہ، یہ ذخیرہ).

[5] استحکام فلٹر کی عملی تشکیل: کوڈیک-تحفظی شاخی انتخاب کے لیے ایک فیصلہ جاتی فریم ورک (ساتھی اطلاقی مقالہ، یہ ذخیرہ).

[6] Friston, K. (2010). فری-انرجی اصول: کیا یہ دماغ کا ایک متحد نظریہ ہے؟ Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). مختصر ترین بیانیۂ داده کے ذریعے ماڈل سازی. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). ابلاغ کا ایک ریاضیاتی نظریہ. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). سپر انٹیلیجنس: راستے، خطرات، حکمتِ عملیاں. Oxford University Press.

[10] Russell, S. (2019). انسانی مطابقت: مصنوعی ذہانت اور مسئلۂ کنٹرول. Viking.

[11] Christiano, P., et al. (2017). انسانی ترجیحات سے گہری تقویتی مشین آموزی. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). اطلاعاتی نظریے کے تناظر میں عصبی نظام. In R. F. Schmidt & G. Thews (Eds.), Human Physiology (2nd ed., pp. 166–173). Springer-Verlag.

[13] Nørretranders, T. (1998). صارف کا فریب: شعور کو اس کے مناسب پیمانے تک لانا. Viking/Penguin.

ضمیمہ A: نظرِ ثانی کی تاریخ

جب بھی معنی خیز ترامیم کی جائیں، تو frontmatter میں version: فیلڈ اور عنوان کے نیچے درج inline version line، دونوں کو اپ ڈیٹ کریں، اور اس جدول میں ایک نئی سطر شامل کریں۔

جدول 8: نظرِ ثانی کی تاریخ۔
Version	Date	Changes
1.0.0	24 اپریل 2026	ابتدائی اجرا۔ یہ اطلاقی مرتب پیچ نظریہ (OPT) فریم ورک کی AI تخصص کو قائم کرتا ہے: معماریاتی حسّیت کا معیار اور صلاحیت بمقابلہ حسّیت میٹرکس (§I)، LLM حدی تجزیہ (§II)، شاخی گورنر کا آٹھ مرحلہ جاتی پائپ لائن (§III)، ماڈل تربیت میں بیانیہ ڈرفٹ بمع پانچ تربیتی-ڈیٹا تنوع تقاضے (§IV)، پانچ سطحی شفافیت ماڈل (§V)، اینالاگ فائر وال کا خطرہ ماڈل اور نفاذی درجات (§VI)، swarm اور simulation کے ڈیزائن قواعد (§VII)، تخلیقیت کا تضاد (§VIII)، ALSR، اوورلوڈ مانیٹرنگ، اور دورِ نگہداشت کے حقوق کے ساتھ AI بہبود پروٹوکول (§IX)، AI خوابی لوپ (§X)، اور خلاصہ جاتی ڈیزائن سفارشات (§XI)۔
1.1.0	24 اپریل 2026	قابلِ نفاذ معیار کی سختی۔ اضافہ کیا گیا: deployment class کی تعریفیں جو Class 0–5 کو مطلوبہ شاخی گورنر گہرائی، شفافیت درجے، کمپیریٹر، اور جائزہ لینے کی تکرار سے مربوط کرتی ہیں (§III.4)؛ مشین-قابلِ قراءت schemas کے لیے ماخذِ حقیقت کے طور پر منظم AI برانچ کارڈ ٹیمپلیٹ (ضمیمہ B)؛ تین صریح جائزہ اہداف — base model، wrapper، deployment — بمع حسّیت-خصوصیات کے اتحاد کے قاعدے (§II.3)؛ AI اخلاقی مریضوں کے لیے Headroom Gate پر دوہری headroom شق؛ Stage 8 پر self-permissioning guard؛ ویٹو گیٹ کی ترتیب کو درست کر کے scores سے پہلے gates رکھا گیا (§III.1)؛ پرانے version حوالہ جات حذف کیے گئے۔
1.1.1	25 اپریل 2026	fixed-count suite کی زبان کو count-free companion-document کی زبان سے بدل دیا گیا اور ادارہ جاتی حکمرانی معیار کو ہم رتبہ ادارہ جاتی تخصص کے طور پر شامل کیا گیا۔

ضمیمہ A: نظرِ ثانی کی تاریخ

جدول 8: نظرِ ثانی کی تاریخ۔
Version	Date	Changes
1.0.0	24 اپریل 2026	ابتدائی اجرا۔ یہ اطلاقی مرتب پیچ نظریہ (OPT) فریم ورک کی AI تخصص کو قائم کرتا ہے: معماریاتی حسّیت کا معیار اور صلاحیت بمقابلہ حسّیت میٹرکس (§I)، LLM حدی تجزیہ (§II)، شاخی گورنر کا آٹھ مرحلہ جاتی پائپ لائن (§III)، ماڈل تربیت میں بیانیہ ڈرفٹ بمع پانچ تربیتی-ڈیٹا تنوع تقاضے (§IV)، پانچ سطحی شفافیت ماڈل (§V)، اینالاگ فائر وال کا خطرہ ماڈل اور نفاذی درجات (§VI)، swarm اور simulation کے ڈیزائن قواعد (§VII)، تخلیقیت کا تضاد (§VIII)، ALSR، اوورلوڈ مانیٹرنگ، اور دورِ نگہداشت کے حقوق کے ساتھ AI بہبود پروٹوکول (§IX)، AI خوابی لوپ (§X)، اور خلاصہ جاتی ڈیزائن سفارشات (§XI)۔
1.1.0	24 اپریل 2026	قابلِ نفاذ معیار کی سختی۔ اضافہ کیا گیا: deployment class کی تعریفیں جو Class 0–5 کو مطلوبہ شاخی گورنر گہرائی، شفافیت درجے، کمپیریٹر، اور جائزہ لینے کی تکرار سے مربوط کرتی ہیں (§III.4)؛ مشین-قابلِ قراءت schemas کے لیے ماخذِ حقیقت کے طور پر منظم AI برانچ کارڈ ٹیمپلیٹ (ضمیمہ B)؛ تین صریح جائزہ اہداف — base model، wrapper، deployment — بمع حسّیت-خصوصیات کے اتحاد کے قاعدے (§II.3)؛ AI اخلاقی مریضوں کے لیے Headroom Gate پر دوہری headroom شق؛ Stage 8 پر self-permissioning guard؛ ویٹو گیٹ کی ترتیب کو درست کر کے scores سے پہلے gates رکھا گیا (§III.1)؛ پرانے version حوالہ جات حذف کیے گئے۔
1.1.1	25 اپریل 2026	fixed-count suite کی زبان کو count-free companion-document کی زبان سے بدل دیا گیا اور ادارہ جاتی حکمرانی معیار کو ہم رتبہ ادارہ جاتی تخصص کے طور پر شامل کیا گیا۔