بقلم: CB Garcia و WI Zangwill

أساتذة العلوم الإدارية في كلية بوث للأعمال (كلاهما متقاعدان)

تمت المراجعة في أغسطس 18 و 2018 من (Garcia و Zangwill [8، 9]).

ابحث عن رحلتك: نظرية اللعبة ، معضلة السجين ، بايزي ، الاحتمالات الذاتية

ملخص: Von Neumann و Morgenstern (VNM) ، باستخدام فرضية المنفعة المتوقعة ، قدمت الصيغة الأساسية لمشكلة نظرية اللعبة. ولكن حتى هذه المرحلة ، كان من الصعب حل هذه الصيغة دون فرض افتراضات إضافية. كان على ناش أن يفترض أنه تم فصل اللاعبين بحيث يكون احتمال قيام اللاعب A باتخاذ إجراء مستقل عن احتمال قيام اللاعب B باتخاذ إجراء ما. في هذه الورقة ، نتخلص من افتراضات ناش ، بما في ذلك افتراض أن استراتيجيات اللاعبين هي معرفة شائعة ، وتقديم نموذج مكافئ تمامًا لمشكلة VNM العامة. تركيبة صياغة قابلة للحل بسهولة تزيل بعض الصعوبات المتأصلة في مقاربة ناش ، والتي غالباً ما أسفرت عن نتائج متناقضة ومضادة للحدس ، على سبيل المثال ، إلى معضلة السجين ، لعبة الدجاج ، مفارقة نيوكومب ، مطاردة الأيل والعديد من الألعاب الأخرى. على سبيل المثال ، من خلال التخلي عن افتراض ناش المتبادل في معضلة السجين ، يوضح نموذجنا أن اللاعبين قادرون على تحقيق مردود أعلى ، ولتحقيق ذلك ، لا يحتاجون إلى اللعب بشكل تعاوني أو التواصل ، ولكن مجرد تطبيق نظرية بايز ، (Harsanyi [10] ؛ Kadane و Larkey [11]). يقسم النهج الذي نتبعه مساحة الاحتمال إلى نصفين أو منطقة ، يعتمد حجمها النسبي على العوائد. الآن ، لا يحتاج المرء إلى تقدير الاحتمال بدقة ، ولكن فقط تحديد المنطقة التي هو فيها. وهذا يوفر مزايا كبيرة لأنه ، إذا كانت إحدى المناطق أكبر بكثير من الأخرى ، فإن هذا ينتج على الفور نظرة ثاقبة كبيرة حول كيفية لعب اللعبة. حلنا العام ، غير المرتبط ، كما يقول ، بمعنى Aumann [1] ، يحتوي على توازن ناش كحل خاص. على النقيض من حلول Nash الوصفي ، فإن الحل الذي نقدمه هو زوج وصفي من الاستراتيجيات الخالصة للتوقعات المنطقية ، مما يوفر أساسًا جديدًا لنظرية اللعبة. نوسع نهجنا في ألعاب M-Person العامة ، كما نوضحها في لعبة مقص الورق الصخري ومشكلة ازدحام البار.

ملخص النتائج.

نلخص الآن بعض النتائج ، بناءً على التفاصيل والمكافآت الصريحة الواردة أدناه. نعتقد أن هذه النتائج تدل على قيمة النهج الذي نتبعه في التدريس والبحث لأن النتائج تقدم غالبًا حلولًا جديدة.

لعبة التنسيق: يفترض ناش الاستقلال الاستقلال النهج بايزي متفوقة نتخذها. بالنسبة للمكافآت المقدمة أدناه ، قم بلعب الإستراتيجية الأولى إذا كنت تعتقد أن احتمال قيام الخصم بتشغيل إستراتيجيته الأولى هو 1 / 3 على الأقل ، وإلا قم باستراتيجية ثانية. لا يقدم ناش أي معلومات عن موعد تطبيق الاستراتيجية. أيضًا ، إذا تم تغيير المكافآت ، فإن منهجنا يوفر الاحتمالات المنقحة. معركة الجنسين: يختلف الطرفان في المكان الذي يجب أن يذهبا إليه ، لكن لا يُسمح لهما بالتواصل. يحصل كلا الطرفين على مردود جيد إذا ذهب كلاهما إلى نفس الاختيار ، حيث أنهما كلاهما معًا على الأقل. سيحصل الطرف المعطى على مكافأة إذا ذهب كلاهما إلى اختيار ذلك الطرف. لا يحصل على مكافأة جيدة إذا ذهبوا إلى أماكن مختلفة. نظرًا للعوائد الموضحة أدناه ، يجب أن يلعب اللاعب "أ" الإستراتيجية المطلوبة إذا كان يعتقد أن اللاعب الآخر سيختار أيضًا الخيار "أ" المرغوب مع احتمال 33٪ على الأقل. على النقيض من ذلك ، يوفر Nash ثلاثة توازن دون أي نظرة ثاقبة للعب فيه أي تحليل للاحتمالات. مطابقة البنسات: لاعبان ، متساويان وغريبان ، يكشفان في وقت واحد عن بنس واحد. إذا تطابق البنسات ، حتى يحتفظ كلا البنسات. خلاف ذلك الغريب يبقي كلا البنسات. توازن Nash الفريد لهذه اللعبة التي يساوي مجموعها صفرًا هو أن يلعب كلا اللاعبين بشكل عشوائي. بالنظر إلى المكاسب الموضحة أدناه ، يجب أن تلعب رؤوسًا حتى إذا كانت تعتقد أن Odd سيلعب رؤساء باحتمالية 50٪ على الأقل. من ناحية أخرى ، يجب أن يلعب Odd رؤوسًا إذا كان يعتقد أن Even سوف يلعب رؤوسًا باحتمالية 50٪ على الأكثر. لعبة الدجاج: تسير سيارتان في اتجاه بعضهما البعض وعلى وشك أن تتعرضا لصدمة مباشرة يقترح ناش أن إحدى السيارات يجب أن تنحرف والأخرى تسير في الاتجاه المستقيم ، ولكنها تقدم القليل من الرؤية التي يجب أن تنحرف. بالنظر إلى المكاسب الموضحة أدناه ، فإن أسلوبنا يقترح عليك التحوّل إذا كنت تعتقد أن الخصم سوف ينحسر على الأرجح بنسبة 90٪ على الأكثر ، وإلا انتقل مباشرة. لاحظ هنا أن كلا اللاعبين الذين يحيدون (أو كلاهما يسيران بشكل مستقيم) ليسا من توازن ناش ولكن كلا اللاعبين الذين يمايلون (أو كلاهما يسيران بشكل مستقيم) في توقع أن يمضي الخصم على التوالي (أو الانحراف) هو سيناريو توازن. أيضًا ، إذا تم تغيير المكافآت ، فإن نهجنا يوفر احتمالات محدثة. سباق التسلح: يقوم كل بلد في البداية بتخزين الأسلحة خشية مهاجمتها. ولكن كما هو موضح أدناه ، تتناقص العائدات المتراكمة من تخزين الأسلحة ، مما يتيح فرصة لمعاهدة سلام. ناش لا تحدد الفرصة لمعاهدة السلام. hunt stunt: hunt stag إذا كنت تعتقد أن الخصم سيصطدم بالخيمة على الأقل 50٪ ، وإلا فسيتم اصطياده. (توازن ناش النقي لكلاهما لاصطياد الأيل ، أو كليهما لمطاردة الأرنب). مشكلة Newcomb: إذا تم طرح مشكلة Newcomb باعتبارها معضلة السجين ، يمكن التوصل إلى حل لمشكلة Newcomb بطريقتين: مثل توازن ناش غير المتعاون باستخدام مبدأ الهيمنة ، أو كحل تعاوني باستخدام فرضية المنفعة المتوقعة. لعبة مقص الورق الصخري: توازن ناش هو أن تمارس لعبة 3 من جانب بشكل عشوائي. ما يبدو أنه استراتيجية جديدة لهذه اللعبة القديمة هو أن تلعب موسيقى الروك إذا كنت تعتقد أن خصمك سوف يلعب الورق باحتمالية 33٪ على الأكثر ومقص بنسبة 33٪ على الأقل ؛ للعب الورق إذا كنت تعتقد أن خصمك سيلعب المقص باحتمال 33٪ على الأكثر والروك مع احتمال 33٪ على الأقل ؛ آخر للعب مقص. (يمكن أن يساعدك نهجنا إذا قلت ، لديك بيانات عن مرات اللعب السابقة لخصمك في اللعبة.) تحتوي لعبة Bar-crowging على أصدقاء 3 A و B و C: أي شخص يذهب إلى الشريط وحده لا يحصل على شيء - البقاء في المنزل اختيار أفضل. إذا ذهب صديقان إلى البار ، فهذا هو الخيار الأفضل. إذا خرج الثلاثة ، فسيطرد الشريط الثلاثة. توازن ناش هو أن يظل الجميع في المنزل ، أو أن يلعب الجميع إستراتيجيتهم الأولى مع احتمال يساوي 33٪. ولكن إذا كان لديك أي نظرة ثاقبة لأصدقائك ويمكنك تقدير الاحتمالات بايزي لسلوكهم ، يمكن أن تساعد استراتيجيتنا.

نحن أيضًا نوسع نهجنا في لعبة M-person ونحصل على رؤى مماثلة. على سبيل المثال ، نعرض الحل الكامل لألعاب 2-person العامة وألعاب 3 الأشخاص × ألعاب 2 العامة.

فرضية المنفعة المتوقعة.

في لعبة 2-Person ، دع اللاعبين A و B لديهم استراتيجيات 2: A1 أو A2 للاعب A و B1 أو B2 للاعب B.

الأساس لنظرية المنفعة المتوقعة هو نظرية von Neumann - Morgenstern (von Neumann و Morgenstern [20]): دع Aij و Bij يكونا مردوداً للاعبين A و B على التوالي إذا لعب اللاعب A يلعب Ai و B يلعب Bj ، لأنني ، ي = 1 أو 2. تنص فرضية الأداة المساعدة المتوقعة على أنه يتعين على اللاعبين A و B مضاعفة أرباحهم المتوقعة 1:

حيث pA (Ai و Bj) هو احتمال أن يلعب اللاعب A دور A و B يلعب Bj ، وبالمثل بالنسبة للاعب B.

الاحتمالات الشرطية[1].

لنهجنا ، نحن قطرة افتراض ناش بأن احتمالات اللاعبين مستقلة بشكل متبادل. يتيح ذلك لمشكلتنا (1) أن تكون أكثر عمومية والحصول على المزيد من الحلول التي تفي بفرضية الأداة المتوقعة.

دع EP (A | Ai) و EP (B | Bj) هما العائد المتوقع[2],[3] من A و B على التوالي بالنظر إلى أن A يلعب Ai و B يلعب Bj ، لأن i ، j = 1 ، 2:

دعونا نبدأ بإثبات نظرية "بايزي" الابتدائية للألعاب مما يدل على تكافؤ نهجنا في صياغة VNM:

نظرية 1[5]. المشكلات (3) أدناه تعادل المشكلات (1)[6]:

برهان. بواسطة نظرية بايز ،

ثم،

الحد الأقصى[7] المعادلة أعلاه هي pA (A1) = 1 (أي ، استراتيجية اللعب A1) إذا EP (A | A1) ≥ EP (A | A2) ، أو pA (A1) = 0 (ie ، استراتيجية التشغيل A2) إذا EP ( A | A1) EP (A | A2). وبالتالي ، (3) يحمل لاعب A. وسيطة مماثلة يحمل لاعب BQED

مناطق VNM.

حدد مناطق VNM A1 و A2 لتكون polytopes المحدبة:

كما هو موضح أدناه ، يجب أن تلعب A الاستراتيجية A1 إذا كانت تتوقع أن يكون B في المنطقة A1. خلاف ذلك ، يجب أن تلعب A A2. خط التوازن

يفصل مساحة الاحتمال إلى المنطقتين ويوفر وسيلة مفيدة بصرياً لتحليل الموقف[8].

أهمية المناطق: تعد المنطقتان مهمتين من الناحية العملية ، حيث لا يحتاج المرء الآن إلى تقدير الاحتمال بدقة ، ولكن فقط تحديد أي من المنطقتين الموجود فيهما. بشكل متكرر ، سوف نرى أن الاحتمال السابق من المرجح أن يكون في منطقة واحدة ، وتحديد تلك المنطقة هو معلومات كافية لاقتراح اللعب المناسب للعبة. على سبيل المثال ، افترض أن المنطقة A1 أكبر بكثير من الأخرى ، لذلك من المحتمل جدًا أن تكون في تلك المنطقة A1. يوفر هذا معلومات مقنعة من المحتمل أن يلعبها اللاعب A على A1.

بشكل مماثل لـ B:

تعتمد مناطق VNM على توزيعات الاحتمالات السابقة للاعبين ، وغالبًا ما تسمى ببساطة الجوائز (Jaynes [13] ؛ Harsanyi [10] ؛ Kadane و Larkey [11]) ، والتي هي تعبير اللاعبين عن معتقداتهم حول توزيع الاحتمالات لل خصمهم. [9]

نتيجة طبيعية 2. بالنظر إلى (3) ، A A إستراتيجية اللعب A1 إذا وفقط إذا كان يتوقع أن يكون اللاعب B في منطقة VNM A1. آخر ، A يلعب استراتيجية A2. وبالمثل ، فإن B تلعب استراتيجية B1 إذا وفقط إذا كانت تتوقع أن يكون اللاعب A في منطقة VNM B1. آخر ، B يلعب استراتيجية B2.

برهان. EP (A | A1) ≥ EP (A | A2) إذا وفقط A11 pA (B1 | A1) + A12 pA (B2 | A1) ≥ A21 pA (B1 | A2) + A22 pA (B2 | A2) إذا وفقط (A11 - A12) pA (B1 | A1) + + (A21 - A22) pA (B2 | A2) + A12) + A21)

وبالمثل ، EP (B | B1) ≥ EP (B | B2) إذا وفقط B11 pB (A1 | B1) + B21 pB (A2 | B1) ≥ B12 pB (A1 | B2)

+ B22 pB (A2 | B2) إذا وفقط (B11 - B21) pB (A1 | B1) + + (B12 - B22) pB (A2 | B2) + B21) + B12) وهو المطلوب

من Theorem 1 و Corollary 2 ، للحصول على نقاط في المناطق (5) و (7) ، تحمل فرضية الأداة المساعدة المتوقعة ، أي تحدد مناطق VNM الحل العام للعبة 2-Person[10].

.

ناش التوازن.

.

إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، فسوف تبسط مناطق VNM إلى:

اقتراح 3. افترض أن توازن Nash (p (A1) ، p (B1)) في منطقة VNM Ai ومنطقة VNM Bj على التوالي ، بالنسبة لبعض i ، j = 1 ، 2. ثم ، سوف يلعب اللاعب A الإستراتيجية Ai واللاعب B سيلعب الإستراتيجية

ب. ج.

برهان. مشكلة توازن Nash هي مشكلة (1) ، حيث pA (Ai و Bj) = pB (Ai و Bj) = p (Ai) p (Bj) أو المشكلة (3) ، حيث pA (Bj | Ai) = p (Bj ) و pB (Ai | Bj) = p (Ai) ، لـ i ، j = 1 ، 2. وبالتالي ، يتم تعليق Corollary 2 ، حيث يتم تعريف مناطق VNM بواسطة (8) ، لـ pA (B1) = p (B1) و pB (A1) = p (A1). وهو المطلوب

أذكر أن معادلات التوازن

فصل مناطق VNM ، وبالتالي تسفر عن الحل العام لأي لعبة. نفس معادلات التوازن ، حيث pB (A1) = p (A1) و pA (B1) = p (B1) ، تسفر عن توازن Nash المختلط ، كما هو موضح في الجدول أدناه.

اقتراح 4. بالنظر إلى أي لعبة A = [[A11 ، A12] ، [A21 ، A22]] و B = [[B11 ، B12] ، [B21 ، B22]] ، يتم حساب توازن ناش للعبة من الصف المطبق في الجدول 112.

برهان. لاحظ أن (i ، j) عبارة عن توازن ناش نقي إذا وفقط sgn (2i - 1) * (A11 - A21)> 0 و sgn (2j - 1) * (B11 - B12)> = 0 ، 0. باستخدام هذه الحقيقة ، لكل صف في الجدول 1 ، ندرج جميع الأزواج (i ، j) التي هي توازن ناش خالص.

أخيرًا ، لكي يكون الزوج (أ ، ب) المحدد بواسطة (9) عبارة عن توازن ناش مختلط ، نحتاج فقط لإظهار أن 0 <a <1 و 0 <b <1. لكن لاحظ أنه بالنسبة للصفوف 6 و 7 و 10 و 11 من الجدول 1 ، يكون البسط والمقام لـ 1 - a أو b أو 1 - b موجب أو سالب. وبالتالي ، 1 - a ، b ، 1 - b كلها أكبر من 0. وهو المطلوب

.

مثال التكرار المهيمن[13].

دع A = [[2 ، 2] ، [3 ، 1]] و B = [[0 ، 1] ، [0 ، 2]]. "Play A1 & B2" هو توازن ناش.

اقتراح 5. المعطى A = [[2 ، 2] ، [3 ، 1]] و B = [[0 ، 1] ، [0 ، 2]] ، ثم سيشغل اللاعب A A1 وسيلعب اللاعب B B2.

برهان. منطقة VNM A1 هي: pA (B2 | A2) ≥ 1 / 2 ، ومنطقة VNM B2 هي: pB (A2 | B2) ≥ -1. وبالتالي ، فإن اللاعب B سيلعب B2. يعرف اللاعب A أيضًا أن هذا هو الحال ، ومن ثم ، فإن pA (B2 | A2) = 1. بما أن pA (B2 | A2) = 1 هي نقطة في منطقة VNM A1 ، فإن اللاعب A يلعب A1. وهو المطلوب

مثال التنسيق.

دع A = B = [[2 ، 0] ، [0 ، 1]]. هناك نقاط توازن 3 Nash: "تشغيل A1 و B1" ، و "تشغيل A2 و B2" ، و "تشغيل A1 (أو B1) مع الاحتمال 1 / 3". منطقة VNM A1 هي: 2pA (B1 | A1) ≥ pA (B2 | A2) ومنطقة VNM B1 هي: 2pB (A1 | B1) ≥ pB (A2 | B2). من خلال تحليل مناطق VNM بصريًا ، من المحتمل أن يختار A و B استراتيجيات A1 و B1 على التوالي.

اقتراح 6. بالنظر إلى A = B = [[2 ، 0] ، [0 ، 1]] ، إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، فاستخدم الإستراتيجية الأولى إذا كنت تعتقد أن احتمال الخصم في لعب استراتيجيته الأولى هو 1 / على الأقل 3 ، تلعب الاستراتيجية الثانية.

برهان. منطقة VNM A1 هي: pA (B1) ≥ 1 / 3 ومنطقة VNM B1 هي: pB (A1) ≥ 1 / 3. وهو المطلوب

.

معركة بين الجنسين مثال.

دع A = [[3 ، 1] ، [1 ، 2]] و B = [[2 ، 1] ، [1 ، 3]]. هناك نقاط توازن 3 Nash: "تشغيل A1 و B1" ، "تشغيل A2 و B2" ، و "تشغيل A1 مع الاحتمال 2 / 3 ، العب B1 مع الاحتمال 1 / 3". منطقة VNM A1 هي: 2pA (B1 | A1) ≥ pA (B2 | A2) ومنطقة VNM B1 هي: pB (A1 | B1) ≥ 2pB (A2 | B2). يفضل A اختيار A1 و B يفضل اختيار B2.

اقتراح 7. المعطى A = [[3 ، 1] ، [1 ، 2]] و B = [[2 ، 1] ، [1 ، 3]] ، إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، إذن: العب A1 إذا كانت pA (B1) ) ≥ 1 / 3 ، وإلا قم بتشغيل A2 ؛ قم بتشغيل B1 إذا pB (A1) ≥ 2 / 3 ، وإلا قم بتشغيل B2.

برهان. منطقة VNM A1 هي: pA (B1) ≥ 1 / 3 ومنطقة VNM B1 هي: pB (A1) ≥ 2 / 3. وهو المطلوب

.

مطابقة البنسات مثال.

دع A = [[1 ، -1] ، [-1 ، 1]] و B = [[-1 ، 1] ، [1 ، -1]]. تحتوي لعبة الصفر-صفر على توازن ناش: "العب A1 مع الاحتمال 1 / 2 ، العب B1 مع الاحتمال 1 / 2".

اقتراح 8. المعطى A = [[1 ، -1] ، [-1 ، 1]] و B = [[-1 ، 1] ، [1 ، -1]] ، إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، إذن: تشغيل A1 إذا كانت pA (B1) ≥ 1 / 2 ، فقم بتشغيل A2 ؛ لعب B1 إذا pB (A1) 1 / 2 ، وإلا قم بتشغيل B2[14].

برهان. منطقة VNM A1 هي: pA (B1) ≥ 1 / 2 ومنطقة VNM B1 هي: pB (A1) 1 / 2. وهو المطلوب

.

مثال لعبة الدجاج (Sugden [19]).

دع A = [[0 ، -1] ، [1 ، -10]] و B = [[0 ، 1] ، [-1 ، -10]]. توازن Nash هي "play A1 (swerve) و B2 (go straight)" و "play A2 (go straight) و B1 (swerve)" و "play A1 (B1) with probability 0.9".

اقتراح 9. في لعبة الدجاج ، إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، فعندئذ: انحرف إذا كنت تعتقد أن الخصم سوف ينحسر باحتمال 90٪ على الأكثر ، وإلا انتقل مباشرة.

.

برهان. منطقة VNM A1 هي: pA (B1) + 11pA (B2) ≥ 2 أو pA (B1) ≤ 9 / 10. وبالمثل ، فإن منطقة VNM B1 هي: pB (A1) ≤ 9 / 10. وهو المطلوب

لاحظ أنه إذا أبدى خصمك الكثير من الحماس (على الأقل 90٪) حتى تنحرف ، فيجب أن تمضي في الاتجاه الصحيح.

السيناريو المفضل: من المرجح أن ينحرف اللاعبون أكثر من الاتجاه المستقيم.

سيناريو الدجاج: افترض pA (B1) = pB (A1) = 0. كلا اللاعبين يتوقعون أن يذهب اللاعب الآخر مباشرة. كلا سوف تنحرف.

سيناريو الكارثة: افترض pA (B1) = pB (A1) = 1. يتوقع كلا اللاعبين أن ينحرف اللاعب الآخر. كلا سوف تذهب مباشرة[15].

سيناريو توازن ناش: افترض pA (B1) = 1 - pB (A1) ، و pB (A1) = 0 أو 1. اللاعب الذي يتوقع أن يمضي اللاعب الآخر في الدوران سوف يميل ، واللاعب الذي يتوقع أن ينحرف اللاعب الآخر سيكون مستقيمًا.

مثال سباق التسلح.

في العرض 9 ، اسمح A = [[0 ، -x] ، [1 ، -10x]] ، B = [[0 ، 1] ، [-y ، -10y]] ، لـ x ، y ≥ 0. دع A1 أو B1 أن يكونا "يسعون إلى السلام" و A2 أو B2 يكونان "هجومًا نوويًا". تشير القيمتان x و y إلى مخزون الأسلحة في B و A على التوالي.

يسعى البلد A إلى تحقيق السلام إذا كان احتمال أن تكون هجمات البلد B أكبر من 1 / (9x + 1) ؛ وإلا والهجمات. يسقط منحنى الاحتمال pA (B1) = 1 / (9x + 1) بسرعة ، على سبيل المثال ، pA (B1) = 1 / 2 at x = 1 / 9 ، ولكن سرعان ما تتسطح بشكل كبير: B تتسطح ، لن يكون هناك فائدة تذكر لـ B لتخزين الأسلحة.

وبالمثل بالنسبة للبلد B.

باختصار ، كل بلد في البداية يخزن الأسلحة خشية مهاجمته. لكن العوائد المتناقصة بسرعة على تخزين الأسلحة تتحقق ، مما يتيح فرصة للسعي إلى معاهدة سلام.

كما التوضيح ، والنظر في 2018 يقدر المخزونات النووية العالمية[16] الجدول 2.

بناءً على المكاسب الموضحة أعلاه وجدول 2 ، يجب على كوريا الشمالية المنطقية أن تسعى إلى إبرام معاهدة سلام مع الولايات المتحدة وروسيا.

Skyrms [16]).

دع A = [[4 ، 1] ، [3 ، 2]] و B = [[4 ، 3] ، [1 ، 2]]. توازن Nash هي "play A1 (Stag) و B1 (Stag)" و "play A2 (Hare) و B2 (Hare)" و "play A1 (B1) مع الاحتمال 0.5".

اقتراح 10. في لعبة اصطياد الأيدي ، إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، فعندئذ: اصطياد الأيل إذا كنت تعتقد أن الخصم سوف يصطاد الأيدي باحتمال 50٪ على الأقل ، وإلا فإن لعبة الصيد.

.

برهان. منطقة VNM A1 هي: 3pA (B1) + pA (B2) ≥ 2 أو pA (B1) ≥ 1 / 2. وبالمثل ، فإن منطقة VNM B1 هي: pB (A1) ≥ 1 / 2. وهو المطلوب

.

معضلة السجين[17].

دع A12 <A22 <A11 <A21 ، ودع B يساوي تبديل A.. نظرًا لأن A11 <A21 و A12 <A22 ، فإن استخدام مبدأ الهيمنة يؤدي إلى توازن Nash ، ألا وهو الحل غير التعاوني "تشغيل A2 (عيب) و B2 (عيب) ". ولكن نظرًا لأن A22 <A11 ، فإن A و B أفضل حالًا إذا لعب كلاهما الحل التعاوني "العب A1 (الصمت) و B1 (الصمت)".

اقتراح 11. في معضلة السجين ، إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، فإن اللاعبين يلعبون بشكل غير تعاوني[18].

برهان. النظر في الجانب الأيسر من منطقة VNM A1:

(A11 - A12 - A21 + A22) pA(B1) + A12 - A22.

إذا كان A11 - A12 - A21 + A22 ≤ 0 ، ثم (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ A12 - A22 <0. من ناحية أخرى ، إذا كان A11 - A12 - A21 + A22> 0 ، ثم (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ (A11 - A12 - A21 + A22) + A12 - A22 = A11 - A21 <0. وبالتالي ، بالنسبة لأي لاعب سابق ، فإن VNM region A1 هي مجموعة فارغة ، وبالتالي يجب أن تلعب استراتيجية 2.

وبالمثل ، يجب أن يلعب اللاعب B إستراتيجية 2. وهو المطلوب

.

يُظهر الاقتراح 11 بوضوح أن فرض الاستقلال يقيدنا بالحل غير المتعاون.

.

مثال على معضلة السجين الكلاسيكي.

في معضلة السجين الكلاسيكي ، A = [[-1 ، -3] ، [0 ، -2]] و B = [[-1 ، 0] ، [-3 ، -2]].

.

اقتراح 12. في معضلة السجين الكلاسيكي ، إذا كانت جوائز اللاعبين هي: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2 ، pB (A1 | B1) + pB (A2 | B2) سوف يلعب اللاعبون الحل التعاوني 3.

برهان. منطقة VNM A1 هي: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2 ، ومنطقة VNM B1 هي: pB (A1 | B1) + pB (A2 | B2) وبالتالي ، يجب على اللاعبين A و B أن يحلوا الحل التعاوني للجوائز المعطاة. وهو المطلوب

في Proposition 12 ، لاحظ الشريط العالي المطلوب لتشغيل الحل التعاوني. يفضل اللاعبون أن يلعبوا الحل غير المتعاون.

مثال حيث فشل نهج ناش في التفكير في لعب الاستراتيجية التعاونية.

النظر في معضلة السجين حيث A11 - A12 = A21 - A22 ، A21 = A11 + m و A22 = A11 - M ، حيث m> 0 صغير و M> 0 كبير جدًا. على سبيل المثال ، A = [[100 ، -3] ، [101 ، -2]]. أذكر من الاقتراح 11 أنه إذا كانت احتمالات اللاعبين مستقلة بشكل متبادل ، فسوف يلعب اللاعبون بشكل غير تعاوني.

من الواضح ، أنه سيكون من الغباء ألا يفكر اللاعبون حتى في لعب استراتيجية 1 لأنه إذا لعب لاعب 2 ، فإن فرصة لعب اللاعب الآخر مع 2 ستؤدي إلى خسارة كبيرة ، فلماذا المخاطرة بها. من الواضح أن نهج ناش يفشل في التفكير في لعب الحل التعاوني حتى عندما يكون هو الحل الواضح للعب - وهي نقطة مهمة للغاية في النقاشات حول انهيار السوق في نماذج التوازن الاقتصادي العام.

من ناحية أخرى ، كما يوضح الاقتراح التالي ، من خلال إسقاط افتراض الاستقلال ، سوف يلعب نهجنا الحل التعاوني بدلاً من الحل غير التعاوني.

الخط الأسود هو خط اللامبالاة لمعضلة السجين الكلاسيكي. من المرجح أن يلعب اللاعب استراتيجية 2 نظرًا لاحتمال عدم وجود استراتيجية للعب في المنطقة

1.

الخط الأخضر هو خط اللامبالاة في هذه الحالة من معضلة السجين: pA (B1 | A1) + pA (B2 | A2) = 1 + m / (M + m). هنا ، حجم منطقة الاحتمال للاستراتيجية 1 هو تقريبًا للاستراتيجية 2. ينصح نهجنا اللاعبين بالتفكير في لعب استراتيجية 1.

اقتراح 13. إعطاء معضلة السجين حيث A11 - A12 = A21 - A22 ، A21 = A11 + m و A22 = A11 - M ، حيث m> 0 صغيرة و M> 0 كبيرة للغاية ، واللاعبون A و B سيلعبون الحل التعاوني 20.

  • لذلك ، لن يلعب اللاعبون الحل غير المتعاون.
  • حاليًا ، للوصول إلى الحل التعاوني ، تتم إضافة الافتراضات ، على سبيل المثال ، العقلانية المحصورة ، المعلومات غير الكاملة (Aumann و Maschler [2] ؛ Acevedo و Krueger [4] ؛ Daley Given A probability Joint المتوقعة pA (Ai و Bj) ، A يخلص إلى أن يجب أن يكون pA (A1 و B1) بالقرب من 1 ، وذلك لأن من المحتمل أن تلعب A و B إستراتيجية 1 ، حيث تكون مردودهما مرتفعًا جدًا ووحدات م فقط أقل من الحد الأقصى.

لذلك ، يجب أن يكون pA (B1 | A1) = pA (A1 و B1) / pA (A1) أيضًا بالقرب من 1.

يخلص أيضًا إلى أن pA (A2 و B2) pA (A2 و B1) بما أن B من المستحسن أن تلعب الإستراتيجية 2 إذا كانت A تلعب الإستراتيجية 2. وبالتالي pA (B2 | A2) = pA (A2 و B2) / (pA (A2 و B1) + pA (A2 و B2)) 1 / 2. يستنتج A ، باستخدام الشكل 1 ، أن B موجود داخل منطقة VNM بشكل كاف A1. وبالمثل ، ستلعب B استراتيجية 1. وهو المطلوب

مفارقة نيوكومب كنسخة من معضلة السجين.

في مفارقة Newcomb الشهيرة (Wolpert و Benford [21]) ، يوجد تنبؤ B ، ولاعب A وصندوق X. ويتم منح اللاعب A خيار أخذ المربع X أو المربع X plus $ 1,000. قبل تحديد A ، يتنبأ B بما ستفعله A ، وتكون تنبؤات B مؤكدة تقريبًا. إذا توقع B أن A سيأخذ المربع X فقط ، ثم يضع B $ 1,000,000 في المربع X. في هذه الحالة ، حيث يحتوي المربع على 1,000,000 $ ، سيتلقى A $ 1,000,000 أو $ 1,001,000 اعتمادًا على ما إذا كان A يختار المربع X أو X زائد $ 1,000. من ناحية أخرى ، إذا توقع B أن يأخذ A المربع X زائد $ 1,000 ، فإن B لا يضع أي شيء في المربع X. في هذه الحالة ، بناءً على اختياراته ، فإن A يتلقى $ 1,000 أو لا شيء.

مفارقة Newcomb هي أن تحليلين عقلانيين مثاليين يعطيان إجابات متضاربة لمشكلة تحسين اللاعب A: بموجب فرضية المنفعة المتوقعة ، يجب أن يأخذ اللاعب A المربع X فقط ، نظرًا لأن العائد المتوقع من أخذ X أعلى بكثير. من ناحية أخرى ، بموجب مبدأ الهيمنة ، يجب أن يأخذ اللاعب A المربع X زائد $ 1,000.

من الأفضل فهم المفارقة من خلال مقطع في (Wolpert و Benford [21]): "... قال Newcomb إنه سيأخذ X فقط ؛ لماذا محاربة كائن يشبه الله؟ ومع ذلك ، قال Nozick ، ​​'بالنسبة إلى الجميع تقريبًا ، من الواضح تمامًا ما يجب القيام به. تكمن الصعوبة في أن هؤلاء الناس يبدو أنهم منقسمون على نحو متساوٍ تقريبًا حول المشكلة ، حيث تعتقد أعداد كبيرة أن النصف المقابل مجرد سخيفة. "...".

حل ولبرت وبنفورد المفارقة بإظهار أن مشكلة نيوكومب تمثل في الواقع مباراتين مختلفتين لهما نتائج احتمالية مختلفة.

في هذا القسم ، سنحل المفارقة من خلال طرح مشكلة Newcomb باعتبارها معضلة السجين. عند القيام بذلك ، يمكن التوصل إلى حل لمشكلة Newcomb بطريقتين: كحل غير تعاوني (خذ المربع X زائد $ 1,000) باستخدام مبدأ الهيمنة ، أو كحل تعاوني (خذ فقط المربع X) باستخدام المتوقع فرضية فائدة.

لنفترض أن هناك متبرعًا ثريًا يعد بتمويل مصفوفة مردود للتنبؤ ب ، مما يؤدي إلى اللعبة التالية: A = [[$ 1,000,000 ، 0] ، [$ 1,001,000 ، $ 1,000]] و B = [[$ 1,000,000 ، $ 1,001,000] ] ، [0 ، $ 1,000]].

إذا توقع B بشكل صحيح ، فإن B يحصل على ما يحصل عليه اللاعب A. ولكن إذا توقع B خطأ ، فستحصل B على 1,001,000 $ مطروحًا منها A لتحصل على 21.

من Proposition 13 ، سيلعب اللاعبون A و B بشكل تعاوني في هذه اللعبة.

إذا كان مثل ناش ، فإن اللاعب يحل المشكلة باستخدام مبدأ الهيمنة ، وكذلك يفعل المتنبئ. سيكون كل من المتنبئ والمشغل في حل غير تعاوني: خذ X plus $ 1,000. إذا قام المشغل بحل المشكلة باستخدام فرضية الأداة المساعدة المتوقعة ، فذلك يعني أن المتنبئ ، وسيكون كل من المتنبئ والمشغل في الحل التعاوني: خذ X فقط.

و Sadowski [6]) أو أساليب جديدة موصوفة ، على سبيل المثال ، الموازنة المتبادلة بين الأعراق (Axelrod [3] ؛ Aumann [1]).

21 لاحظ أنه من خلال طرح مشكلة Newcomb كمشكلة PD ، يتم منح المتنبئ حافزًا شخصيًا غائبًا عن مشكلة Newcomb.

المؤكد. نظرًا لأن من Proposition 13 ، لن يلعب اللاعبون الحل غير المتعاون ، نحن نتفق مع Newcomb على أن التعاون هو الإستراتيجية الواضحة التي يجب اتخاذها.

لاحظ في الشكل 1 ، أن منطقة التعاون أصغر من منطقة عدم التعاون. عندها لا يفاجئنا إذا انقسم الناس بالتساوي حول الاستراتيجية التي يجب اتخاذها.

تعميم معضلة السجين على م.

من أجل فهم أفضل للطريقة التي يمكن أن ينهار بها حل Nash في نماذج التوازن الاقتصادي العام ، دعونا نعمم معضلة السجين على M-Persons ، مع كل لاعب لديه استراتيجيات 2 ، من أجل M 2.

دعونا تصف لعبة M-Person عبر الأشجار الثنائية.

الشكل. 2 هو معضلة السجين بالنسبة للاعب A. شجرة (2 ، 1) هي الشجرة الثنائية مع اللاعب B (اللاعب 2) كأم ، واللاعب A (اللاعب 1) كطفل. للحصول على مكافأة اللاعب B ، ما عليك سوى تبديل أدوار الوالد والطفل إلى Tree (1 ، 2). تذكر أنه بالنسبة لمعضلة السجين ، A12 <A22 <A11 <A21.

بعد ذلك ، لنفترض أن الشجرة (M - 1 ، M - 2 ، ... ، 2 ، 1) تشير إلى مكافأة اللاعب A مقابل لعبة (M - 1) -Person ، من أجل M 3. صمم شجرة مكافأة اللاعب A (M ، M - 1 ، ... ، 2 ، 1) من أجل لعبة M-Person عن طريق السماح للاعب A's Tree (M - 1 ، M - 2 ، ... ، 2 ، 1) بأن يكون الأشجار الفرعية على كليهما فروع اللاعب الأصل M.

تختلف القيم العددية للمكافأة على الشجرة الفرعية اليمنى عن تلك الموجودة على الشجرة الفرعية اليسرى ، طالما أن العلاقة A12 <A22 <A11 <A21 يتم الحفاظ عليها في كل مكان في الشجرة.

أخيرًا ، أعطيت Tree (M ، M - 1 ، ... ، 2 ، 1) للاعب A ، أنشئ Tree (1 ، M ، M - 1 ، ... ، 3 ، 2) لمشغل B (المشغل 2) بجعل 1 هو الأعلى الأبوين؛ شجرة (1 ، 2 ، M ، M - 1 ، ... ، 4 ، 3) للاعب 3 بجعل 2 ثاني أعلى أصل ، ... ، شجرة (1 ، 2 ، 3 ، ... ، M - 2 ، M ، M - 1 ، ) للاعب M - 1 بجعل M - 2 ثالث أقل طفل ، Tree (1 ، 2 ، 3 ، ... ، M - 1 ، M) للاعب M بجعل M - 1 ثاني أقل طفل.

هذا يكمل وصف مردودات اللاعبين عن لعبة معضلة سجين M-Person ، مع كل لاعب لديه استراتيجيات 2.

نظرية 14. بالنسبة لمعضلة السجين M - الشخص ، م 2 ، باستخدام مبدأ الهيمنة ، فإن حل ناش هو أن يلعب اللاعبون استراتيجية 2.

برهان. نحن نعلم بالفعل أن النظرية تحمل M = 2. افترض بتحريض أن النظرية تحمل M - 1 ، لـ M 3. دعنا نظهر أن النظرية تحمل لـ M.

تذكر شجرة المقدمة (M ، M - 1 ، ... ، 2 ، 1) للاعب A ، أنه من خلال البناء ، تكون الأشجار الفرعية الموجودة على الفرعين الأيسر والأيمن من النموذج Tree (M - 1 ، M - 2 ، ... ، 2 ، 1) لمشغل 1 ، Tree (M ، M - 1 ، ... ، 2) لمشغل 2 ، Tree (2 ، M ، M - 1 ، ... ، 4 ، ... ، Tree (3 ، ... ، M - 3، M، M - 2) للاعب M - 2. هذه الأشجار الفرعية مطابقة للاعبين 1 ، 1 ، ... ، M - 1 ، باستثناء الملصقات على عقد الوالدين. لاحظ أن استراتيجية كل لاعب 2 تهيمن على استراتيجيته 1 تحت أي شرط. عن طريق الاستقراء ، باستخدام مبدأ الهيمنة ، سوف يلعب اللاعبون 2 إلى M - 1 استراتيجية 1.

لذلك ، بالنظر إلى شجرة (1 ، 2 ، ... ، M - 1 ، M) للاعب M ، إذا لعبت M 1 ، فإن المردود للاعب M هو b (العقدة الموجودة في أقصى اليمين من الشجرة) بينما بينما M يلعب 2 ، فإن المردود بالنسبة للاعب M هو A22 (عقدة أقصى الشجرة). وفقًا لمبدأ الهيمنة ، منذ A12 <A22 ، سوف يلعب اللاعب M أيضًا إستراتيجية 2. وهو المطلوب

افترض الآن أن أي مردود من النوع A11 أكبر بكثير من أي مردود من النوع A22 ؛ وذلك A21 = A11 + m ، حيث توجد العوائد A11 و A21 في العقد المجاورة.

من الواضح أن نهج ناش يفشل في التفكير في لعب الحل التعاوني "استراتيجية اللعب 1" حتى عندما يكون الحل الواضح للعب.

باتباع الوسيطة الاستقرائية الخاصة بـ Theorem 14 ، يمكننا أيضًا أن نستنتج أنه نظرًا لأن الأشجار الفرعية الموجودة على الفرعين الأيسر والأيمن من النموذج Tree (M - 1 ، M - 2 ، ... ، 2 ، 1) للاعب 1 ، Tree ( M - 1 ، M - 2 ، ... ، 2) لمشغل 2 ، شجرة (2 ، M ، M - 1 ، ... ، 4 ، 3) لمشغل 3 ، ... ، شجرة (2 ، ... ، M M - 2) للاعب M - 1 ، عن طريق الحث ، باستخدام فرضية المنفعة المتوقعة ، سيعمل اللاعبون من 1 إلى M - 1 على استراتيجية 1 حيث تكون العائد من النوع A1.

لذلك ، بالنظر إلى شجرة (1 ، 2 ، ... ، M - 1 ، M) للاعب M ، إذا لعبت M 1 ، فإن المردود للاعب M هو (العقدة الموجودة في أقصى اليسار من الشجرة) ، بينما إذا كان M يلعب 2 ، فإن اللاعب M هو A21 = A11 + m (العقدة الموجودة في أقصى اليسار من الشجرة). نظرًا لأن A11 <A21 ، قد يغري اللاعب M للعب استراتيجية 2. ولكن لماذا تلعب لعبة 2 الإستراتيجية لوحدات m أكثر من A11 ، عندما يمكن أن تؤدي إلى عائد من نوع A22 ، عائد أقل بكثير من A11؟

وفقًا لفرضية الأداة المساعدة المتوقعة ، يجب أن يلعب اللاعب M أيضًا إستراتيجية 1.

ألعاب M-person العامة.

أخيرًا ، نحن نعمم Theorem 1 للألعاب العامة للشخص.

فليكن هناك لاعبون M ، حيث يكون لدى كل لاعب لدي استراتيجيات محتملة لكل من i = 1 ، 2 ، ... ، M. بالنظر إلى متجه الإستراتيجية (j1 ، j2 ، ... ، jM) ، اسمح للمكافأة للاعب أن أكون Aij1j2 ... JM. اجعل xi استراتيجية مختلطة للاعب i ، أي ، استراتيجية الحادي عشر حيث Σي الحادي عشرj = 1 ، الحادي عشرj 0 ، كل j ، ودع x = (xi ، xi) تدل على استراتيجيات جميع اللاعبين. مشكلة ناش هي:

حيث EP (i | xi) هي العائد المتوقع للاعب الذي أعطيته xi وحيث يكون الجمع في كل مكان jk وكل k.

استراتيجية x * هي توازن ناش إذا كانت xi * حلاً لمشكلة اللاعب i أعلاه ، بالنظر إلى xi *.

لنهجنا ، واسمحوا بيj1، j2، ...، JM يكون اللاعب - من المتوقع أن يلعب اللاعب k jk ، ولجميع jk و k. تقول نظرية المنفعة المتوقعة من Von Neumann-Morgenstern أن هدف اللاعب الأول هو زيادة العائد المتوقع:

حيث انتهى الجمع على جميع jk وكل k.

حدد

حيث -لعب j-i يعني أن اللاعب k يلعب jk وحيث يكون الجمع في كل مكان jk ، لكل k i.

.

نظرية 15. المشكلات (13) أدناه تعادل المشكلات (11):

برهان.. حسب التعريف،

حيث يكون الجمع على كل rk ، لأي k i.

مقام (14) هو الاحتمال pi (i play ji). بالتالي،

منذ Σ pi (i play ji) = 1 و pi (i play ji) 0 للجميع ji ، يتبع ذلك اللاعب الذي يلعب الاستراتيجية [arg maxji EP (i | i play ji)]. وهو المطلوب

طريقة للعثور على أفضل إستراتيجية للاعب i هي كما يلي: بالنسبة لأي زوج من الاستراتيجيات للاعب i ، قل الإستراتيجية r والإستراتيجية ، احسب موضع النقاط التي أتوقع أن تكون العوائد المتوقعة مشروطة على اللاعب الذي ألعبه إما r أو s متساوٍ . هذا يحدد سطح اللامبالاة الذي يقسم مساحة الاحتمال الشرطي إلى مناطق 2 VNM. يتم تسمية منطقة VNM واحدة r لأن استراتيجية الاختيار هي r ، ومنطقة VNM الأخرى تسمى s لأن استراتيجية الاختيار هي s.

بعد الحسابات المذكورة أعلاه ، سيتم تصنيف كل منطقة من شبكات VNM عدة مرات حيث توجد أزواج متميزة من الاستراتيجيات. لأي منطقة VNM معينة ، خذ أيًا من التسميات المتعددة وقم بإزالة أحدها بناءً على سطح اللامبالاة الذي تم إنشاؤه بواسطة زوج التسميات هذا. تنتهي العملية عندما يكون لكل منطقة VNM تسمية واحدة فقط.

ألعاب 2-person العامة.

اسمح للاعب A بالاستراتيجيات Ai ، i = 1 ، 2 ، ... n1 والاعب B لديهم إستراتيجيات Bj ، j = 1 ، 2 ، ... n2. افترض أن احتمالات اللاعبين مستقلة بشكل متبادل. المشكلة (13) هي:

وبالتالي ، يتم تعريف مناطق VNM بواسطة polytopes محدب:

كما يمكن ملاحظته في (16) ، فإن العثور على الحل الذي تم تعيينه على لعبة 2-person العامة أمر واضح ومباشر. على سبيل المثال ، ضع في اعتبارك لعبة Rock-Paper-Scissors التي مضى عليها أكثر من ألفي عام ، حيث يكون توازن Nash: العب أي استراتيجية مع احتمال 33٪:

الإستراتيجية A1 أو B1 (صخرة) تخسر بسبب الإستراتيجية A2 أو B2 (ورقة) تخسرها الإستراتيجية A3 أو B3 (مقص) تفقد الصخور.

للاعب A ، بشكل عام لدينا ، حيث 0 السلطة الفلسطينية (ب. ج) 1,

مما يقلل ل

وبالمثل للاعب B.

ما يبدو أنه استراتيجية جديدة لهذه اللعبة القديمة هي: play rock إذا كنت تعتقد أن خصمك سوف يلعب الورق مع احتمال 33٪ على الأقل ومقص بنسبة 33٪ على الأقل ؛ لعب الورق إذا كنت تعتقد أن خصمك سيلعب المقص باحتمال 33٪ على الأكثر ، والروك باحتمال 33٪ على الأقل ؛ آخر تلعب مقص 22.

ألعاب 3-person حيث يوجد لكل شخص استراتيجيات 2.

دعنا نطبق Theorem 15 لإيجاد الحل المضبوط على لعبة 3 للشخص ، حيث يكون لكل لاعب A و B و C استراتيجيات 2 Ai و Bi و Ci و i = 1 و 2 على التوالي.

افترض أن احتمالات اللاعبين مستقلة بشكل متبادل. بالنسبة للاعب A ، المعادلة (13) هي

وبالمثل بالنسبة للاعبين B و C. باستخدام Theorem 15 ، يتم تعريف الحل عن طريق:

دعونا نستخدم ما سبق في لعبة Bar-crowding[21]:

إذا كان اللاعب في المنزل ، فإن مردوده هو 1 ؛ إذا كان اللاعب وحده في البار ، فإن مردوده هو 0 ؛ إذا كان اللاعب في البار مع شخص آخر ، فإن مردوده هو 2 ؛ وإلا ، فإن مردوده هو -1.

لدينا: A111 - A211 = -2 ، A112 - A212 = A121 - A221 = 1 ، A122 - A222 = -1 ، وبالتالي فإن VNM المنطقة A1 هي المنطقة -3pX (B1) (C1) - 2 ≥ 1 ، أو ما يعادلها المنطقة[22] pA (B1) ≥ (1 - 2pA (C1)) / (2 - 3pA (C1)). وبالمثل ، فإن منطقة VNM B1 هي المنطقة pB (A1) ≥ (1 - 2pB (C1)) / / (2 - 3pB (C1)) ومنطقة VNM C1 هي المنطقة pC (B1) ≥ (1) / (2 - 1pC (A2)). توازن Nash هي p (A) = p (B) = p (C) = 3 و p (A) = p (B) = p (C) = 1 / 1.

.

إعتراف.

نود أن نشكر الروث وتود ديفيز على مشورتهم وتوجيهاتهم القيمة في إعداد هذه الورقة.

الحواشي

[1] من أجل البساطة ، نضع افتراضًا شائعًا بأن الأداة المساعدة هي وظيفة خطية للعائد (Starmer [18]). وبالتالي ، فإن تعظيم المنفعة المتوقعة هو نفس تعظيم المردود المتوقع.

[2] يختلف أسلوبنا في الألعاب Bayesian عن الأعمال السابقة لـ Bayesian (على سبيل المثال ، Acevedo و Krueger [4] ؛ Aumann [1] ؛ و Daley و Sadowski [6] ؛ و McKelvey و Palfrey [12] ؛ و Quattrone و Tversky] في ذلك ، على عكس الأساليب الأخرى ، فإن النهج الذي نتبعه يعالج الاحتمالات الشرطية بشكل لا لبس فيه لفرضية المنفعة المتوقعة ، والتي يفي حلنا دائمًا بها.

[3] يقول ناقد: "اللاعبون العقلانيون لا يجب عليهم النظر في الاحتمالات الشرطية ولا ينبغي لهم أن يتخيلوا ... تخيلوا وكيلاً يعرف أن احتمال المطر هو p. يبدو أن "الحل" الخاص بك هو أن الوكيل يجب أن يأخذ مظلة معه إذا هطل المطر ويترك المظلة إذا لم تمطر ".
توضح نظرية 1 أن النقد السابق لا مبرر له. فيما يتعلق بالنقد الأخير ، دع EP (agent | إحضار مظلة) = p ، و EP (agent | لا تجلب مظلة) = 1 - p. سيكون حلنا بعد ذلك: إحضار مظلة إذا p ≥ 1 / 2 ؛ لا تحضر مظلة إذا كانت P ≤ 1 / 2.

[4] لا تنتهك الاحتمالات الشرطية لـ (2) المبدأ في Spohn [17]: "يجب ألا يحتوي أي نموذج قرار كمي مناسب صراحةً أو ضمنيًا على أي احتمالات ذاتية للأفعال ..." الاحتمالات الشرطية للاعب هي احتمالات ذاتية للخصم الاستراتيجيات ، وليس لاستراتيجياتها الخاصة.

[5] سيتم تعميم هذه النظرية على نظرية ألعاب M-person.

[6] لا يوجد أي إشارة بين اللاعبين.

[7] يُفترض أن المتغيرات المستقلة pA (B1 | A1) و pA (B2 | A2) مقدمة في مشكلة التعظيم ، وهو تبسيط يتجنب مشكلة التراجع اللانهائي (على غرار افتراض Nash بأن p (B1) معطاة A في صياغة مشكلة تعظيم له).

[8] عدم المساواة (5) هو الحل (المكتشف) للمشكلة (1) بنفس الطريقة التي تكون بها الصيغة التربيعية هي الحل لمعادلة تربيعية عامة.

[9] قد يعتمد الفائزون باللاعب على أحداث عشوائية يمكن ملاحظتها جزئيًا ، مثل الطقس. لاستخدام الفائزين في الألعاب ذات المعلومات غير المكتملة التي يلعبها لاعبو بايز ، يرجى الرجوع إلى (Harsanyi [10]).

[10] يحتوي هذا الحل العام على توازن ناش كحل خاص. على النقيض من حلول Nash الوصفي ، فإن الحل الخاص بنا هو زوج من الاستراتيجيات البحتة الواضحة للتوقعات العقلانية. علاوة على ذلك ، إذا كان اللاعب A عن طريق الخطأ ، يقع في منطقة VNM A1 ويلعب A2 ، يذكر Corollary 2 أن اللاعب A سيحصل على عائد متوقع أقل.

[11] من المثير للاهتمام أن نلاحظ أنه في توازن Nash المختلط ، تعتمد استراتيجية اللاعب على معرفة وظيفة المردود للاعب الآخر.

[12] يتم تجاهل علامات الصفر في الجدول ، نظرًا لأن هذه الحالات تتدهور: اللاعب غير قادر على الاختيار بين الاستراتيجيتين. أيضا ، من المثير للاهتمام أن نلاحظ أن كل توازن ناش يظهر في أربعة صفوف بالضبط.

[13] تم تبني أمثلة 3 التالية من (Davies [7]) بطريقة قد تكون بمثابة تقنية تربوية للطلاب في نظرية اللعبة. يمكن استخدام جدول 1 للعثور بسرعة على توازن ناش لجميع أمثلة ألعاب 2 الموضحة هنا.

[14] لا تؤثر تصرفات A على اختيار B للأعمال. وذلك لأن معتقدات A غير مرتبطة بمعتقدات B. من ناحية أخرى ، إذا كانت المعتقدات مرتبطة ، فعندئذ يجب أن تساوي احتمالات كلا اللاعبين 50٪ ، وإلا ، إذا قلت أن احتمالات اللاعبين كلاهما> 50٪ ، يعرف A أن B سيلعب استراتيجية 2 (ذيول) ، وبالتالي فإن استراتيجية 1 (الرؤوس) لا يمكن أن تكون وصفة طبية صحيحة لـ A. إذا قل ذلك ، فإن الاحتمال A هو> 50٪ واحتمال B هو <50٪ ، يعرف B أن A سيلعب رؤوسًا ، وبالتالي لا يمكن أن تكون رؤوس اللعب وصفة صحيحة لـ A. Etc. الحل الفريد هو توازن ناش: العب بشكل عشوائي لكليهما.

[15] لاحظ أن pA (B1) = pB (A1) = 0 أو 1 هو سيناريو توازن: كلا اللاعبين يذوبان (أو كلاهما يسيران مباشرة) إذا كان كلا اللاعبين يتوقعان أن يمرر اللاعب الآخر (أو يحرك). في المقابل ، p (A1) = p (B1) = 0 أو 1 لا يمكن أن يكون توازن ناش: إذا انتقلت B مباشرة (أو انحرفت) ، سوف تنحرف A (أو تذهب مباشرة).

[16] المصادر: جمعية الحد من الأسلحة ، اتحاد العلماء الأمريكيين ، الفريق الدولي المعني بالمواد الانشطارية ، وزارة الدفاع الأمريكية ، وزارة الخارجية الأمريكية ومعهد ستوكهولم الدولي لأبحاث السلام.

[17] منذ الورقة الأصلية لـ Flood and Dresher ، تم نشر الآلاف من المقالات حول هذا الموضوع. يؤدي بحث Google Scholar عن "معضلة السجين" إلى الحصول على نتائج 104,000 حتى كتابة هذه السطور. يرجى منح (Kuhn [14]).

[18] لذلك ، لن يلعب اللاعبون الحل التعاوني.

[19] إذا كان خصمك يلعب بشكل عشوائي ، فقد يتأثر لاعبك السابق باللعبات السابقة لخصمك في هذه اللعبة.

[20] يمكن توسيع الصيغة لتشمل M-الأشخاص ، من أجل M> 3.

[21] تعتمد هذه اللعبة على مشكلة El Farol bar (Arthur [5]).

[22] موضع اللامبالاة هو منحنى تربيعي يمر عبر النقاط (pA (C1) ، pA (B1)) = = (0.5 ، 0) ، (0.33 ، 0.33) ، (0 ، 0.5).

المراجع

[1] Aumann RJ (1974) الذاتية والارتباط في الاستراتيجيات العشوائية. مجلة الاقتصاد الرياضي 1: 67-96

[2] Aumann RJ، Maschler M (1995) ألعاب مكررة بمعلومات غير كاملة. معهد ماساتشوستس للتكنولوجيا الصحافة ، كامبريدج لندن

[3] أكسلرود آر (1984) تطور التعاون. كتب أساسية

[4] Acevedo M، Krueger JI (2005) التفكير السري في معضلة السجين. المجلة الأمريكية لعلم النفس 118: 431-457

[5] Arthur WB (1994) التفكير الاستقرائي والعقلانية المربوطة. American Economic Review 84: 406-411

[6] دالي ب ، Sadowski P (2017) التفكير السحري: نتيجة التمثيل. الاقتصاد النظري 12: 909-956 24 تستند هذه اللعبة إلى مشكلة El Farol bar (Arthur [5]). 25 موضع اللامبالاة هو منحنى تربيعي يمر عبر النقاط (pA (C1) ، pA (B1)) = (0.5 ، 0) ، (0.33 ، 0.33) ، (0 ، 0.5).

[7] نظرية الأدوات المساعدة ونظرية اللعبة لـ Davies T (2004). ملاحظات المحاضرة

[8] Garcia CB، Zangwill WI (2017) A New Approach to War or Peace. ورقة عمل

[9] Garcia CB ، Zangwill WI (2018) هيمنة ، الأداة المساعدة المتوقعة ومعضلة السجين. ورقة عمل

[10] ألعاب Harsanyi J (1967) مع معلومات غير كاملة لعبت من قبل اللاعبين "Bayesian" I - III. J. علوم الإدارة 14 (3): 159-182

[11] Kadane JB ، Larkey PD (1982) الاحتمالية الذاتية ونظرية الألعاب. علوم الإدارة 28 (2): 113-120

[12] McKelvey RD ، Palfrey TR (1995) Equalibria Response Equalibria for Normal Form Games. الألعاب والسلوك الاقتصادي 10: 6-38

[13] Jaynes ET (1968) الاحتمالات السابقة. معاملات IEEE على علوم النظم وعلم التحكم الآلي 4 (3): 227-241

[14] معضلة السجين Kuhn S (2017). موسوعة ستانفورد للفلسفة

[15] Quattrone GA، Tversky A (1984) السببية مقابل الحالات الطارئة للتشخيص: في الخداع الذاتي وخداع الناخب. مجلة الشخصية وعلم النفس الاجتماعي 46: 237-248

[16] Skyrms B (2004) The Stag Hunt وتطور الهيكل الاجتماعي. مطبعة جامعة كامبريدج ، كامبريدج

[17] Spohn W (1977) حيث يقوم تعميم Luce و Krantz حقًا بتعميم نموذج قرار Savage. Erkenntnis 11: 113-134

[18] Starmer C (2000) التطورات في نظرية المنفعة غير المتوقعة: البحث عن نظرية وصفية للاختيار تحت الخطر. مجلة الأدب الاقتصادي 38: 332-382

[19] Sugden R (2005) اقتصاديات الحقوق والتعاون والرفاهية. بالجريف ماكميلان ، طبعة 2: 132

[20] Von Neumann J، Morgenstern O (1953) نظرية الألعاب والسلوك الاقتصادي. مطبعة جامعة برينستون ، نيو جيرسي

[21] Wolpert DH ، Benford G (2011) درس مفارقة نيوكومب. Synthese 190: 1637-164