اخبار

شکست قهرمان پوکر توسط هوش مصنوعی در پوکر دو نفره

در مقاله ای که در مجله Science منتشر شده است، ذکر شده که هوش مصنوعی Pluribus یک سیستم خود فراگیر می باشد که این توانایی را دارد تا با شش بازیکن بدون محدودیت پوکر در تگزاس هولدم (Texas hold’em poker) مبارزه کند و همه بازیکنان، حتی افراد حرفه ای را شکست دهد. این دستاورد (گزارش مخترعین نوآم براون (Noam Brown) و توئوماس سندهلم (Tuomas Sandholm)، از دانشگاه کارنگی ملون در ایالات متحده) نقطه عطفی بسیار مهم در توسعه هوش مصنوعی به حساب می آید.

مزیت های هوش مصنوعی در بازی پوکر

تحقیقات اخیر سیستم هایی را تولید کرده است که قادر به خود فراگیری (self-learning) هستند و می توانند بازی تخته ای Go و بازی های ویدیویی آنلاین Dota 2 و StarCraft را یاد بگیرند. تفاوت اساسی بین این سرگرمی ها و کارت بازی مورد علاقه Pluribus در این است که در اولی، همه به عنوان بازی هایی دو نفره ساخته شده اند که همین امر در مورد سایر بازی های تسلط یافته به هوش مصنوعی (البته آموزش دیده و نه خود فراگیر) مانند شطرنج و چکرز نیز صدق می کند.

بازی پوکر یک نمونه از بازی ها با اطلاعات ناقص است. زیرا هیچ کدام از بازیکنان در هیچ نقطه ای از این بازی از تمامی المان های بازی اطالاعی ندارند و قادر نیستند تا دست بازیکن دیگر را دیده و یا حدس بزنند که دیگری چه حرکتی قرار است انجام دهد، اما بازی هایی مثل شطرنج و بازی تخته ای گو، از جمله بازی هایی با اطلاعات کامل هستند و تمامی اطلاعات مربوطه، جلوی چشم دو بازیکن قرار گرفته است.

پوکر از جمله بازی های حاصل جمع صفر یا مجموع صفر (Zero-sum Game) است، بر طبق این تعریف بازی، سود یک نفر با زیان فرد دیگر یکسان است، در نتیجه تغییر خالص سود، صفر می شود. البته بازی های مجموع صفر می توانند بیش از دو بازیکن و یا دارای میلیون ها شرکت کننده باشند.

تعادل در بازی پوکر دو نفره

بازی پوکر دو نفره

برای بازی های دو نفره، یافتن تعادل نش، نسبتاً آسان خواهد بود. نویسندگان از مثال بازی سنگ کاغذ قیچی استفاده می کنند. با استقرار سه حالت که دارای احتمالات برابری هستند، هیچ یک از بازیکنان پس از چندین مرتبه بازی، نمی توانند با اختلافی قابل توجه برنده و یا بازنده شوند و هر دو به تعادل نش پایبند می باشند.

اما به محض این که یکی از بازیکنان استراتژی خودش را تغییر می دهد، (به عنوان مثال استفاده از کاغذ فقط برای یک دوره)، بازیکن دیگری برنده خواهد شد.همان طور که بیان شد، تعادل نش از نظر تئوریک، برای بازی هایی که بیش از دو بازیکن دارند نیز وجود دارد، اما شناسایی آن ها بسیار دشوارتر است. لذا کاربرد عملی کمی دارند یا هیچ کاربردی نخواهد داشت. علاوه بر این، بازی های چند نفره از جمله پوکر ذاتاً به اطلاعات پنهان متکی می باشند (مقادیر کارت که فقط برای هر بازیکن مشخص است).

و این یکی از دلایل مهمی بود که براون و ساندولم، برای هوش مصنوعی Pluribus، از رویکرد خود فراگیری استفاده کردند. با انجام بازی هزاران بار، در برابر تکرارهای قبلی، این سیستم قادر به ایجاد استراتژی هایی مبتنی بر احتمال محض، (فارغ از تأثیر عادت و سنت پوکر ذاتی) بود.

نویسندگان نوشته اند که Pluribus با این عقیده که دانک-بت یک اشتباه است، موافق نیست. (دانک-بت شرط بندی است که در مقابل بازیکن تهاجمی دور قبلی شرط بندی انجام خواهد شد و فرصت ادامه دادن به بت را از وی می گیرد.)، Pluribus این کار را خیلی بهتر از افراد حرفه ای انجام می دهد.

در نتیجه، سیستم طرحی برای بازی های پوکر تهیه می کند، که اساساً لیستی از استراتژی های ممکن بر اساس کارت های پخش شده می باشد. با این وجود، از این طرح تنها برای دست اول در هر بازی استفاده می شود، سپس در زمان واقعی برای هر دست بعدی تنظیم خواهد شد.

شکست پوکربازهای حرفه ای توسط هوش مصنوعی

استراتژی طراحی دیگری نیز به این ترکیب اضافه می شود. Pluribus با bucketing دست های مشابه (به عنوان مثال، استریت nine-high و ۱۰-high) و برخورد یکسان با آن ها، عوارض را کاهش می دهد. رویکردی مشابه شرط بندی را شامل می شود، به جای این که گزینه سنتی پوکر انسانی را از ۱۰۰ تا ۱۰ هزار دلار انتخاب نماید، سیستم در هر نقطه یکی از ۱۴ مبلغ را جهت شرط بندی انتخاب می کند.

با این حال، نویسندگان به این نکته اشاره دارند که چنین سبکی فقط زمانی استفاده می شود که هوش مصنوعی Pluribus بتواند احتمال دست های آینده (حرکات غیر قابل پیش بینی سایر بازیکنان) را تخمین بزند.

آن ها در ادامه می افزایند: جمع آوری اطلاعات می تواند به شدت پیچیدگی بازی را کاهش دهد اما ممکن است تفاوت های ظریفی را که جهت عملکردهای فوق بشری مهم هستند را از بین ببرد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
⭐شروع پوکر آنلاین⭐