Fb AI ReBel Mampu Mengalahkan Professional Poker

Kamis, 30 Juli, 2020 | Ditulis oleh Renee

Facebook Mengembangkan Poker ReBel AI Baru yang Dapat Mengalahkan Poker Pro

Fb telah mengembangkan AI lain yang bermain poker, kali ini menggunakan kerangka umum yang tidak terlalu bergantung pada pengetahuan area. Recursive Perception-based Studying (ReBel) Studying berputar di sekitar konsep "kondisi permainan", yang beroperasi melalui dua mannequin AI yang memungkinkannya untuk menciptakan "negara kepercayaan publik", yang pada gilirannya memberikannya kemampuan untuk mengungguli pemain manusia.

Bagaimana itu bekerja

Seperti banyak sistem AI lainnya, ReBel juga menggunakan penguatan belajar untuk belajar permainan secepat mungkin. Namun tidak seperti pendahulunya, ReBel mengimplementasikan konsep-konsep baru yang membantunya melampaui apa yang terlihat dan diketahui. Ini melatih dua Mannequin AI – satu untuk nilai, yang lain untuk kebijakan – dan kemudian menghasilkan negara kepercayaan publik, sangat mirip dengan bagaimana pemain manusia menguraikan apa yang ada di dalam pikiran lawan mereka.

Dengan demikian, ReBel mempertimbangkan tidak hanya information yang tersedia, seperti kartu, ukuran taruhan, atau rentang tangan, itu menggali lebih dalam informasi tersembunyi selama bermain sendiri, dan kemudian membuat subgame untuk melihat probabilitas dan semua tindakan yang mungkin dari lawan serta potensi hasil masing-masing tangan. ReBel kemudian membuat keputusan tentang aspek-aspek ini.

ReBel berbeda dari DeepZind's AlphaZero karena tidak mendasarkan keputusannya pada asumsi belaka; alih-alih, itu juga memperhitungkan pot, keripik, serta keyakinan dan kebijakan agen yang membantunya mencapai ambang akurasi tertentu saat membuat keputusan.

Uji Coba Buktikan ReBel Berkinerja Lebih Baik Daripada Poker Professional

Untuk menguji kemampuan ReBel, itu dibuat untuk bermain melawan salah satu pemain prime tanpa kepala tanpa batas, Dong Kim, bersama dengan tiga pemain lain yang sangat ahli.

Percobaan menunjukkan bahwa ReBel bermain lebih cepat daripada lawan manusianya, dan mengalahkan spesialis kepala Kim dengan skor agregat 165 ribu per blind besar, dengan deviasi rata-rata 69. ReBel juga mengungguli bermain poker sebelumnya di Fb AI Libratus yang mencapai skor rata-rata 147 ketika itu diadu dengan pemain manusia prime kembali pada tahun 2017.

Juga patut dicatat adalah fakta bahwa Libratus hanya mengalahkan Kim dengan 29 ribu buta besar selama pertandingan uji coba mereka. ReBel diujicobakan dalam versi dua pemain maintain'em – dadu pembohong, dan mengubah endgame maintain'em, dan hasilnya sama-sama mengesankan.

Aplikasi Masa Depan

Pendekatan yang digunakan oleh ReBel telah memungkinkannya untuk menguasai permainan informasi yang tidak sempurna, menjadikannya referensi yang layak untuk mengembangkan kerangka kerja common masa depan yang melibatkan interaksi multi-agen dalam pengaturan besar, seperti di bidang negosiasi, lelang, cybersecurity, dan self-driving truk dan mobil.

Karena tidak banyak bergantung pada pengetahuan area, algoritmanya lebih diarahkan untuk penggunaan umum dalam kasus dengan faktor yang kurang ditentukan. Satu-satunya masalah saat ini adalah potensi untuk digunakan oleh pemain sebagai cara canggih untuk menipu ketika bersaing di meja. Fb dengan cepat mengatasi ini dengan mengatakan itu tidak akan merilis foundation kode ReBel untuk poker.

Para peneliti bukannya memilih untuk open-source kode mereka untuk Dadu Liar yang fleksibel dan mudah dimengerti, dan yang juga dapat digunakan dalam penelitian masa depan.

Selama beberapa tahun terakhir, sistem AI telah berkontribusi besar dalam memecahkan berbagai permainan kompleks. Pada tahun 2017, Libratus dikembangkan di Universitas Carnegie Mellon pada awalnya untuk belajar poker, tetapi pengembangnya memiliki tujuan agar poker tersebut dapat digunakan di bidang utama lainnya yang tidak terkait dengan poker, seperti perencanaan medis, keamanan siber, dan negosiasi bisnis. AI mengambil empat professional poker teratas dan mengalahkan mereka semua.

Pada tahun 2019, AI Lab Fb mengembangkan poker lain yang disebut AI "Pluribus", dalam kemitraan dengan CMU. Ketika diujicobakan, ia mampu mengungguli enam pemain manusia dalam permainan maintain'em tradisional tanpa batas, menjadikannya bot pertama yang mengalahkan manusia dalam pengaturan multi-pemain. Itu juga dikembangkan menggunakan algoritma bermain sendiri. Di antara lawan manusianya tidak lain adalah pemenang gelang World Sequence of Poker, Chris Ferguson.