Algoritma Baru Facebook Dapat Bermain Poker Dan Mengalahkan Manusia Di Dunia Informasi / Digital

Apakah Anda pernah memikirkan mesin berbasis AI yang bermain poker dengan Anda? Jika imajinasi Anda menjadi liar maka Facebook siap untuk mewujudkannya dengan kerangka kerja AI umum baru yang disebut Pembelajaran Berbasis Keyakinan Rekursif (REBEL) berkinerja bahkan dapat berkinerja lebih baik daripada manusia di poker dan dengan sedikit pengetahuan domain dibandingkan dengan pengaturan poker sebelumnya yang dibuat dengan AI.

Dengan ReBel, Facebook juga akan berinteraksi multi-agen – yang berarti bahwa algoritma umum akan segera memiliki kapasitas untuk digunakan dalam skala besar dan untuk pengaturan multi-agen juga. Aplikasi potensial termasuk pekerjaan seperti pelelangan, negosiasi, dan keamanan siber atau pengoperasian mobil dan truk sendiri dapat dikendarai sendiri.

Rencana Facebook untuk menggabungkan pembelajaran penguatan dengan pencarian pelatihan version AI dapat mengarah pada beberapa kemajuan luar biasa. Ini karena Reinforcement Learning didasarkan pada agen yang belajar untuk mencapai tujuan untuk memaksimalkan imbalan sedangkan pencarian pada dasarnya didefinisikan sebagai proses yang dimulai dari rencana hingga tahap pengaturan tujuan.

Salah satu contohnya adalah Deepmind's Alpha Zero yang didasarkan pada app serupa untuk memberikan kinerja canggih dalam permainan papan seperti catur, shogi, dan Go. Namun, kombinasi gagal ketika diterapkan untuk permainan seperti poker karena informasi yang tidak sempurna dari dapat timbul sebagai akibat dari bagaimana situasi dalam permainan berubah. Tindakan kemudian mengambil bantuan dari probabilitas atau strategi permainan.

Oleh karena itu, mengusulkan solusi untuk masalah dalam bentuk ReBel, peneliti Facebook kini telah memperluas gagasan tentang “kondisi permainan” sambil memasukkan keyakinan agen yang bergantung pada keadaan mereka saat bermain – menghitung pengetahuan umum dan kebijakan dari pihak lain. pemain juga.

Saat bekerja, ReBel melatih dua version AI; satu dari jaringan nilai dan lainnya dari jaringan kebijakan. Ada penguatan pembelajaran yang terjadi dengan pencarian selama bermain sendiri yang akhirnya menghasilkan algoritma fleksibel yang sekarang berpotensi mengalahkan pemain manusia.

Untuk tingkat tinggi, ReBel beroperasi dengan negara-negara kepercayaan publik daripada pergi untuk negara-negara dunia. Jika itu mengejutkan Anda, maka kepercayaan publik menyatakan ada untuk menggeneralisasi gagasan”nilai negara” dalam match dengan informasi tidak sempurna seperti Poker. PBS juga lebih sering dianggap sebagai distribusi probabilitas pengetahuan umum atas pengaturan terbatas tindakan dan keadaan yang mungkin, yang kadang-kadang kita sebut sejarah juga.

Sekarang dalam sport informasi sempurna, PBS dapat didistilasi hingga ke sejarah seperti halnya disaring ke negara-negara dunia dalam sport zero-sum dua pemain. Tidak lupa bahwa PBS sebenarnya adalah keputusan yang dapat dilakukan oleh seorang pemain dan juga hasil dari kemungkinan di satu sisi.

Segera setelah ReBel mulai bekerja untuk setiap sport baru, ia menciptakan”subgame” di awal yang sangat mirip dengan yang asli, kecuali kenyataan bahwa akarnya kembali ke PBS awal. Algoritma ini benar-benar menang dengan mengulang runtime dari algoritma “equilibrium-finding” dan kemudian mengambil keuntungan dari jaringan nilai yang terlatih untuk membuat estimasi pada setiap tahap iterasi. Selanjutnya, dengan pembelajaran penegakan hukum, nilai-nilai keluar dengan mudah dan kemudian ditambahkan kembali ke jaringan sebagai contoh pelatihan. Kebijakan dalam “subgame” juga ditambahkan sebagai contoh. Proses ini terus berulang sampai PBS menjadi origin subgame baru dan menyelesaikan ambang batas akurasi tertentu.

Para peneliti juga membandingkan ReBel, sebagai bagian dari percobaan, untuk permainan poker maintain 'em Texas head-up tanpa batas, Liar's Dice, dan mengubah endgame grip 'em. Mereka menggunakan 128 PC dengan delapan kartu grafis hanya untuk menghasilkan information game mulai terstimulasi dan tentu saja menempatkan taruhan acak dan ukuran tumpukan (mulai dari 5. 000 hingga 25. 000 processor ) untuk menguji kemampuannya.

ReBel juga dilatih pada permainan dengan salah satu pemain poker terbaik di dunia Don Kim dan hasilnya ternyata ReBel bermain lebih cepat dari dua detik each tangan di 7. 500 tangan dan bagaimana itu tidak memakan waktu lebih dari 5 detik untuk keputusan apa pun. Secara keseluruhan ReBel mencetak 165 ribu – yang merupakan hasil yang cukup bagus jika dibandingkan dengan sistem bermain poker sebelumnya oleh raksasa websites sosial Libratus yang menghasilkan 147 ribu.

Untuk mencegah kecurangan, Facebook telah memutuskan bahwa mereka tidak akan merilis foundation kode ReBel untuk Poker. Perusahaan ini hanya mengimplementasikan Liar Dice dari sumber terbuka, yang menurut peneliti lebih mudah dipahami dan disesuaikan.

Foto: Josh Edelson / Agence France-Presse / Getty Images

Baca selanjutnya: Facebook Membanggakan 2,7 Miliar Pengguna Aktif Bulanan pada Kuartal Kedua 2020, 3,14 Miliar Dikombinasikan MAU di Whatsapp, Messenger, Instagram dan FB

. (tagsToTranslate) Dunia Informasi Digital: Algoritma Baru Facebook Dapat Bermain Poker Dan Mengalahkan Manusia