Dalam berita terbaru, tim peneliti di Fb telah memperkenalkan bot AI umum, Pemberontak yang dapat memainkan informasi sempurna, seperti catur dan permainan informasi yang tidak sempurna seperti poker dengan kemudahan yang sama, menggunakan pembelajaran penguatan. Seperti yang dikatakan perusahaan, ini adalah langkah besar untuk menciptakan algoritme AI umum yang dapat bekerja dengan baik di berbagai sport.
Para peneliti percaya bahwa algoritma ini akan memiliki aplikasi dunia nyata, termasuk menangani negosiasi, deteksi penipuan, dan bahkan keamanan siber.
Algoritma ReBeL
AlphaZero dari DeepMind dengan cepat menarik perhatian komunitas penelitian AI ketika dirilis pada tahun 2017. Program berbasis AI yang dapat memainkan sport seperti catur, shogi, dan Go tidak pernah terdengar, tapi AlphaZero berbeda karena menggunakan pembelajaran penguatan dengan penelusuran (RL + Penelusuran) untuk 'belajar sendiri' dengan meniru pemain kelas dunia.
Ada juga mannequin yang dirancang untuk memainkan permainan lain seperti poker. Misalnya, Fb, pada 2019, diperkenalkan Bot Pluribus yang berhasil mengalahkan ahli manusia dalam Maintain 'em enam pemain tanpa batas, yang merupakan format poker yang paling banyak dimainkan di dunia.
Namun, belum ada algoritme AI umum yang dirancang sedemikian rupa sehingga dapat memenangkan catur dan poker.
Bagi manusia, kami mengenali keduanya sebagai sport yang berbeda dalam arti luas. Namun, untuk sebuah mesin, ia mengklasifikasikan permainan seperti catur sebagai permainan informasi yang sempurna, di mana pemain mengetahui semua kemungkinan kejadian dan mengetahui atau dapat melihat gerakan pemain lain; permainan seperti poker diklasifikasikan sebagai permainan informasi yang tidak sempurna yang dibutuhkan pemain untuk menyeimbangkan semua hasil yang mungkin saat membuat keputusan dengan cepat.
Jadi, meskipun AlphaZero bekerja dengan baik untuk catur, ia rusak saat digunakan untuk permainan informasi yang tidak sempurna. Untuk mengatasi aspek ini, Fb kini telah memperkenalkan Recursive Perception-base Studying (ReBeL), yang menurut raksasa media sosial itu merupakan 'langkah besar menuju pembuatan algoritme AI yang lebih umum'.
ReBeL adalah peningkatan dari pembelajaran penguatan umum + algoritma Pencarian (juga digunakan oleh AlphaZero). Itu dibangun di atas mannequin sebelumnya seperti AlphaZero tetapi sekarang hadir dengan kemampuan tambahan untuk bermain sport seperti poker, di mana ia menilai peluang pemain lawan memiliki kartu tertentu, misalnya, sepasang ace.
ReBeL terbukti efektif dalam permainan informasi tidak sempurna dua pemain berskala besar dengan jumlah nol seperti poker. Kinerjanya dievaluasi pada dua permainan informasi yang tidak sempurna – Texas Maintain 'em head-up tanpa batas, suatu bentuk poker, dan Liar's Cube, permainan dadu' gertak-gertakan 'yang dimainkan dengan banyak bagian.
Tetap terhubung
Dapatkan pembaruan terkini dan penawaran relevan dengan membagikan e-mail Anda.
Saat bereksperimen, dalam kasus Texas Maintain'em head-up tanpa batas, ReBeL dapat mengalahkan pakar manusia dengan signifikansi statistik. Itu juga ditemukan bekerja dengan Liar's Cube, yang merupakan jenis informasi tidak sempurna lainnya permainan – dengan demikian menetapkan kemampuan mannequin sebagai kerangka umum. Fb sekarang implementasi open supply di Liar’s Cube untuk memungkinkan komunitas riset AI yang lebih luas mengembangkan hasil ini.