AlphaZero vermorzelt Stockfish in match

Groot nieuws in de wereld der engines. Het programma AlphaZero van Deepmind (Google) heeft met grote cijfers gewonnen van Stockfish: 64-36 (28 overwinningen, 72 remises). Het bijzondere is dat AlphaZero gebaseerd is op AI. Gewone engines doen wat de programmeur ze opdraagt (maar dan heel erg goed). AZ krijgt alleen de schaakregels ingevoerd en leert dan door heel veel tegen zichzelf te spelen wat de beste zetten zijn. Een ander verschil is dat zijn speelkracht niet gebaseerd is op heel diep rekenen (zoals bij de meeste engines) maar op superieure evaluatie.

Tien partijen van de match zijn bekend geworden en het is bijna een nieuw soort schaak wat AlphaZero doet. Neem bijvoorbeeld deze partij. In de stelling na 19…Kxh6 vindt de online engine zwart duidelijk beter staan. Ook mijn eigen engine denkt er in eerste instantie zo over, al trekt die na een tijdje rekenen bij. Ook later (32.c4) is er zo’n moment.

Ik ben niet bekend met de verdere plannen van Deepmind wat betreft AlphaZero en schaken, maar het programma zou een boel evaluaties van stellingen wel eens kunnen opschudden….

18 Comments

  1. Avatar
    Pieter Priems december 06, 2017

    Dat ze met AI werken is een stap vooruit. Als programma’s zelf kunnen leren geeft dat heel veel opties, ook buiten het schaken (en de financiële wereld). Ik ben benieuwd naar de uitkomsten en ook af de AI programma’s kunnen uitleggen wat en waarom ze iets doen.

  2. Avatar
    Ludo Tolhuizen december 06, 2017

    Is bekend of AlphaZero een openingsboek gebruikt? In de partij waar Dimitri naar verwijst wordt   tegen het dame-indisch  de pion offer variant met d5,exd5  Ph4 gespeeld. Ik zou het wel heel erg spectaculair vinden als de AlphaZero dit “zelf” zou hebben “gevonden”.

    • Avatar
      Han Schut december 06, 2017

      ‘Tabula Rasa’ en ‘Reinforcement Learning’ dus geen openingsboek of schaakkennis. Monte Carlo tree search met Bayesian optimization op Tensor Flow Units. In het wetenschappelijk artikel wordt ook aangegeven welke opening AZ speelt nadat het langere tijd heeft gehad om te leren: de relatieve frequentie van het Damegambiet en de Engelse opening nemen toe. Spectaculair! Mooie Sinterklaas surprise.

      Ondertussen wint Houdini 6 het officieuze WK van Komodo 11.2. Afknapper is dat Komodo door een bug in de compiler 23% langzamer rekende op de 44 cores dan in de halve finale.

      Stockfish had in de halve finale geen partij verloren. De uitslag 64-36 komt overeen met een ELO verschil van ongeveer 100 punten.

      Het artikel: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

      • Avatar
        Ludo Tolhuizen december 06, 2017

        Dank voor de link Han; interessant om te lezen dat ze bij Go de symmetrieen hadden gebruikt.  Het is  inderdaad spectaculair dat het met alleen reinforcement learning gaat, zonder openingsboek!

  3. Avatar
    Koorevaar december 06, 2017

     

    Verrassend is het niet helemaal dat Deepmind nu met Alpha Zero komt. Wel is verrassend dat Stockfish zo overtuigend is verslagen. Voorzichtig trekken we de conclusie dat alle engines Fritz, Houdini en Komodo ook verslagen zullen worden door Alpha Zero. AZ wordt alleen maar sterker. Ook de wereldkampioen zal geen schijn van kans hebben.

     

    Aan het artikel en het programma deden twee bekenden mee die al eerder op onze site langs kwamen. Demis Hassabis, de directeur van Deepmind en Matthew Lai, de student die Giraffe ontwikkelde.

     

    Zie:

     

    Tata Steel speelt Go

     

    Kan ‘Giraffe’ schaken leren?

     

    Mysterieuze spelers ‘magister’ en ‘master’ ontmaskerd .

     

  4. Avatar
    Herman Grooten december 06, 2017

    Vanaf nu zullen ook mijn analyses, gemaakt met behulp van Stockfish, met een korreltje zout genomen moeten worden; als ze dat al niet waren 🙂 Ik begin gelijk te krijgen dat ik hem af en toe overrule, maar ik vrees dat het einde van het schaakspel wellicht sneller nabij dreigt te komen dan we zouden willen…

  5. Avatar
    Tony Werten december 06, 2017

    Indrukwekkend, maar de publicatie is erg summier. De vraag is of AlphaZero van de engine Stockfish heeft gewonnen of dat het gaten in het openingsbook heeft gevonden.

    De tijdscontrole ( 1min /zet) is ook erg ongewoon voor engine testen, mijn eerste vraag is dan altijd “waarom”.

    Verder lijken de specificaties een hardwarevoordeel van een factor 16 voor AlphaZero aan te geven, wat voor 300 elo verschil zou moeten staan terwijl dit resultaat “slechts” 100 elo suggereert.

    Maar toch, erg indrukwekkend voor een zoekalgoritme waarvan gedacht werd dat het niet zou werken voor schaken.

    • Avatar
      Han Schut december 07, 2017

      Tony,

      Kun je uitleggen hoe je aan de factor 16 komt?

      Ik lees dat de match werd gespeeld op de volgende hardware.

      Hardware: AlphaZero: single machine met 4 TPUs. Stockfish: 64 CPUs threads en 1 GB hash. Evaluatiesnelheid: AlphaZero: 80k posities/seconde. Stockfish: 70,000k posities/seconde.

      Ik ben benieuwd hoe je 4 TPUs met 64 CPUs vergelijkt.

       

      • Avatar
        Tony Werten december 07, 2017

        Het is een beetje appels met peren vergelijken, maar als je het aantal TFlops van de apparaten vergelijkt komt je ergens tussen de 16 en 30 uit.

        Het aantal stellingen vergelijken loopt ook scheef. Monte Carlo Tree Search heeft een redelijk simpel basisprincipe. Als ik na zet A, 1000 random potjes speel en ik win 80% en na zet B win ik 60% van de random potjes, dan is A beter dan B. Deze 2 zetten (posities) worden toegevoegd en op die manier bouwt AlphaZero een zoekboom. Dat bouwen doet het met 80K posities per seconde, maar het aantal bezochte stellingen is minimaal 1000 partijen x gem 80 ply=80.000x hoger. Het aantal bezochte stelling ligt dus op minimaal 6.000.000.000 ( wederom met een behoorlijke natte vinger) Dit kan omdat er eigenlijk weinig evalutatie nodig is (alleen winst verlies remise) heel goed op videokaart achtige processoren plaatsvinden (itt standaard zoekalgoritmes)

        Het speciale van AlphaZero zit hem in de manier van het uitspelen van die random potjes. Die geven blijkbaar een goede voorspelling van de kwaliteit van een zet, waarbij voorheen aangenomen werd dat dit alleen voor strategische spelen zou werken.

        • Avatar
          Pieter Priems december 07, 2017

          Dat klinkt allemaal redelijk recht toe recht aan. Wat is nu het AI deel van AlphaZero? Hoe maken zie voorspelling van zetten? En hoe is dat anders dan bij bijvoorbeeld Stockfish?

  6. Avatar
    sake jan de boer december 07, 2017

    Pieter, dat vraag ik me dus ook steeds af. AI wordt naar mijn gevoel gepresenteerd als totaal iets nieuws. Terwijl ik soms denk: is het niet gewoon een combinatie van iets slimmer geprogrammeerde software met steeds exponentieel grotere wordende rekenkracht? Je hoort AI profeten soms ook de grootste onzin uitkramen: zoals dat de tijd niet meer ver weg is dat een robot een ziel heeft! Alsof het niet meer gewoon een apparaat blijft dat als je de stekker er uit doet en de batterijen leeg zijn gewoon een stuk oud ijzer is, dat je weer tot “leven” kunt wekken door de stekker er weer in te steken. Maar misschien zit ik helemaal mis wat dat AlphaZero betreft. Beweerd wordt dat puur alleen de regels van het spel zijn ingevoerd (geprogrammeerd neem ik aan) en dat het programma voor de rest volkomen zelflerend is. Zou dat echt waar zijn? Zo ja, dan is het echt revolutionair! In dat geval mag je mag je het trouwens geen schaakprogramma meer noemen maar is het een speloplosser. Een speloplosser dat met iets andere parameters elk willekeurig ander spel kan oplossen c.q. winnen b.v. bridge, poker, go, dammen, mens-erger-je-niet, nou ja: gewoon elke spel dus.

  7. Avatar
    Johan Hut december 07, 2017

    Over al dan niet onzinnige AI-profeten: met Kerst verschijnt in de regionale dagbladen van de Holland Media Combinatie een groot interview met Jaap van den Herik. Met maar een klein beetje schaken erin, maar ongetwijfeld weer spectaculaire voorspellingen. Ik ben er niet bij betrokken, maar weet er wel iets van. Hier kom ik op terug als het zover is.

     

    • Avatar
      Tony Werten december 07, 2017

      Ik doe een kleine gok: Rechters moeten vervangen worden door een ai, automobilisten moeten vervangen worden door een ai en, ach, laten we de doktoren ook maar vervangen door een ai 🙂

  8. Avatar
    sake jan de boer december 07, 2017

    @Pieter: ik zie een smiley, maar dit keer was ik gewoon serieus … of lachte je me uit 🙂 🙂 @Johan: ik zie het tegemoet, erg interessante materie!

     

  9. Avatar
    Pieter Priems december 14, 2017

    Duidelijker artikel in Chess Base https://en.chessbase.com/post/alpha-zero-comparing-orang-utans-and-apples

Only ingelogde gebruikers kunnen een reactie achterlaten.