Outils pour utilisateurs

Outils du site


doc

Documentation Code Source Bruno

Requirements

  • RLLab (version?)
  • Tensorflow: (Bruno a travaillé avec version 1.1)
  • scipy le préentrainement de la partie perception (theta)

Démarrer les expériences

Dossier: experiment

  • cartpole_reinforce.py : version de rllab (utilise Theano)
  • tf_cartpole_reinforce.py : version Tensorflow simple
  • tf_cartpole_reinforce_pomdp.py : version Tensorflow POMDP: TFReinforcePOMDP
  • tf_cartpole_reinforce_rnn.py : 1ère version Tensorflow POMDP + RNN. Séquences complétées avec des zéros pour avoir des épisodes de longueur fixe. Redéroulement des étapes précédentes à chaque nouvelle étape. NE FONCTIONNE PAS

Essais Cart Pole avec récurrence

Dossiers

  • src/stats contient les fichiers produisant des graphiques d'apprentissage (récompense moyenne/min/max, erreur sur theta, etc), ainsi qu'un outil pour mesurer le temps d'exécution.
  • src/tools rassemble quelques utilitaires RL (experiment replay buffer), Tensorflow (restauration des poids, etc) et le générateur d'images d'angles utilisé pour replacer le paramètre theta par une image.
  • src/interactive_simulator contient le simulateur de Théo, transformé en environnement RL. Son fonctionnement et sa structure sont proches de ceux d'un environnement gym.

Au lancement d'une expérience, les données et les résultats sont placées dans un dossier situé dans data/<nom_de_la_classe>_<timestamp>.

Les données réutilisées se trouvent dans resources. On trouve les poids du réseau de convolution, entraîné à prédire theta. On trouve aussi la base d'images de theta générée et utilisée pour l'apprentissage.

Essais non retenus

  • tf_cartpole_reinforce_rnn_opti.py : version Tensorflow POMDP + RNN. Déroulement manuel de la forward pass avec réinjection de l'état interne produit à l'étape précédente. Structure du réseau définie dans le fichier reinforce_gaussian_actions_network.py. NE FONCTIONNE PAS
  • tf_cartpole_reinforce_load_mlp_weights.py : version Tensorflow POMDP + RNN. Chargement des poids pré-appris par le modèle tf_cartpole_reinforce_pomdp.py. NE FONCTIONNE PAS
  • tf_cartpole_reinforce_rnn_short_seq.py : version Tensorflow POMDP + RNN. Experience replay avec apprentissage sur sous-équences d'étapes de petite taille.
  • tf_cartpole_reinforce_pomdp_batch.py : version Tensorflow POMDP. Apprentissage sans batch (épisode par épisode, tous les batch_size épisodes)
  • tf_cartpole_reinforce_rnn_nobatch.py : version Tensorflow POMDP + RNN. Apprentissage sans batch (épisode par épisode, tous les batch_size épisodes)
doc.txt · Dernière modification: 2017/09/07 10:58 de lmatigno

Outils de la page

CNRS INSA de Lyon Université Lyon 1 Université Lyon 2 École centrale de Lyon