Projet Transverse CROME+

Table des matières

Documentation Code Source Bruno
- Dossiers
- Essais non retenus

Documentation Code Source Bruno

Requirements

RLLab (version?)
Tensorflow: (Bruno a travaillé avec version 1.1)
scipy le préentrainement de la partie perception (theta)

Démarrer les expériences

Dossier: experiment

cartpole_reinforce.py : version de rllab (utilise Theano)
tf_cartpole_reinforce.py : version Tensorflow simple
tf_cartpole_reinforce_pomdp.py : version Tensorflow POMDP: TFReinforcePOMDP
tf_cartpole_reinforce_rnn.py : 1ère version Tensorflow POMDP + RNN. Séquences complétées avec des zéros pour avoir des épisodes de longueur fixe. Redéroulement des étapes précédentes à chaque nouvelle étape. NE FONCTIONNE PAS

Essais Cart Pole avec récurrence

Dossiers

src/stats contient les fichiers produisant des graphiques d'apprentissage (récompense moyenne/min/max, erreur sur theta, etc), ainsi qu'un outil pour mesurer le temps d'exécution.

src/tools rassemble quelques utilitaires RL (experiment replay buffer), Tensorflow (restauration des poids, etc) et le générateur d'images d'angles utilisé pour replacer le paramètre theta par une image.

src/interactive_simulator contient le simulateur de Théo, transformé en environnement RL. Son fonctionnement et sa structure sont proches de ceux d'un environnement gym.

Au lancement d'une expérience, les données et les résultats sont placées dans un dossier situé dans data/<nom_de_la_classe>_<timestamp>.

Les données réutilisées se trouvent dans resources. On trouve les poids du réseau de convolution, entraîné à prédire theta. On trouve aussi la base d'images de theta générée et utilisée pour l'apprentissage.

Essais non retenus

tf_cartpole_reinforce_rnn_opti.py : version Tensorflow POMDP + RNN. Déroulement manuel de la forward pass avec réinjection de l'état interne produit à l'étape précédente. Structure du réseau définie dans le fichier reinforce_gaussian_actions_network.py. NE FONCTIONNE PAS
tf_cartpole_reinforce_load_mlp_weights.py : version Tensorflow POMDP + RNN. Chargement des poids pré-appris par le modèle tf_cartpole_reinforce_pomdp.py. NE FONCTIONNE PAS
tf_cartpole_reinforce_rnn_short_seq.py : version Tensorflow POMDP + RNN. Experience replay avec apprentissage sur sous-équences d'étapes de petite taille.
tf_cartpole_reinforce_pomdp_batch.py : version Tensorflow POMDP. Apprentissage sans batch (épisode par épisode, tous les batch_size épisodes)
tf_cartpole_reinforce_rnn_nobatch.py : version Tensorflow POMDP + RNN. Apprentissage sans batch (épisode par épisode, tous les batch_size épisodes)

Projet Transverse CROME+

Outils pour utilisateurs

Outils du site

Panneau latéral