rll/CCL_doc/ccl__learn__policy_8h_source.html

 #ifndef __CCL_LEARN_POLICY_H

 #define __CCL_LEARN_POLICY_H


 #include <ccl_math.h>

 #include <gsl/gsl_linalg.h>

 #include <gsl/gsl_blas.h>

 #include <gsl/gsl_math.h>

 #include <gsl/gsl_eigen.h>

 #include <gsl/gsl_sf.h>

 #include <stdio.h>

 #include <string.h>

 #include <stdlib.h>

 #ifdef __cplusplus

 extern "C" {

 #endif


 #define NUM_CENTRES 20


 typedef struct {

     gsl_matrix* HS;

     gsl_matrix* g;

     gsl_matrix* Y_T;

     gsl_matrix* Y_;

     gsl_matrix* H;

     gsl_matrix* BX_T;

     gsl_matrix* BX_;

     gsl_matrix* w_;

     gsl_matrix* pinvH1;

     gsl_vector* V;

     gsl_matrix* D;

     int    * idx;

 }LEARN_MODEL_PI_WS;


 typedef struct{

     int      dim_y;

     int      dim_x;

     int      dim_n;

     int      dim_b;

     double * w;

 }LEARN_MODEL_PI;


 typedef struct{

     int      dim_y;

     int      dim_x;

     int      dim_n;

     int      dim_b;

     int      dim_phi;

     double * c;

     double   s2;

     double * w[NUM_CENTRES];

 }LEARN_MODEL_LW_PI;


 typedef struct {

     gsl_vector* g;

     gsl_matrix* Y_N;

     gsl_vector* YN_vec;

     gsl_matrix* Y_Phit;

     gsl_matrix* ones;

     gsl_matrix* Y_;

     gsl_matrix* H;

     gsl_matrix* Phi;

     gsl_vector* Phi_vec;

     gsl_matrix* Phi_vec_T;

     gsl_matrix* YN_Phit;

     gsl_vector* YN_Phi_vec;

     gsl_matrix* YN_Phi_vec_T;

     gsl_matrix* vv;

     gsl_matrix* WX_;

     gsl_vector* WX_row;

     gsl_matrix* WPhi;

     gsl_matrix* WPhi_T;

     gsl_matrix* pinvH1;

     gsl_vector* V;

     gsl_vector* r;

     gsl_matrix* r_rep;

     gsl_matrix* D;

     int    * idx;

     gsl_vector* w_vec;

     gsl_matrix* w_;

     gsl_matrix* w_T;

     gsl_matrix* w[NUM_CENTRES];

 }LEARN_MODEL_LW_PI_WS;


 void ccl_learn_policy_pi(LEARN_MODEL_PI *model, const double *BX, const double *Y);


 int ccl_learn_model_pi_ws_alloc(LEARN_MODEL_PI *model,LEARN_MODEL_PI_WS* ws);


 int ccl_learn_model_pi_ws_free(LEARN_MODEL_PI_WS* ws);


 void ccl_learn_policy_lw_pi(LEARN_MODEL_LW_PI *model, const double *WX, const double *X, const double *Y);


 int ccl_learn_policy_lw_pi_model_alloc(LEARN_MODEL_LW_PI *model);


 int ccl_learn_policy_lw_pi_model_free(LEARN_MODEL_LW_PI *model);


 int ccl_learn_model_lw_pi_ws_alloc(LEARN_MODEL_LW_PI *model,LEARN_MODEL_LW_PI_WS* ws);


 int ccl_learn_model_lw_pi_ws_free(LEARN_MODEL_LW_PI_WS* ws);


 void predict_linear(const double* X, const double* centres,const double variance,const LEARN_MODEL_PI *model,double* Yp);


 void predict_local_linear(const double* X, const double* centres,const double variance,const LEARN_MODEL_LW_PI *model,double* Yp);


 int ccl_read_data_from_file(char* filename, int dim_x, int dim_n, double* mat);


 int ccl_write_lwmodel_to_file(char* filename, LEARN_MODEL_LW_PI* model);

 #ifdef __cplusplus

 }

 #endif

 #endif


LEARN_MODEL_LW_PI_WS::g
gsl_vector * g
Col vector of YPhit.
Definition: ccl_learn_policy.h:87

LEARN_MODEL_PI_WS::w_
gsl_matrix * w_
Model parameters.
Definition: ccl_learn_policy.h:41

ccl_learn_policy_pi
void ccl_learn_policy_pi(LEARN_MODEL_PI *model, const double *BX, const double *Y)
Main computation routine for learning linear policy.

LEARN_MODEL_PI::dim_b
int dim_b
Number of rbf centers.
Definition: ccl_learn_policy.h:57

LEARN_MODEL_LW_PI_WS::WPhi_T
gsl_matrix * WPhi_T
Transpose of WPhi.
Definition: ccl_learn_policy.h:104

predict_local_linear
void predict_local_linear(const double *X, const double *centres, const double variance, const LEARN_MODEL_LW_PI *model, double *Yp)
Predictions based on locally weighted linear policy model.

LEARN_MODEL_LW_PI_WS::YN_Phit
gsl_matrix * YN_Phit
Dot prodcut of YN * Phit.
Definition: ccl_learn_policy.h:97

ccl_learn_policy_lw_pi_model_alloc
int ccl_learn_policy_lw_pi_model_alloc(LEARN_MODEL_LW_PI *model)
Allocates the memory for locally weighted linear policy LEARN_MODEL_LW_PI.

LEARN_MODEL_PI_WS::H
gsl_matrix * H
Dot product of BX and BX'.
Definition: ccl_learn_policy.h:38

LEARN_MODEL_LW_PI_WS::Phi_vec
gsl_vector * Phi_vec
Feature vector.
Definition: ccl_learn_policy.h:95

ccl_learn_model_lw_pi_ws_alloc
int ccl_learn_model_lw_pi_ws_alloc(LEARN_MODEL_LW_PI *model, LEARN_MODEL_LW_PI_WS *ws)
Allocates the workspace memory for locally weighted linear policy LEARN_MODEL_LW_PI_WS.

LEARN_MODEL_PI_WS::Y_T
gsl_matrix * Y_T
Transpose of Y_.
Definition: ccl_learn_policy.h:36

ccl_read_data_from_file
int ccl_read_data_from_file(char *filename, int dim_x, int dim_n, double *mat)
Read data from .txt file.

LEARN_MODEL_PI::dim_y
int dim_y
Dimentionality of output variable.
Definition: ccl_learn_policy.h:54

LEARN_MODEL_LW_PI::dim_b
int dim_b
Number of rbf centers.
Definition: ccl_learn_policy.h:71

LEARN_MODEL_LW_PI_WS::w_T
gsl_matrix * w_T
Transpose of model parameter w for each center.
Definition: ccl_learn_policy.h:113

LEARN_MODEL_LW_PI::s2
double s2
rbf variance
Definition: ccl_learn_policy.h:74

LEARN_MODEL_LW_PI_WS::H
gsl_matrix * H
Accumulated Hessian.
Definition: ccl_learn_policy.h:93

LEARN_MODEL_LW_PI_WS::Y_
gsl_matrix * Y_
Output variable.
Definition: ccl_learn_policy.h:92

LEARN_MODEL_PI::dim_n
int dim_n
Number of data samples.
Definition: ccl_learn_policy.h:56

LEARN_MODEL_LW_PI::dim_n
int dim_n
Number of data samples.
Definition: ccl_learn_policy.h:70

LEARN_MODEL_LW_PI_WS::YN_vec
gsl_vector * YN_vec
Vector view of Y_N.
Definition: ccl_learn_policy.h:89

LEARN_MODEL_PI_WS::HS
gsl_matrix * HS
Regularization basis for the H matrix.
Definition: ccl_learn_policy.h:34

LEARN_MODEL_LW_PI_WS
This structure describes workspace for directly learning the policy model parameters using locally we...
Definition: ccl_learn_policy.h:86

LEARN_MODEL_LW_PI_WS::D
gsl_matrix * D
Eigen values of H.
Definition: ccl_learn_policy.h:109

LEARN_MODEL_LW_PI_WS::Y_N
gsl_matrix * Y_N
Normalised Y.
Definition: ccl_learn_policy.h:88

LEARN_MODEL_PI_WS::Y_
gsl_matrix * Y_
Output variable.
Definition: ccl_learn_policy.h:37

LEARN_MODEL_PI_WS::BX_
gsl_matrix * BX_
High dimensionality of the input data.
Definition: ccl_learn_policy.h:40

LEARN_MODEL_LW_PI_WS::w_vec
gsl_vector * w_vec
Vector view of model parameter w for each center.
Definition: ccl_learn_policy.h:111

LEARN_MODEL_LW_PI_WS::WX_
gsl_matrix * WX_
Dot product of W * X_.
Definition: ccl_learn_policy.h:101

ccl_learn_model_lw_pi_ws_free
int ccl_learn_model_lw_pi_ws_free(LEARN_MODEL_LW_PI_WS *ws)
Free the workspace memory for locally weighted linear policy LEARN_MODEL_LW_PI_WS.

LEARN_MODEL_LW_PI::c
double * c
rbf centers
Definition: ccl_learn_policy.h:73

LEARN_MODEL_LW_PI_WS::ones
gsl_matrix * ones
Matrix of all ones.
Definition: ccl_learn_policy.h:91

LEARN_MODEL_LW_PI::dim_phi
int dim_phi
Dimensionality of feature.
Definition: ccl_learn_policy.h:72

LEARN_MODEL_PI_WS::pinvH1
gsl_matrix * pinvH1
Peuso inverse of H1.
Definition: ccl_learn_policy.h:42

NUM_CENTRES
#define NUM_CENTRES
Definition: ccl_learn_policy.h:23

predict_linear
void predict_linear(const double *X, const double *centres, const double variance, const LEARN_MODEL_PI *model, double *Yp)
Predictions based on linear policy model.

LEARN_MODEL_LW_PI_WS::r
gsl_vector * r
Normalisation scaler for YN.
Definition: ccl_learn_policy.h:107

ccl_learn_policy_lw_pi_model_free
int ccl_learn_policy_lw_pi_model_free(LEARN_MODEL_LW_PI *model)
Free the memory for locally weighted linear policy LEARN_MODEL_LW_PI.

LEARN_MODEL_LW_PI_WS::V
gsl_vector * V
Eigen vector of H.
Definition: ccl_learn_policy.h:106

LEARN_MODEL_LW_PI_WS::w_
gsl_matrix * w_
Model parameter w for each center.
Definition: ccl_learn_policy.h:112

LEARN_MODEL_PI_WS::D
gsl_matrix * D
Diagobal matrix with eigen values of H.
Definition: ccl_learn_policy.h:44

LEARN_MODEL_LW_PI::dim_x
int dim_x
Dimentionality of input state variable.
Definition: ccl_learn_policy.h:69

LEARN_MODEL_LW_PI_WS::Phi_vec_T
gsl_matrix * Phi_vec_T
Transpose of Feature vector.
Definition: ccl_learn_policy.h:96

LEARN_MODEL_LW_PI_WS::pinvH1
gsl_matrix * pinvH1
Peudo inverse of H1.
Definition: ccl_learn_policy.h:105

LEARN_MODEL_PI::w
double * w
Model parameters.
Definition: ccl_learn_policy.h:58

ccl_write_lwmodel_to_file
int ccl_write_lwmodel_to_file(char *filename, LEARN_MODEL_LW_PI *model)
Write locally weighted model to .txt file.

LEARN_MODEL_LW_PI_WS::vv
gsl_matrix * vv
Dot product of v * v.
Definition: ccl_learn_policy.h:100

LEARN_MODEL_LW_PI_WS::WPhi
gsl_matrix * WPhi
Dot product of W * Phi.
Definition: ccl_learn_policy.h:103

LEARN_MODEL_PI_WS::idx
int * idx
index
Definition: ccl_learn_policy.h:45

LEARN_MODEL_LW_PI_WS::r_rep
gsl_matrix * r_rep
Replication matrix of r.
Definition: ccl_learn_policy.h:108

LEARN_MODEL_PI_WS
This structure describes workspace for directly learning the policy model parameters using linear reg...
Definition: ccl_learn_policy.h:33

LEARN_MODEL_PI_WS::V
gsl_vector * V
Eigen vector of H.
Definition: ccl_learn_policy.h:43

ccl_math.h
CCL header file for math.

LEARN_MODEL_LW_PI_WS::WX_row
gsl_vector * WX_row
Row vector of WX_.
Definition: ccl_learn_policy.h:102

ccl_learn_model_pi_ws_alloc
int ccl_learn_model_pi_ws_alloc(LEARN_MODEL_PI *model, LEARN_MODEL_PI_WS *ws)
Allocates the workspace memory for directly learning policy pi.

LEARN_MODEL_PI_WS::BX_T
gsl_matrix * BX_T
Transpose of BX_.
Definition: ccl_learn_policy.h:39

ccl_learn_policy_lw_pi
void ccl_learn_policy_lw_pi(LEARN_MODEL_LW_PI *model, const double *WX, const double *X, const double *Y)
Main computation routine for locally weighted linear policy.

LEARN_MODEL_PI_WS::g
gsl_matrix * g
Dot product of BX and U.
Definition: ccl_learn_policy.h:35

LEARN_MODEL_LW_PI::dim_y
int dim_y
Dimentionality of output variable.
Definition: ccl_learn_policy.h:68

LEARN_MODEL_LW_PI_WS::YN_Phi_vec_T
gsl_matrix * YN_Phi_vec_T
Transpose of YN_Phi_vec.
Definition: ccl_learn_policy.h:99

LEARN_MODEL_LW_PI
This structure describes learning a direct locally weighted linear policy model parameters LEARN_MODE...
Definition: ccl_learn_policy.h:67

LEARN_MODEL_PI
This structure describes learning a direct linear policy model parameters LEARN_MODEL_PI.
Definition: ccl_learn_policy.h:53

LEARN_MODEL_LW_PI_WS::YN_Phi_vec
gsl_vector * YN_Phi_vec
Vector view of YN_Phit.
Definition: ccl_learn_policy.h:98

LEARN_MODEL_LW_PI_WS::Y_Phit
gsl_matrix * Y_Phit
Dot product of Y * WPhi'.
Definition: ccl_learn_policy.h:90

ccl_learn_model_pi_ws_free
int ccl_learn_model_pi_ws_free(LEARN_MODEL_PI_WS *ws)
Free the workspace memory for directly learning policy pi.

LEARN_MODEL_LW_PI_WS::Phi
gsl_matrix * Phi
Feature matrix.
Definition: ccl_learn_policy.h:94

LEARN_MODEL_LW_PI_WS::idx
int * idx
Index.
Definition: ccl_learn_policy.h:110

LEARN_MODEL_PI::dim_x
int dim_x
Dimentionality of input state variable.
Definition: ccl_learn_policy.h:55