0% found this document useful (0 votes)
5 views

Math Behind ML Algos

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
5 views

Math Behind ML Algos

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 18

 

NAÏVE  BAYES   MIXTURE  MODELS  


   
𝑃 𝑐 𝑎 . 𝑃(𝑎) 𝑃 𝐵 = 𝑃 𝐵|𝐴 . 𝑃(𝐴)  
𝑃 𝑎𝑐 =    
𝑃(𝑐)
   
   
BAYES  OPTIMAL  CLASSIFIER   MIXTURE  OF  GAUSSIANS  
  ANOMALY  DETECTION  
 
arg max 𝑃 𝑥 𝑇 . 𝑃(𝑇|𝐷)  
1 1 𝑥−𝑥 !
  𝑃 𝑥𝑥 = . 𝑒𝑥𝑝 −  
2𝜋𝜎 ! 2 𝜎
 
 
 
 
NAÏVE  BAYES  CLASSIFIER   𝑁! 𝐶! + 𝑁! 𝐶!
  𝑍!" =  
𝑁! + 𝑁!
arg max 𝑃 𝑆𝑝𝑜|𝑇𝑜𝑡 . 𝑃(𝑆𝑜𝑐|𝑆𝑝𝑜)    
   
  𝑃(𝑍!" ) → 0.50  
   
BAYES  MAP  (maximum  a  posteriori)    
  EM  ALGORITHM  
ℎ!"# = arg max 𝑃 𝑐|𝑎 . 𝑃(𝑎)    
  𝑃 𝑥 . 𝑃 𝑥|𝑥
𝐸  𝑠𝑡𝑒𝑝  𝑃 𝑥|𝑥 =  
  𝑃 𝑥 .𝑃 𝑥
   
MAXIMUM  LIKELIHOOD    
  𝑃(𝑥|𝑥)
𝑀  𝑠𝑡𝑒𝑝  𝑃 𝑥′ =  
ℎ!" = arg max 𝑃 𝑐|𝑎   𝑛
   
   
  𝐸  𝑠𝑡𝑒𝑝  𝑃 𝑥|𝑥 = 𝐴𝑠𝑠𝑖𝑔𝑛  𝑣𝑎𝑙𝑢𝑒  
TOTAL  PROBABILITY    
   
  𝑀  𝑠𝑡𝑒𝑝  𝑃 𝑥′ = 𝑃(𝐵 = 1|𝐴 = 1, 𝐶 = 0)  
𝑇𝑜𝑡𝑎𝑙𝑃 𝐵 = 𝑃 𝐵|𝐴 . 𝑃(𝐴)    
  𝑑 𝑓(𝑥) 𝑓′ 𝑥 𝑔 𝑥 + 𝑓 𝑥 . 𝑔′(𝑥)
LAPLACE  ESTIMATE  (small  samples)   =  
𝑑𝑥 𝑔(𝑥) 𝑔(𝑥)!
   
𝐴 + 0.5 𝑑 𝑑
𝑃 𝐴 =   2𝑓 𝑥 = 2 𝑓 𝑥  
𝐴+𝐵+1 𝑑𝑥 𝑑𝑥
   
   
BAYESIAN  NETWORKS   𝑑 𝑑 𝑑
  𝑓 𝑥 +𝑔 𝑥 = 𝑓 𝑥 + 𝑔 𝑥  
𝑑𝑥 𝑑𝑥 𝑑𝑥
𝑡𝑢𝑝𝑙𝑒𝑠  ¬  𝑓𝑜𝑟  𝑦 = 0   ∧ 𝑦 = 1    
   
  𝑑 𝑑 𝑑
LIMITS   𝑓 𝑥 + 2𝑔 𝑥 = 𝑓 𝑥 + 2 𝑔 𝑥  
𝑑𝑥 𝑑𝑥 𝑑𝑥
   
𝑓 𝑥 + ℎ − 𝑓(𝑥)  
lim  
!→! ℎ CHAIN  RULE  
   
ℎ = Δ𝑥 = 𝑥′ − 𝑥   𝑑
  𝑔 𝑓 𝑥 = 𝑔! 𝑓(𝑥) . 𝑓′(𝑥)  
𝑑𝑥
   
  solve  f(x)  apply  in  g’(x)  
DERIVATIVES    
   
𝜕 !  
𝑥 = 𝑛. 𝑥 !!!  
𝜕𝑥  
  VARIANCE  
𝜕 ! 𝜕𝑦 ! 𝜕𝑦  
𝑦 = .  
𝜕𝑥 𝜕𝑦 𝜕𝑥 (𝑥 − 𝑥)!
𝑉𝑎𝑟 =  
  𝑛−1
   
PRODUCT  RULE    
   
𝑑 STANDARD  DEVIATION  
𝑓 𝑥 . 𝑔 𝑥 = 𝑓′ 𝑥 𝑔 𝑥 + 𝑓 𝑥 . 𝑔′(𝑥)    
𝑑𝑥
  𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒  
   
 
COVARIANCE   LOSS  
   
  𝐿𝑜𝑠𝑠 = 𝐵𝑖𝑎𝑠 ! + 𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ! + 𝑁𝑜𝑖𝑠𝑒  
𝑥 − 𝑥 . (𝑦 − 𝑦)  
𝐶𝑜𝑣 =    
𝑛−1
  SUM  OF  SQUARED  ERRORS  
   
  (𝑦 − 𝑦)!
CONFIDENCE  INTERVAL   𝐸𝑤 =  
2
   
𝜎  
𝑥 ± 1.96  
𝑛 COST  FUNCTION  
   
  (𝑦 − 𝑦)!
  𝐽 𝜃! ≔ 𝜃! − 𝜂.  
2
CONFIDENCE  INTERVAL  ERROR    
   
   
𝑒𝑟𝑟𝑜𝑟(1 − 𝑒𝑟𝑟𝑜𝑟)  
𝑒𝑟𝑟𝑜𝑟 ± 1.96.   GINI  COEFFICIENT  
𝑁  
   
  (𝑁 + 1 − 𝑥). 𝑦!
  𝑁 + 1 − 2.
𝑦
CHI  SQUARED   𝐺𝑖𝑛𝑖 =  
𝑁
   
(𝑦 − 𝑦)! 𝛿 !  
𝐶ℎ𝑖 = =  
𝑦 𝑦  
  NUMBER  OF  EXAMPLES  
   
1
  log(𝑁! ) + log  (𝛿 )
R  SQUARED   𝑚≥  
𝜖
   
  𝑦
𝑛 𝑥𝑦 − 𝑥. 𝑦 𝑤ℎ𝑒𝑟𝑒  𝜖 =   ∧  𝛿 = 𝑦 − 𝑦  
𝑅! =   𝑦
𝑛 𝑥! −( 𝑥)! . 𝑛 𝑦 ! − ( 𝑦)!  
MARKOV  CHAINS   𝑓 𝑥 = 𝐸𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 ! . [𝑥!! . . . 𝑥!" ]  
   
 
𝑃!!! 𝑋 = 𝑥 = 𝑃! . 𝑋 = 𝑥 . 𝑇(𝑥 → 𝑥)    
! t-­‐SNE  
   
   
  ||𝑥! − 𝑥! ||!
K  NEAREST  NEIGHBOR   exp   −
2𝜎 !
  𝐶𝑜𝑛𝑑𝑖𝑡. 𝑃𝑟𝑜𝑏 =  
𝑓(𝑥) ||𝑥 − 𝑥 ||!
exp   − ! !!
𝑓 𝑥 ←   2𝜎
𝑘  
 
 
 
||𝑦! − 𝑦! ||!
! exp   −
𝐷𝐸 𝑥! , 𝑥! = 𝑥! − 𝑥! + (𝑦!" − 𝑦!" )!   2𝜎 !
𝐶𝑜𝑛𝑑𝑖𝑡. 𝑃𝑟𝑜𝑏 =  
  ||𝑦 − 𝑦 ||!
exp   − ! ! !
  2𝜎
WEIGHTED  NEAREST  NEIGHBOR    
   
  𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦 (!! ) = 2!(!! )  
𝑓(𝑥)  
𝑓 𝑥 = . 𝐷(𝑥! 𝑥! )!    
𝐷(𝑥! 𝑥! )!
  where:  
   
   
PRINCIPAL  COMPONENTS  ANALYSIS   𝐻 𝑃! = − 𝑝!|!  𝑙𝑜𝑔! 𝑃!|!  
  !
𝑥′ = 𝑥 − 𝑥    
   
𝐸𝑖𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒 = 𝐴 − 𝜆𝐼    
  COSINE  DISTANCE  
   
𝐸𝑖𝑔𝑒𝑛𝑣𝑒𝑐𝑡𝑜𝑟 = 𝐸𝑛𝑔𝑒𝑛𝑣𝑎𝑙𝑢𝑒. [𝐴]    
  𝑢. 𝑣
𝐶𝑜𝑠 =  
  𝑢 . 𝑣
 
   
TF-­‐IDF    
  𝑃
= 𝑒 !"!!  
  1−𝑃
𝑁  
𝑤!" = 𝑡𝑓!" . 𝑙𝑜𝑔    
𝑑𝑓!
   
  𝑦. log  (𝑦) + 1 − 𝑦 . log  (1 − 𝑦)
𝐽 𝜃 =−  
  𝑛
LINEAR  REGRESSION    
  1
𝑤ℎ𝑒𝑟𝑒  𝑦 =  
  1 + 𝑒 !"!!
𝑥!! 𝑥! 𝑦 − 𝑥! 𝑥! 𝑥! 𝑦  
𝑚! =   𝑓𝑜𝑟  𝑦 = 0     ∧  𝑦 = 1  
𝑥!! 𝑥!! − ( 𝑥! 𝑥! )!
 
 
−2𝐿𝐿 → 0  
 
 
𝑏 = 𝑦 − 𝑚! 𝑥! − 𝑚! 𝑥!  
 
 
𝑥  ! ~  𝑥!   ≠ 𝑥! ′  ~  𝑥! ′  
 
!  
𝑓 𝑥 = 𝑚! 𝑥! + 𝑏    
𝑝
!!! 𝑚𝑥 + 𝑏 =  
  1−𝑝
   
𝐴 = 𝑋! . 𝑋 !!
. 𝑋 ! . 𝑌    
𝑚𝑥 + 𝑏
  𝑃 𝑎𝑐 =  
  𝑚𝑥 + 𝑏 + 1
𝑏  
where  𝐴 =    
𝑚
   
  DECISION  TREES  
   
!
LOGISTIC  REGRESSION  
  𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = −𝑃. log  (𝑃)  
  !!!
𝑃  
𝑂𝑑𝑑𝑠  𝑅𝑎𝑡𝑖𝑜 = 𝑙𝑜𝑔 = 𝑚𝑥 + 𝑏    
1−𝑃
𝐼𝑛𝑓𝑜𝐺𝑎𝑖𝑛 = 𝑃! . −𝑃!! . log 𝑃!! − 𝑃!(!!!) −. log  (𝑃!(!!!) )   MUTUAL  INFORMATION  
   
   
  𝐼 𝐴, 𝐵 = 𝐻 𝐴 − 𝐻(𝐴|𝐵)  
RULE  INDUCTION    
   
𝐺𝑎𝑖𝑛 = 𝑃. [ −𝑃!!! . log  (𝑃) − (−𝑃! . log  (𝑃))]    
  EIGENVECTOR  CENTRALITY  =  PAGE  RANK  
   
RULE  VOTE   1−𝑑 𝑃𝑅(𝐵) 𝑃𝑅(𝑛)
𝑃𝑅 𝐴 = −d +  
  𝑛 𝑂𝑢𝑡(𝐵) 𝑂𝑢𝑡(𝑛)
Weight=accuracy  .  coverage    
  where  d=1  few  connections  
   
ENTROPY   RATING  
   
  𝑅 = 𝑅! + 𝛼 𝑤! . (𝑅!" − 𝑅! )  
𝐻 𝐴 =− 𝑃 𝐴 . 𝑙𝑜𝑔𝑃(𝐴)    
   
  SIMILARITY  
JOINT  ENTROPY    
  ! 𝑅!" − 𝑅! . (𝑅!" − 𝑅! )
  𝑤!" =  
! 𝑅!" − 𝑅! ! . (𝑅!" − 𝑅! )!
𝐻 𝐴, 𝐵 = − 𝑃 𝐴, 𝐵 . 𝑙𝑜𝑔𝑃(𝐴, 𝐵)  
   
   
   
CONDITIONAL  ENTROPY    
   
  CONTENT-­‐BASED  RECOMMENDATION  
 
𝐻 𝐴|𝐵 = − 𝑃 𝐴, 𝐵 . 𝑙𝑜𝑔𝑃(𝐴|𝐵)   !"#$$ !

  𝑅𝑎𝑡𝑖𝑛𝑔 = 𝑥! 𝑦!  
  !!! !!!
   
   
  LOGIT  
COLLABORATIVE  FILTERING    
  𝑝
log 𝑜𝑑𝑑𝑠 = 𝑤𝑥 + 𝑏 = 𝑙𝑜𝑔  
  1−𝑝
𝑅!" = 𝑅! + 𝛼.    
 
𝑅!" − 𝑅! . (𝑅!" − 𝑅! )  
!
𝑅!" − 𝑅! .   SOFTMAX  NORMALIZATION  
! 𝑅!" − 𝑅! ! . (𝑅!" − 𝑅! )!  
𝑒 !"!!
  𝑆(𝑓 𝑥 ) =  
𝑒 !"!!
   
   
BATCH  GRADIENT  DESCENT    
  CROSS  ENTROPY  
   
(𝑦 − 𝑦)! . 𝑥
𝐽 𝜃! ≔ 𝜃! ± 𝜂.   𝐻(𝑆 𝑓 𝑥 , 𝑓 𝑥 =− 𝑓 𝑥 . 𝑙𝑜𝑔𝑆(𝑓 𝑥 )  
2𝑛
   
   
STOCHASTIC  GRADIENT  DESCENT   LOSS  
   
  𝐻(𝑆(𝑓 𝑥 , 𝑓(𝑥))
𝐿𝑜𝑠𝑠 =  
𝐽 𝜃! ≔ 𝜃! ± 𝜂. (𝑦 − 𝑦)! . 𝑥   𝑁
   
   
   
   
  L2  REGULARIZATION  
NEURAL  NETWORKS    
  𝜆. 𝑤 !
! 𝑤 ← 𝑤 − 𝜂. 𝛿. 𝑥 +  
2
𝑓 𝑥 = 𝑜 = 𝑤! + 𝑤! 𝑥!    
!!!  
   
 
SIGMOID   AVOID  OVERFIT  NEURAL  NETWORKS  L2  
   
1 !"# !"# (𝑡 − 𝑜)
!
  𝑤= + F. 𝑤!"!  
1 + 𝑒 !(!"!!) 2
   
   
  where  F=penalty  
RADIAL  BASIS  FUNCTION    
   
   
(!!!)! BACKPROPAGATION  
!
ℎ 𝑥 =𝑒 !!    
   
  𝛿! = 𝑜! . 1 − 𝑜! . (𝑡 − 𝑜! )  
PERCEPTRON    
   
!

𝑓 𝑥 = 𝑠𝑖𝑔𝑛 𝑤! 𝑥!"   𝛿! = 𝑜! . 1 − 𝑜! . 𝑤!" 𝛿!  


!!!  
   
  𝑤!" ← 𝑤!" + 𝜂!" . 𝛿! . 𝑥!"  
PERCEPTRON  TRAINING  
 
 
𝑤! = 1 + (𝑡 − 𝑜! )  
𝑤! ← 𝑤! + ∆𝑤!  
 
 
 
∆𝑤! = 𝜂. 𝑡 − 𝑜 . 𝑥  
∆𝑤!" (𝑛) = 𝜂. 𝛿! . 𝑥!" + 𝑀. ∆𝑤!" (𝑛 − 1)  
 
   
ERROR  FOR  A  SIGMOID   where  M=momentum  
   
   
NEURAL  NETWORKS  COST  FUNCTION  
𝜖= 𝑡 − 𝑜 . 𝑜. 1 − 𝑜 . 𝑥    
!! !!!! !
  !
!!!
!
!!! 𝑡! . log 𝑜 + 1 − 𝑡 . log  (1 − 𝑜)
𝜆 !!!!! !!! !!! 𝜃!"
  𝐽! = +  
𝑁 2𝑁
   
   
   
MOMENTUM  Υ   ADAM  
   
  𝜂
𝜃=𝜃− . 𝑚  
𝜃 = 𝜃 − (𝛾𝑣!!! + 𝜂. ∇𝐽 𝜃 )   𝑣+𝜖
   
   
  𝛽! 𝑚!!! + 1 − 𝛽! . ∇𝐽(𝜃)
𝑚=  
  1 − 𝛽!
NESTEROV    
   
  𝛽! 𝑣!!! + 1 − 𝛽! . ∇𝐽(𝜃)!
𝜃 = 𝜃 − (𝛾𝑣!!! + 𝜂. ∇𝐽(𝜃 − 𝛾𝑣!!! ))   𝑣=  
1 − 𝛽!
   
   
ADAGRAD    
  RESTRICTED  BOLTZMANN  MACHINES  
   
𝜂
𝜃=𝜃− . ∇𝐽(𝜃)    
𝑆𝑆𝐺!"#$ + 𝜖
𝐸 𝑣, ℎ = − 𝑣! ℎ! 𝑤!"  
 
ADADELTA    
  where  v  =  binary  state  visible  
𝑅𝑀𝑆[∆𝜃]!!!  
𝜃=𝜃−   h  =  binary  state  hidden  
𝑅𝑀𝑆∇𝐽(𝜃)
   
   
𝑅𝑀𝑆 Δ𝜃 = 𝐸 ∆𝜃 ! + 𝜖   𝑒 !!(!,!)
𝑝 𝑣, ℎ = !!(!,!)
 
  !" 𝑒
   
RMSprop    
!!(!,!)
  !𝑒
  𝑝 𝑣 = !!(!,!)
 
!,! 𝑒
𝜂
𝜃=𝜃− . ∇𝐽(𝜃)    
𝐸 𝑔! + 𝜖  
 
𝜕  
log 𝑝 𝑣 =< 𝑣!  ℎ! >! −< 𝑣!  ℎ! >!  
𝜕𝑤𝑖𝑗 𝑦 = 1   ∧ 𝑦 = −1  
   
   
𝜕 𝐷𝑜𝑡𝑃𝑟𝑜𝑑𝑢𝑐𝑡 = 𝑥! . 𝑐𝑜𝑠𝜃  
∆𝑤!" = 𝜂. log 𝑝(𝑣)    
𝜕𝑤!"
∆𝑤!" = 𝜂. (< 𝑣!  ℎ! >! −< 𝑣!  ℎ! >! )    
𝑐𝑜𝑠 ! 𝜃 + 𝑠𝑒𝑛! 𝜃 = 1  
 
 
 
 
 
!
  𝑥! − 𝑥! + (𝑦!" − 𝑦!" )!
CONVOLUTIONAL  NEURAL  NETWORKS   𝑠𝑒𝑛𝜃 =  
  𝑥!
(𝑁 − 𝐹)  
𝑂𝑢𝑡𝑝𝑢𝑡  𝑆𝑖𝑧𝑒 = + 1  
𝑆 𝑥! − 𝑥! ! + (𝑦! − 𝑦! )!
  𝑥! ∙ 𝑥! = (𝑥! ! + 𝑦! ! ). 1 −  
𝑥! ! + 𝑦! !
 
   
where:  N=  input  size    
F  =  filter  size   SUPPORT  VECTOR  REGRESSION  
S  =  Stride  steps    
Convolution2D(N  filters,  filter_size,  filter_size…)   𝑌 = 𝑤. < 𝑥! ∙ 𝑥! > +𝑏  
   
   
SUPPORT  VECTOR  MACHINES   𝑦 − (𝑤. < 𝑥! ∙ 𝑥! > +𝑏) ≤ 𝜀  
   
𝑓 𝑥 = 𝑠𝑖𝑔𝑛 𝜆. 𝑦. 𝐾(𝑥! ∙ 𝑥! )    
  𝑤. < 𝑥! ∙ 𝑥! > +𝑏 − 𝑦 ≤ 𝜀  
 
!
𝑥! − 𝑥! + (𝑦! − 𝑦! )!  
𝐾 𝑥! ∙ 𝑥! = 𝑒𝑥𝑝 −   RIDGE  REGRESSION  -­‐  REGULARIZATION  
𝑤𝑖𝑑𝑡ℎ!!"#  
𝑦 − 𝑦 ! 𝜆. 𝑚
  𝑚≔𝑚− −  
𝑁 𝑁
𝜆 → ∇𝐿 = 0    
   
𝜆  
𝑦 = 𝜆. 𝑚𝑥 + 𝑏 −  
𝑁 CRONBACH  
   
  >  .60  .70  
LASSO  REGRESSION    -­‐  REGULARIZATION    
   
  MEDIAN  
   
(𝑦 − 𝑦)! 𝜆. 𝑏 𝑀𝑎𝑥 − 𝑀𝑖𝑛
𝑏≔ +    
𝑁 𝑁 2
   
𝑚 → 0    
   t  TEST  
𝜆  
𝑦 = 𝑚𝑥 + 𝜆. 𝑏 +   𝑥! − 𝑥! − (𝜇! − 𝜇! )
𝑁 𝑡=  
  𝑥! − 𝑥!
   
  Difference  significant  sig  <  .05  
   
SKEWNESS   t  TEST  2  SAMPLES  
   
Skewness  <  1   Levene  Variância  
   
   
  ANOVA  +  3  
KOLMOGOROV  SMIRNOV    
  𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒  𝑏𝑒𝑡𝑤𝑒𝑒𝑛  𝑔𝑟𝑜𝑢𝑝𝑠
Normal  sig  >  .005   𝐹=  
𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎  𝑖𝑛𝑠𝑖𝑑𝑒  𝑔𝑟𝑜𝑢𝑝
  Sig  <  .05  
  TOLERANCE  
   
NON  PARAMETRIC    
  Tolerance  >  .1  
T  test  =  Normal      
  1
Test  U  Mann  Whitney  sig  <  .05   𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 =  
𝑉𝐼𝐹
   
  Wilk’s  Lambda  sig  <  .05  
VARIANCE  INFLATION  FACTOR    
   
VIF  <10   𝑥  ! ~  𝑥!   ≠ 𝑥! ′  ~  𝑥! ′  
   
!
  1 1 𝑥−𝑥
  𝑃 𝑥𝑥 = . 𝑒𝑥𝑝 −  
2𝜋𝜎 ! 2 𝜎
ENTER  METHOD    
   
+  15  cases  /  Variable   𝑁! 𝐶! + 𝑁! 𝐶!
  𝑍!" =  
𝑁! + 𝑁!
 
 
 
 
STEPWISE  METHOD  
 
 
ERROR  MARGIN  
+  50  cases  /  Variable  
 
  𝜎
  1.96    
𝑁
  ACCURACY  
VARIABLE  SELECTION    
  Confidence  Interval  ~  P  value  
F  Test  =  47  sig  <  .05    
   
   
  HYPOTHESES  TESTING  
MISSING  DATA    
  P  value  <  .05  
Delete  if  >  15%    
   
  TRANSFORMATION  OK  
   
DISCRIMINANT  ANALYSIS   𝑥
  < 4  
𝜎
   
Box  M  sig  <  .05  reject  H0    
   
 
MULTICOLLINEARITY   MANHATTAN  DISTANCE  L  
   
Correlation  >  .90   𝑀𝑎𝑛ℎ = |𝑥! − 𝑥! | + |𝑦! − 𝑦! |  
   
VIF  <10    
  NET  PRESENT  VALUE  
Tolerance  >  .1    
  𝑃! = 𝑃! . 𝜃 !  
   
SUM  OF  SQUARES  (explain)   𝑃! = 𝑃! . 𝜃 !!  
   
𝑆𝑆!"#!"$$%&'   . (𝑁 − 𝑐𝑜𝑒𝑓) !
𝑐𝑎𝑝𝑖𝑡𝑎𝑙
𝐹!"#$% =   NPV = investment +  
𝑐𝑜𝑒𝑓 − 1  . 𝑆𝑆!"#$%&'(# (1 + 𝑟𝑎𝑡𝑒)!
  !!!
   
  NPV=0  (IRR)  
   
STANDARD  ERROR  ESTIMATE  (SEE)    
   
  MARKOV  DECISION  PROCESS  
 
𝑆𝑢𝑚𝑆𝑞𝑢𝑎𝑟𝑒𝑑𝐸𝑟𝑟𝑜𝑟𝑠
𝑆𝐸𝐸 =   𝑈! = 𝑅! + 𝛿   max 𝑇 𝑠, 𝑎, 𝑠′ . 𝑈(𝑠′)  
𝑛−2 !
!
   
  𝜋! = argmax 𝑇 𝑠, 𝑎, 𝑠′ . 𝑈(𝑠′)  
!
(𝑦 − 𝑦)! !
𝑆𝐸𝐸 =    
𝑛−2
  𝑄!,! = 𝑅! + 𝛿   max 𝑇 𝑠, 𝑎, 𝑠 ! . max 𝑄(𝑠 ! , 𝑎′)  
!! !  !
!
 
 
MAHALANOBIS  DISTANCE  
𝑄!,! ←! 𝑅! + 𝛿   max 𝑄 𝑠 ! , 𝑎′  
same  variable   !
   
 
(𝑥! − 𝑥! )!  
𝑀=  
𝜎!  
 
ARIMA  ~  NPV    
  AXIOMATIC    
𝐵! 𝑌! = 𝑌!!!  (Backward  Shift  Operator)    
  𝑃(𝐴) ≥ 0  
𝐵! 𝑌 = 𝐵 𝐵𝑌! = 𝐵 𝑌!!! = 𝑌!!!    
  𝑃(𝐴, 𝐵, 𝐶) = 1  
ARIMA(1,1,1):    
   
AR  =  number  autoregressive  terms    
  PROBABILITY  THEOREMS  
B=number  non-­‐seasonal  needed  for  stationary    
   
MA=number  lagged  errors   JOIN  =  A  or  B  
   
1 − 𝜙! 𝐵 1 − 𝐵 𝑌! = 1 − 𝜃! 𝐵 𝑒!   𝑃(𝐴𝑈𝐵)!"#$%&!'( = 𝑃 𝐴 + 𝑃(𝐵)  
   
where   1 − 𝜙! 𝐵 =AR  (Autoregression)    
  𝑃(𝐴𝑈𝐵)!"#  !"#$%&!'( = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)  
and   1 − 𝜃! 𝐵 =MA  (Mean  Average)    
   
and  e=noise   𝑃(𝐴𝑈𝐵𝑈𝐶)!"#  !"#$%&!'(
  = 𝑃 𝐴 + 𝑃 𝐵 + 𝑃 𝐶 − 𝑃 𝐴 ∩ 𝐵 − 𝑃(𝐴 ∩ 𝐶) − 𝑃(𝐵
  ∩ 𝐶) − 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶)  
PROBABILITY  (coins)    
  COMPLEMENTARY  EVENT  
   
𝑃(𝑎)  
𝑃 𝑎 =   𝑃 Ã = 1 − 𝑃(𝐴)  
𝑃(𝐴)
   
   
   
FREQUENTIST   MARGINAL  PROBABILITY  
   
𝑃(𝐴 = 𝑎)
  𝑃 𝑎 =  
𝑚 𝑠𝑢𝑐𝑒𝑠𝑠𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑃(𝐴)
lim = = =    
!→! 𝑛 𝑡𝑜𝑑𝑎𝑠  𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑒𝑠𝑝𝑎ç𝑜  𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙
   
   
  TOTAL  PROBABILITY  (jars)  
PROBABILITY  A  and  B    
  𝑃 𝐵 = 𝑃 𝐴∩𝐵 = 𝑃 𝐴 . 𝑃(𝐵|𝐴)  
𝑃(𝐴 ∩ 𝐵)
𝑃 𝐴  𝑒  𝐵 =    
𝑃(𝐵)
   
   
  PROBABILITY  k  SUCCESS  in  n  TRIALS  
CONDITIONAL  PROBABILITY    
𝑛
  𝑃 𝑘  𝑖𝑛  𝑛 = . 𝑝! . (1 − 𝑝)!!!  
𝑘
   
𝑃 𝐴 𝐵 !"#$%$"#$"&' = 𝑃(𝐴)   INTEGRALS  
   
  !
  𝐹 𝑏 − 𝐹 𝑎  
!
 
 
BAYES  (52  cards  ,  cancer)  
 
  !
1 1 1
  𝑥 ! 𝑑𝑥 = 𝑥 ! = 2! − 1!  
𝑃(𝐴 ∩ 𝐵) 𝑃 𝐵 𝐴 . 𝑃(𝐴) ! 3 3 3
𝑃 𝐴𝐵 = =    
𝑃(𝐵) 𝑃(𝐵)
   
PRODUCT  RULE  
 
BINOMIAL  DISTRIBUTION  (0,1  success)    
   
  𝑐. 𝑓′ 𝑥 . 𝑑𝑥 = 𝑐 𝑓′ 𝑥 . 𝑑𝑥  
𝑠𝑎𝑚𝑝𝑙𝑒  𝑠𝑝𝑎𝑐𝑒
𝑃 𝐷 = . 𝑃 𝑠 ! . (1 − 𝑃 𝑠 )!!!    
𝑠𝑢𝑐𝑒𝑐𝑠𝑠
   
𝑠𝑎𝑚𝑝𝑙𝑒  𝑠𝑝𝑎𝑐𝑒  
𝑃 𝐷 = . 𝑃 𝑠 ! . (𝑃 𝑠 )!!!  
𝑠𝑢𝑐𝑒𝑐𝑠𝑠  
  CHAIN  RULE  
𝑐!  
𝑃 𝐷 = . 𝑃 𝑎 ! . (1 − 𝑃 𝑎 )!!!  
𝑎! 𝑐 − 𝑎 !  
 
𝑓 𝑥 + 𝑔 𝑥 . 𝑑𝑥 = 𝑓 𝑥 . 𝑑𝑥 + 𝑔 𝑥 . 𝑑(𝑥)  
 
  𝐴!,! ∗ 𝐵!,! = 𝐶!,!  
INTEGRATION    
  0 3 6
1
  1 3 ∗ = 7  
Δ𝑥 = 0 2
𝑓′ 𝑥 . Δ𝑥   2 4 9
𝑁→∞  
   
  1 2 3 1 5
DIFFERENTIATION   1 4 5 ∗ 2 = 9  
  0 3 2 0 6
   
𝑓 𝑎 + Δ𝑥 − 𝑓(𝑎) OR  
lim    
!→! Δ𝑥
  1 2 3 1 1 2 3 5
  1 4 5 ∗ 2 = 1 ∗ 1 + 2 ∗ 4 + 0 ∗ 5 = 9  
LINEAR  ALGEBRA   0 3 2 0 0 3 2 6
 
 
 
ADDITION  
x  Matrix:  Column  A  =  Rows  B  
 
Rows  A  =  Column  B  
 
1 2 2 2 2 4  
+ =   𝑨𝟐,𝟏 = 𝟐𝒏𝒅  𝒓𝒐𝒘  𝒙  𝟏𝒂  𝒄𝒐𝒍𝒖𝒎𝒏  
4 3 5 3 9 6
   
  0 3
1 2 3 8 24
SCALAR  MULTIPLY   ∗ 1 3 =  
0 4 5 14 37
  2 5
   
2 2 6 6  
3∗ =   1 2 3
5 3 15 9
  1 2 0 ∗ 4 5 6 = 12 30 0  
  7 8 9
MATRIX  VECTOR  MULTIPLICATION    
   
Rows  x  Columns    
   
x  Vetor:  Column  A  =  Rows  B    
   
 
IMPORTANT   DIAGONAL  
   
𝑨𝟐,𝟑 = 𝟐𝒂  𝒓𝒐𝒘  𝒙  𝟑𝒂  𝒄𝒐𝒍𝒖𝒎𝒏   2 0 0
  0 2 0  
  0 0 2
1 0 0 1 2 1  
−3 1 0 ∗ 3 8 1 =    
0 0 1 0 4 1 TRANSPOSE  
   
𝐴!,! 𝐴!,! 𝐴!,! 1 2 1 1 4
1 2 3 !
= 𝐴!,! 𝐴!,! 𝐴!,! = 0 2 −2   𝐴=  𝐴 = 2 5  
4 5 6
𝐴!,! 𝐴!,! 𝐴!,! 0 4 1 3 6
 
   
  PROPERTIES  
PERMUTATION    
   
LEFT=exchange  rows   Not  commutative  
  𝐴 ∗ 𝐵 ≠ 𝐵 ∗ 𝐴  
0 1 𝑎 𝑏 𝑐 𝑑
∗ =    
1 0 𝑐 𝑑 𝑎 𝑏
   
RIGHT=exchange  columns   Associative  
  𝐴 ∗ 𝐵 ∗ 𝐶 = 𝐴 ∗ (𝐵 ∗ 𝐶)  
𝑎 𝑏 0 1 𝑏 𝑎  
∗ =    
𝑐 𝑑 1 0 𝑑 𝑐
   
  Inverse  (only  squared)  
   
IDENTITY   !!
1
𝐴 ≠  
  𝐴
1 0 0  
0 1 0   !! 1 0
𝐴 .𝐴 = 𝐼 =  
0 0 1 0 1
   
   
   
   
 
DETERMINANT  
 
 
1 3
= 1.2 − 3.4 = −10  
4 2
 
 
1 4 7 1 4
2 5 8 2 5 = 1.5.9 + 4.8.3 + 7.2.6 − 7.5.3 − 1.8.6 − 4.2.9  
3 6 9 3 6
 
 
DEMAND  ELASTICITY  
 
(𝑄! − 𝑄! ) (𝑃! + 𝑃! )
𝜌= .  
(𝑄! + 𝑄! ) (𝑃! − 𝑃! )

You might also like