1. LSTM要么可以没有c_state,和h_state,一旦有就一定要初始化, 大小为(num_layers * num_directions, batch, hidden_size)
2.RNN中只需要指定h_state,而且h_state可以指定为None
3.LSTM返回的c_state和h_state是对应最后一个time-step的,但是返回的output又是对应每一个time-step的
4.在写前向计算函数时一定不能写错forward,不然会raise not implemented error