医療分野における生成AI・大規模言語モデルの人間による評価に関する文献レビューとフレームワーク