surgのブログ

日々のネタ忘備録。勉強用。R初心者。切ったり縫ったりする人。

連続変数の離散化

意思決定とかそんなことをぼけーっと考えていると、閾値を決める、つまりこの数字以上上だったらAへ行く、この数字未満だったらBへ行く、みたいな数字を決めるのは、どうやるんかねえ?と思う。その数字を決定者でない人間が勝手に決めるわけにはいかないので、閾値を当てはめる数字の全体像をそのまんま提供するしかないかな、と思うのだが、ここで良記事を拝見し、とても勉強になったのでリンクを。

takehiko-i-hayashi.hatenablog.com

検定の考え方に意思決定の代行機能が含まれる、というのは割と膝を打つ感じでありました。

まあでもそうですよね。検定の0.05なんて誰が決めたんじゃい、という話で、オレは0.01じゃないと動かねえ!という人も居るかもしれないし、0.10くらいでいいんちゃいますか、って人も居るかもしれない。利用者目線で見るとね。変数Aがこのくらいの時の変数Bがこれくらいだったら、まあ行動しようか、という条件付き確率な人もいるかもしれないし。

ところで。

臨床研究の範疇でも、連続変数をカテゴリ化する、とかそういうことは出てくるのだが、割とあれは違和感があって、だからこそ研究計画書の段階で、ここをカットオフにしますよ!後出しジャンケンはしませんよ!と宣言する必要があるんだろうけれども、これ分布のまま置いとけばええんちゃうの?そこに研究者側の意図が入るのはいいのか?とは漠然と思ったりしませんでしたか?しなかった?