2022年8月

やっと論文のドラフトができた。ワードの編集時間は287時間、だいたい1日8時間稼働として35日くらいかかっていたらしい。ワードを開いたまま、途中で解析の手戻りと再検討とか、細かい作図の修正とかもあったので、体感的にもデータがそろって書き始めてからそのくらいはかかっていた印象。

論文を書き始めたのは今年の7月からだけど、解析自体は去年の7月からずっとしていて、論文にするまでに結局1年近くかかってしまった。去年の今頃はまだRの使い方もよくわかっていなくて、コーディング自体に四苦八苦していた記憶があるので、そこからはだいぶ進歩した気はする。とはいえ、解析の本質を理解せずにコードが動くからいいやと流している部分も多いので、まだまだ勉強不足。

当初うまくいくんじゃないかと思っていた解析手法も、うまく意味づけできる解析結果にはなっていなかったので、そこから二転三転して何とか今の結果にたどり着いた。最初はWGCNAで、二転目がMCIA。三転目がベイジアンネットワーク。

WGCNAは相関関係をベースにした解析なので、環境サンプルのマルチオミクス解析に使うには、相当ノイズのないきれいなデータか、そこそこのサンプル量がないと難しいように思う。個人的には環境サンプルでの相関解析に対する不信感(懐疑心?)が結構高まった。相関は因果ではないとはよく言われるけれど、手を動かしていた当時はそのあたりの認識がなかったので仕方がない部分もあるのだけど(あと、PNASの論文はいい感じの解析結果を出してたし)、無駄な時間を過ごしてしまったなあと思う。MCIAはWGCNAに比べれば悪くはなかったけど、マイクロバイオームのデータの特徴はうまく抽出される感じではなかったので、ノイジーなデータにはよくなかったのかなあという印象。きちんと線形代数を勉強したらこういう解析の良し悪しを定量的に?理解できるんだろうか。インフォマティクスの人たちがこういう解析を理解するときの直観というか、センスの部分を知りたい。最終的に、ベイジアンネットワークやってみたらという共同研究先に先生の鶴の一声で、何とかそこそこ議論のできる解析結果に収まった。観測変数の限界があるので少し無理矢理なディスカッションになってる部分もあるかもしれないけれど、概ね面白いストーリーなったんじゃないかなと思う。というか、面白いと思ってもらえたらいいな。

来月からは、滞っていた分の去年のサンプルの測定をやっていく。測定のプロトコルができていないので、なんだかんだ1か月以上かかりそうな予感する。濃度のレンジの見極めさえできればただの定型作業なので、3週間くらいで何とかしたい。マルチオミクス解析用のデータ測定から統合解析まで一人でやるのは、非常に勉強にはなるが、あまりにもしんどい。

おわり