2022年4月その1-3

1週目の週報があまりにも書く価値がなかったので、最近のやっていることをまとめようとし始めたら、2週目のおわりに突入してしまった。そして、書いた内容に間違いがあるんじゃないかと思って、見直しをしつつ、並行して申請書を書いていたら3週目が終わった。とりあえず、4/12に申請書は終わらせた。

今回は申請者の研究者としての資質の部分は、前回の内容を流用するだけだったので、かなり手間をかけずに作れた。研究内容については、どこに課題を設定するかを改めて考え直したり、課題をブレイクダウンして考えてみて、話が前回よりは整理できたと思う、たぶん。

3週目にはB4の学生の世話を丸投げされたりした。修士くらいまで研究を積み上げたうえで、私の研究テーマの中に入る分には問題ないと思うけど、工学部の学生が取り組むにはかなり大変だと思うし、教えるのも大変だろうなあと思う。ベンチに対して、もっとビジョンを持って研究したらいいのにと思う。当然、私にもないけど。ないなりに見出そうとするあがきを見せてほしい。それが見えないので、丸投げされたという気持ちになるし、早く卒業したいという気持ちだけが沸き立ってくる。

測定のほうはというと、3月末に測定したデータを見直して、全体的にやり直したほうがいいかなあという感じ。きちんと半定量分析をしたうえで、測定元素のスクリーニングをするべきだったなあと。ICP-MSは昔からある装置の割には、あまり本とかネットに(私が欲している)情報が少なくて苦労する。研究室でも、特定元素を測るだけの人しかいなくて、網羅測定で使うためのノウハウがないので自分で考えていくしかない。分析化学のコンセンサスを理解していないので、本当に自分のやっていることが妥当なやり方なのかわからない怖さが常にある。

まとまりのない話になってしまった。とにかく、測定プロトコルを固めて、5月中には測定を終わらせたい。

 

おわり

(続きは最近やっている解析のまとめ)

 

以下の内容は、申請書用に少し整理する必要があるかと思って書き始めたもの。TOMのあたりの理解が間違っているような気がしてたけど、多分あってると思う。

以前にもちょっと書いたけど、去年からこのネットワーク解析(Weighted correlation network analysis - Wikipedia)をずっとやっている。日本語の解説は下記を参照。

https://www.iu.a.u-tokyo.ac.jp/lectures/AG16/190604/20190604_ichihashi.pdf

https://shiokoji11235.com/wgcna-analysis-part2

https://qiita.com/Yohei__K/items/dffc8767581bfbaad812

コアコンセプトは二つあって、

(1)データの相関係数から成る隣接行列の各値(0~1)を、最もよくべき乗則が成り立つ最小の値(soft-threshold power)でべき乗し、スケールフリー性(べき乗則性)を持たせた新しい隣接行列を作成する。

しかし、実際の生物ネットワークは完全なスケールフリーではなく、モジュール(クラスター)性も併せ持っている。そこで、ネットワークのモジュール性を定量化するために、

(2)(1)で作った隣接行列をもとに、各ノードにどれだけ共通の「友人」がいるかを計算し、Topological overlap 行列(TOM)を作成する。共通の友人が多いノード同士の値が高くなる(0~1)。Topological overlapについては、下記のサイトが詳しい。

複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク : 一人抄読会

もともとは遺伝子の発現データに対して適用する目的で作られた解析手法ではあるものの、最近ではAmplicon seqやメタボローム、イオノームデータにも使われており、生物に関連している情報が入っているとある程度うまく機能するっぽい。応用例は下記を参照。

https://doi.org/10.1073/pnas.1917259117

https://doi.org/10.1038/s41598-021-87384-8

生物界の性質をもとにしているということと、相関係数をベースにしたネットワーク解析ということで、説明がしやすいのがメリットかなと思っている(機械学習に比べれば)。ただ、Amplicon seq、メタボローム、イオノームなどのデータを一通りそろえて実際に解析にかけてみると、最終的なネットワークを作るときにTOMの閾値をネットワークの形を見ながら決めたり、Amplicon seqのデータをどこまで使うか(Speciesレベルまで使うとかとかFamilyレベルまでにするかとか)という前処理で悩まざるを得ないのがつらい。それから、キーストーン種のような微量ながら重要な役割を担っている微生物種についてはどうなるんだろうかという悩みもある。そして、比較的きれいなネットワークができる前処理をしても、細かく中身を見てみると、解釈が非常に難しかったりする。そうなるとまた、データの前処理に戻ったり、使うデータセットを変えてみるとかいう堂々巡りに陥っていく。

それなら、データの前処理などの検討をどこまでやるべきかをクロスバリデーションの良し悪しで判断できる機械学習でいいんじゃないのという感じがする。

結局のところ、ミクロな部分についてはミクロな実験と解析をする必要があって、このネットワーク解析はマクロな視点での整理した情報を提供してくれるものだという認識にしておくのがいいのかもしれない。(理論の必要な部分しか理解していないので、厳密にはそういうものではないかもしれないけど。)

 

おわり