データ解析のための統計モデリング入門

調べもののために本屋で本を探していたら、たまたま目についたので立ち読みしたのですが、結構良さげだったので買ってしまいました。

がっつり基礎数学やってそうな見た目の表紙ですが、以外にも実用に寄ったタイトル通り「入門」書になっています。
業務で統計解析を使おうとしている人、すでに使っているが体系的に学んでこなかった人なんかにはおすすめです。特に、統計学自体は必要に応じて独自で勉強できるが、データ分析の実務にそもそも何が必要なのか体系的に整理できてない人にはハマる本かなと思いました。
 
自分も、実務で必要になってから都度その項目を勉強する形で統計学(というか、分析のお作法??)を学んできたのですが、もうちょっと最初にこれを読んでおけばかなりショートカットできたのではないかと思ってます。
 
具体的には、統計モデリングの目的整理をして、その作業の流れを追いながら、その中で登場する統計学の知識について解説していく内容になっています。また、具体例として単純な問題設定が提示され、それに対して必要最低限のRのコードを参照していく形式になっていて、自分で手を動かせるのもポイントです。
とにかく、データの統計分析を実施するシチュエーションとして必要最低限の簡素な設定で話が進むので、余計な点を考慮しなくてよく、非常にわかりやすく重要なポイントのみを抑えることができることと、その各ポイントについても一旦深入りせずに全体の流れを把握させることに重点を置いているため俯瞰しやすいです。
データ分析に足を踏み入れる人たちにとっては、まさにこの本のようなが入門コンテンツ必要だと感じていて、自分でもなんとか生み出せないかと考えていたのですが、こういう良本がすでにあるんですね><
 
また、自分の場合は、実務ではpythonメインでRは必要なときだけ手を出す感じでRにそんなに明るくなかったので、「必要最低限のRのコード」自体もかなり有益でした。
 
 
この本の良いと感じたポイントをまとめるとこんな感じ。
統計学を使うデータ分析者のスタンス(みんなの頭の中にある前提)が明記してある。
・必要最低限の仮定と問題設定で、統計モデリングの作業において重要なポイントが簡潔に把握できる。
・重要なポイントについて、深入りせずに話が進み、全体を俯瞰できる。
・Rのコードをなぞることで手を動かせるし、そこで実行される計算の具体的なイメージもつくようになる。
 
 
 
自分は、統計モデリングとかデータ分析って、いろいろな理由で物理学とかと違ってすごく勉強しづらいと感じていて、その障害を超えられるようにうまくできた本だなと感じました。
なんというか、分析において適宜顔を出してくる数学的な証明とか背景の知識とかって、それら自体を要所要所で追うことは結構できるんですが、そもそもの全体感というかストーリーを先に把握しておかないと、それらを理解するモチベーションが湧かない。それなのに、全体感自体は分析の手段の話なので、全体感を捉えようとしても、背後にある思想とかスタンスの話にならなくて全体感が捉えられない(?)。みたいな違和感をずっと持っていたんですよね。この本は、導入部分からその点について整理されていて、かつ一旦全体を俯瞰してみることが1つの目的のような進め方になっていたので、かなり気に入って読んでます。
 

Mac(High Sierra)へjuliaのインストール手順メモ

juliaとは

プログラミング言語の1つで、主に数値計算(シミュレーション)をしたいときに使う、らしい。
計算速度が比較的早いのと、jupyter notebook上で使えるというので、使ってみたくなった。
wikipediaによると、Cで最適化実装したときと比較して2倍ほどしか計算パフォーマンスが悪化しないとのこと。
 

Macへのインストールについて

結論から言うと、Macへのインストールは方法をちゃんと選べば簡単にできる。
しかしながら、ネット上には過去いろいろ苦労している人たちの手順メモが転がっていて、それらをいろいろ試していると結構時間を食ってしまうわりに、なかなかインストールに成功しない(自分の場合だけかも。。)。
以下では、自分が成功した比較的簡単な、Mac(High Sierra)へのインストール手順をメモ替わりに記載する。
と言っても、ほとんど他人の記事の紹介で終わるのだが、どの記事が役に立ったかという情報もまた重要だと思うので。
 

Mac(High Sierra)へjuliaのインストール手順

下記の記事の手順でインストールできました。
t44or2.hatenablog.com

自分の場合、anacondaは使っていなく、jupyter notebookはすでにインストール済みだったので、anacondaインストールは飛ばしました。
 
また、MacEl Capitanから、SIPというセキュリティ機能が追加され、デフォルトでは/binなどへの書き込みが禁止されてしまっています。そのためjuliaをコマンドラインで起動するためのシンボリックリンクの作成を上記の手順そのままでやろうとすると、sudoでも権限がないためエラーになります。その点については、下記の手順で一度リカバリモードで再起動して設定変更し、再起動後に、sudoでシンボリックリンクの作成をする必要があります。
qiita.com

これで、自分もjupyterからjuliaを起動することができるようになりました。
めでたしめでたし。

田崎統計力学

お正月に実家に帰って見つけた統計力学1(田崎晴明著)の教科書を持って帰ってきて読んでいます。

統計力学〈1〉 (新物理学シリーズ)

統計力学〈1〉 (新物理学シリーズ)

 


これ、学部時代にもちょっとは読んでいるはずなのですが、今読むとめちゃくちゃ面白い。この本を読んでいて、なんで学生当時に、複雑系とか非線形科学スルーして素粒子宇宙論に進んじゃったのかと、悶々としながら読み進め、そろそろ1が終わりそうです。
(素粒子宇宙論がどうのこうのという話ではなく、進む専門分野をもっと広く検討していれば、企業の収集するデータで面白い複雑系の研究が将来できるようになることにも、早くから気付けたんじゃないかなぁという妄想の話です。それでも多分当時は素粒子物理に進んだと思いますが。。)
 
特に、最初〜4-1「平衡状態の本質」あたりまでは、統計力学の精神がわかりやすく解説してあり、その考え方自体は熱力学への応用のみをスコープにしたものではなく、理論構築のお手本として純粋に読書感覚で楽しめました。大量のwebデータから何かしらのダイナミクスを研究したいと企んでいる今の自分の状況にマッチしていたというのが大きいかもですが。自分の抱えている問題に対して、独自の統計力学を構築してみたいと思う反面、統計力学の熱力学への応用ほどマクロとミクロがくっきり分けられるケースは、生物が構成物として登場する現実世界の系ではほとんどないため、マクロな理論構築のために、ミクロな世界の描写をどこまですればいいのかが難しいんだよなぁと思いつつ、本の中で綺麗に導出されていくモデルを眺めています。
ちなみに、「新ネットワーク思考」や「バースト」の著者のバラバシなんかは、このマクロな性質の見つけ方が上手く、去年はバラバシの論文も読み漁っていました。
 
田崎統計力学は有名な教科書なので、学部時代に目を通している人からすれば、今更何を言っているんだということになるんですが、改めて読んで感激したのでメモっておきます。どうせまた忘れちゃうと思うので、1読み終わったら骨組みをまとめておきたい。あと2もポチってます。グランドカノニカル分布だけ読んで終わるかも。

統計力学〈2〉 (新物理学シリーズ)

統計力学〈2〉 (新物理学シリーズ)

 
新ネットワーク思考―世界のしくみを読み解く

新ネットワーク思考―世界のしくみを読み解く

バースト!  人間行動を支配するパターン

バースト! 人間行動を支配するパターン