2017-03-19

統計学勉強メモ

本統計学

引き続き、「統計学入門」を読み進めています。

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (83件) を見る

この本、初めは最初の数章だけ読めばいいかと思っていたのですが、これまでいい加減な理解をしていたところが多々あり、あやふやだった部分が本を読んでいくにつれて頭のなかでちゃんと整理できてくるので、以外と時間をかけて読み込んでしまっています。
それと同時にこれまで統計学という形でちゃんと勉強してなかったことを痛感しています。

やはり、どんな分野も基礎を固めるのが一番の近道ですね。。。

ローレンツ曲線

ロングテールな分布(個人資産とか会社の従業員数とか)を、累積相対度数分布で表したときに現れる曲線。

平均、幾何平均、調和平均

$x_1$ と $x_2$ の普通の平均 $x_M$ は、もちろん $x_M=\frac{1}{2}(x_1+x_2)$ であり、このとき、 $(x_1-x_M):(x_M-x_2)=1:1$ となっている。
つまり、 $x_1$ と $x_2$ の差の真ん中である。

それに対し、幾何平均は、 $x_G=\sqrt{x_1x_2}$ であり、このとき、 $(x_1-x_M):(x_M-x_2)=\sqrt{x_1}:\sqrt{x_2}$ となっている。
また、調和平均は、 $\frac{1}{x_H}=\frac{1}{2}\left(\frac{1}{x_1}+\frac{1}{x_2}\right)$ であり、このとき、 $(x_1-x_H):(x_H-x_2)=x_1:x_2$ となっている。
$x_1$ と $x_2$ の比率を考慮した中間の値となっており、たしかになんとなく"調和"っぽい気がする。

参考文献

調和平均の真実
ここがわかりやすかった。

モーメント母関数

$x$ の期待値 $\mu$ 周りの $r$ 次のモーメントは、 $\mu'_r=E(X-\mu)^r$ 。
ここで、 $E(X)=\mu$ 、( $X$ の期待値)である。

モーメント母関数 $M_X(t)=E(e^{tX})$ は、その $t=0$ のまわりの1階微分により、Xの期待値(1次のモーメント)を生成する。同様に $t=0$ のまわりのn階微分でn次のモーメントが導出できる。
　

チェビシェフの不等式

$P\left(|X-\mu| \geqq k\sigma\right)\leqq \frac{1}{k^2}$

$X$ の値が、 $\mu$ のまわりより $k\sigma$ 以上離れる確率は、 $\frac{1}{k^2}$ 以下になる。
確率分布を表す情報のなかでも分散と期待値さえわかれば、その確率変数のとる値域を指定し、それが何%以下でしかおきないかを言うことができる。

2017-03-13

確率の定義

データ分析本統計学

統計学入門 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (83件) を見る

統計学入門 - サイバースイッチ
こちらの記事でも紹介した統計学入門の教科書を読んでいるのですが、教科書というか読み物として面白いです。
以下、４章「確率」のメモ。

確率の定義

ラプラスの定義

確率の概念は、最初、ラプラスによって体系的にまとめられた。
試行の根元事象が全部でN個あり、それらが同様に確からしいと仮定する。このとき、それが出れば１つの事象Aが起こるような事象の数がR個あれば、事象Aの確率は ${P(A)=R/N}$ と定義される。
この定義で重要なのは、各事象の発生が同様に確からしいと仮定することが必要となっていることである。

頻度説

頻度説は、上記のラプラスの定義から１歩進んで、確率を、無限回試行したときの発生頻度と等しくなるものだとした。
定義上、同様に確からしいという仮定が不要になり、例えば、歪んで、ある目が出る確率が ${1/6}$ でなくなったサイコロにも確率を定義出来るようになった。ただ、その確率を知るためには、無限回試行しないと正確な値がわからないため、この場合には、極限への収束に現実の裏付けが不足している。

コルモゴロフの定義(公理主義的定義)

数学者コルモゴロフは、確率の公理主義的定義を行った。これにより、確率論を数学的に構成し、公理に基づいた体系的な議論をすることが可能になる。
確率論の公理は下記の３つからなる。これに合うなら、どのような数も確率として扱うことが出来る。

全ての事象Aに対して ${0 \leqq P(A)\leqq 1}$
${P(\Omega)=1}$
互いに排反な事象 ${A_1,A_2,A_3 \cdots}$ に対して

　 ${P(A_1 \cup A_2 \cup A_3 \cup \cdots) = P(A_1)+P(A_2)+P(A_3)+\cdots}$

　
これで、確率とは何かという問いに対して、一応の答えができるようになったが、実際の問題に対してある事象がおきる実際の確率というものが、有限回数の観測でしか求められないという点に変わりはない。そこは、さらに進んでベイズ的確率論によって現実に則した定義ができるようになる。
ただ、このコルモゴロフの定義の時点でようやく確率を数学的対象として扱うことができるようになり、公理から定理を導き、確率論における様々な議論が出来るようになった。
　
　
　
確率というもの何を表すのか、我々は日常的に確率という概念に触れているため、簡単な確率の議論ならあまり深く考えなくとも出来てしまうのですが、その裏には、ラプラスの「同様に確からしい」という仮定や、頻度説における「無限回試行した場合の実現頻度である」という仮定を暗に想定していることが多く、それに気づかなかったり、区別した議論ができてない場合には、往々にして話が噛み合ない。
ここらへん、各考え方自体は当たり前と感じる内容が多いのですが、だからこそ、気をつけていないとその議論で仮定されていることを見失ってしまいます。
歴史的な背景を知っておくと、ここらへんの意識が変わりそうな気がしました。
　
　

2017-03-07

よくわかる人工知能

本機械学習

よくわかる人工知能を読みました。

よくわかる人工知能最先端の人だけが知っているディープラーニングのひみつ

作者: 清水亮
出版社/メーカー: KADOKAWA
発売日: 2016/10/17
メディア: 単行本
この商品を含むブログ (13件) を見る

著者の清水亮さんは、電脳空間カウボーイズというラジオをやっていて、自分は多分大学生の時くらいからこれをずっと聴いてます。この人のものの考え方が好きで、すごく共感できるのです。電脳空間カウボーイズの中で話される話題は、ちょうど自分の知らない技術寄りでかつビジネス寄りの話が多く、いつも興味深く聴かせてもらっています。そういえば、東京に来てから、一度ゲンロンカフェでの収録を見に行ったこともありました。
あと、UEIという会社の社長でもあります。

で、そんな清水亮さんの本なのですが、この本の存在自体も電脳空間カウボーイズ内の宣伝で知り、Kindle版を即購入。

この本は一言で言うとやばかったですww
久しぶりに本を読んでいてテンションが上がりました。

この本では、清水亮さんが人工知能業界のキーマンへのインタビューを通して、人工知能業界の最先端の人たちは何を考えているのかを明らかにしていきます。
個人的に、前半の内容は電脳空間カウボーイズ内や松尾豊さんの講演で聞いた内容と重複している部分もあり比較的新しい内容は少なかったのですが、後半がやばかったです。

まず、受動意識説の慶應大学の前野隆司さんのインタビュー。ここでは、意識をプログラミングできるかという議題において、意識とは、環境からインプットされる情報を圧縮して記憶しておくために、情報を物語化するための装置にすぎないという。完全な自由意志が常に存在しているというのは幻想で、外界からうける影響に人間の意識そのものが影響されている可能性を語っています。人間が作り出した科学という枠組みの中で、どこまで人間の意識を解明出来るのかは不明ですが、現実問題それよりも先に人工知能に意識らしき機能をつけてしまえるようになるかもしれないと思ってしまいました。さらには、もう人工知能だけの話ではないのですが、人間の意識における集団的無意識や外界からの一種の霊的なアフォーダンスについても何らかの見知が得られると面白いなと、読みながら個人的に妄想が膨らんでいました。
人間の意識について、寝ているときや酔っ払っているときなど意識に程度が存在することは明らかであり、動物にだって程度は違えど意識はありそう。というのは直感とそこまで違ってなく、おかしな話ではないと思う。一方で、環境からのインプット情報を物語的に記憶していない虫については、意識を持っていないだろうという話は新しい視点で妙に納得してしまいました。
ただ、本中では、楽観的にこのまま人工知能の研究が進めば意識の機能が実現できるかもねという話だったのですが、それにはなんとなくまだいくつかブレイクスルーが必要な気もしています。その一つが量子コンピュータだと個人的には考えています。

あとは、何と言ってもPEZYという会社の社長である齊藤元章さんのインタビュー。この人は一番ぶっとんでいて、自分でシンギュラリティを早く起こすために世界で最も電力効率の良いスパコンを作っている人。
たしかに、今の科学の進歩は偶然の発見の寄与が大きく、進歩が遅い。まさに、生物学的進化がDNAの突然変異に依存しているから人間に進化するまでに何億年もかかったように、科学の進歩もほとんど盲目的な科学実験から運の良かった天才たちが努力を重ね、エッセンスを抽出して科学の功績が生まれている。この本を読むまでそんな発想をしたことがなかったが、言われてみれば確かに、人類よりもはるかに頭の良い人工知能からはそんな感じに見えるかもしれない。N対Nの関係性を簡単に見つけ予測を立てて実証するサイクルを高速で回せる世の中になれば、不老であれ星間移動であれ、加速度的に技術が進歩し何でもできるようになってしまうだろう。
その後の世界を想像することは困難ですが、まずはそれまでの世界で自分が何ができるのかをちゃんと考えなければと、焦りと興奮を覚えながら本を読み終えました。

１つ不自然だったのは、この本の中に量子コンピュータの話が出てこなかったこと。
PEZYなんかは、電力効率の良いスパコンなんて絶対量子コンピュータの話題は避けて通れないと思ったのですが、わかりにくくなるので割愛してるのかなと思ったり。

なので、次はこんな本をポチって読んでます。

量子コンピュータが人工知能を加速する

作者: 西森秀稔,大関真之
出版社/メーカー: 日経BP社
発売日: 2016/12/09
メディア: 単行本
この商品を含むブログ (1件) を見る