よくわかる人工知能

よくわかる人工知能を読みました。


著者の清水亮さんは、電脳空間カウボーイズというラジオをやっていて、自分は多分大学生の時くらいからこれをずっと聴いてます。この人のものの考え方が好きで、すごく共感できるのです。電脳空間カウボーイズの中で話される話題は、ちょうど自分の知らない技術寄りでかつビジネス寄りの話が多く、いつも興味深く聴かせてもらっています。そういえば、東京に来てから、一度ゲンロンカフェでの収録を見に行ったこともありました。
あと、UEIという会社の社長でもあります。


で、そんな清水亮さんの本なのですが、この本の存在自体も電脳空間カウボーイズ内の宣伝で知り、Kindle版を即購入。

この本は一言で言うとやばかったですww
久しぶりに本を読んでいてテンションが上がりました。


この本では、清水亮さんが人工知能業界のキーマンへのインタビューを通して、人工知能業界の最先端の人たちは何を考えているのかを明らかにしていきます。
個人的に、前半の内容は電脳空間カウボーイズ内や松尾豊さんの講演で聞いた内容と重複している部分もあり比較的新しい内容は少なかったのですが、後半がやばかったです。



まず、受動意識説の慶應大学の前野隆司さんのインタビュー。ここでは、意識をプログラミングできるかという議題において、意識とは、環境からインプットされる情報を圧縮して記憶しておくために、情報を物語化するための装置にすぎないという。完全な自由意志が常に存在しているというのは幻想で、外界からうける影響に人間の意識そのものが影響されている可能性を語っています。人間が作り出した科学という枠組みの中で、どこまで人間の意識を解明出来るのかは不明ですが、現実問題それよりも先に人工知能に意識らしき機能をつけてしまえるようになるかもしれないと思ってしまいました。さらには、もう人工知能だけの話ではないのですが、人間の意識における集団的無意識や外界からの一種の霊的なアフォーダンスについても何らかの見知が得られると面白いなと、読みながら個人的に妄想が膨らんでいました。
人間の意識について、寝ているときや酔っ払っているときなど意識に程度が存在することは明らかであり、動物にだって程度は違えど意識はありそう。というのは直感とそこまで違ってなく、おかしな話ではないと思う。一方で、環境からのインプット情報を物語的に記憶していない虫については、意識を持っていないだろうという話は新しい視点で妙に納得してしまいました。
ただ、本中では、楽観的にこのまま人工知能の研究が進めば意識の機能が実現できるかもねという話だったのですが、それにはなんとなくまだいくつかブレイクスルーが必要な気もしています。その一つが量子コンピュータだと個人的には考えています。



あとは、何と言ってもPEZYという会社の社長である齊藤元章さんのインタビュー。この人は一番ぶっとんでいて、自分でシンギュラリティを早く起こすために世界で最も電力効率の良いスパコンを作っている人。
たしかに、今の科学の進歩は偶然の発見の寄与が大きく、進歩が遅い。まさに、生物学的進化がDNAの突然変異に依存しているから人間に進化するまでに何億年もかかったように、科学の進歩もほとんど盲目的な科学実験から運の良かった天才たちが努力を重ね、エッセンスを抽出して科学の功績が生まれている。この本を読むまでそんな発想をしたことがなかったが、言われてみれば確かに、人類よりもはるかに頭の良い人工知能からはそんな感じに見えるかもしれない。N対Nの関係性を簡単に見つけ予測を立てて実証するサイクルを高速で回せる世の中になれば、不老であれ星間移動であれ、加速度的に技術が進歩し何でもできるようになってしまうだろう。
その後の世界を想像することは困難ですが、まずはそれまでの世界で自分が何ができるのかをちゃんと考えなければと、焦りと興奮を覚えながら本を読み終えました。


1つ不自然だったのは、この本の中に量子コンピュータの話が出てこなかったこと。
PEZYなんかは、電力効率の良いスパコンなんて絶対量子コンピュータの話題は避けて通れないと思ったのですが、わかりにくくなるので割愛してるのかなと思ったり。


なので、次はこんな本をポチって読んでます。

量子コンピュータが人工知能を加速する

量子コンピュータが人工知能を加速する


 

統計学入門

今更ながらですが、基礎を固めるべく「統計学入門」の教科書をポチり読み始めました。
PRMLとかディープラーニングとか勉強してましたが、統計学をちゃんと知っておくのも必要かと思いまして。
 

統計学入門 (基礎統計学)

統計学入門 (基礎統計学)


まだ1章+α程度ですが、まさに自分が知識として固めたかった統計学の背景や統計学の中に登場する各要素の繋がりが整理されていて、読んでいく中で頭の中で何となくフワフワしていた概念がまとめられていく感じがします。

 
多分1章が最も読みたかった部分。あとは確率分布とか中心極限定理とか検定、回帰分析とかなので、知っている内容のはず。
一応ひと舐めしようと思いますがほぼ読み飛ばしなので来週中くらいまでに終わらせたい。
 
 


ネットで情報検索していてもほとんどが断片の知識で終わっていて、背景まで理解把握している書き手が初学者向けに労力をかけて説明しているような情報にはあまり出会えない。ニッチなシチュエーション向けにうまくまとまっている記事もあるにはあるが、広く応用の効く本質的な議論はあまりなく、そのニッチなシチュエーションにマッチしていない限り、読み込むコストに対してのリターンが少ないように感じます。
それに対して、当たり前だが出版物は質が高く、お金を払う価値がある。特に、上記の本のような過去に何度も読まれてきた教科書は、それだけ内容の質が担保されていて、ある意味、安心して読み込む労力がかけられる。

 
端的に言うと、ネットのコンテンツよりも出版物の方が面白いことが多く、往往にしてネット検索に時間をかけるよりも、本をポチった方が早いと言うこと。
単にWebでは誰でも気軽に情報発信できるから、薄い内容になってしまうということなのですが。このブログの内容にしても、どう価値を出していけばいいのか、ちゃんと考えていかないとと思いました。
 

分析の種類

データ分析にはパターンがあり、知りたいことや与えられるデータによって、分けられます。
いろいろ学んでいくうちに、各パターンの具体的なイメージはついてくると思いますが、最初に、大枠の全体像についても把握しておくと、学びやすいかもしれません。
まずは、目的変数(簡単にいうと、値を予測したい変数のことです。)がある場合と、目的変数がない場合の2つに分けられます。

目的変数がある場合の分析

例えば、Kaggleのコンペページからダウンロードできるtrainデータや、Webのログデータから成型したユーザー毎のWeb行動データがあり、これを分析してみる。というシチュエーションを想定します。
その際の分析の目的は、「結果を予測出来るようになる」ということになります。
このために、「まず分析する対象(人、商品、不動産等)があって、その対象が持つ属性としての、目的変数と説明変数の関係を調べる」ということをします。

ここで、目的変数は、予測したいなんらかの変数(生死結果、価格、CVしたかどうか等)であり、説明変数は、目的変数の予測の手がかりになるその他の変数(人の年齢性別、居住地、商品のカテゴリ等)です。
いくつか例を挙げると、下記の通り。


タイタニック号沈没事故による乗客の生死を予測する(Kaggleのコンペ)

※過去の事実のデータを、2分割し、一方のデータで残りのデータを予測するということをやるため、"予測"という言葉を使っている。
Titanic: Machine Learning from Disaster | Kaggle

分析対象:タイタニック号の乗客
目的変数:事故による生死結果
説明変数:名前、年齢、性別、乗船場所、部屋のランク、等
意義:この場合、予測すること自体にはあまり意味はない。生死の結果の要因を明らかにすることで、今後の対策に活かすなどの意義がある。


不動産の売却値段を予測する(Kaggleのコンペ)

House Prices: Advanced Regression Techniques | Kaggle

分析対象:ある地区内の不動産
目的変数:各不動産の売却値段
説明変数:エリア、広さ、不動産カテゴリ、面する通り、等
意義:将来の不動産価値を予測できるようになり、不動産ビジネスで優位に立てる。売る側としては、値段の要因を明らかにすることでより高い値段で売却できるような改善を行える。

Web行動データからCV有無を予測する

分析対象:Webサイトユーザー
目的変数:CVの有無
説明変数:閲覧ページ、セッション数、PV数、アクセス日時、流入元、年齢、性別、等
意義:CVし易いユーザーを予測し積極的に集客する。サイト内の改善点を見つける。


つまり、「目的変数がある場合の分析」とは、「(目的変数の)結果を予測出来るようになる」ための分析ということです。


目的変数がない場合の分析

目的変数がない場合の分析は、主に、分析するサンプル間の関係や変数間の関係を明確にすることが目的となります。
また、複数の変数を新しい変数で説明する(要約する)場合もこれに含まれます。要約した後に、変数の因果関係が判明し、目的変数と説明変数に分かれる場合もあります。

具体的には、Web行動データからユーザーを興味関心カテゴリで分類するとか、アンケートデータの要素を整理するとかがあります。
 

変数の種類について

上記の目的変数及び説明変数については、それぞれそれが量的変数なのか質的変数なのかで、使う分析手法が異なります。
量的変数とは、読んで字のごとく何らかの量を表す変数のことで、例えば、体重とかPV回数とか値段とかです。
質的変数は、量的変数でない変数のことで、例えば、居住地とか、5段階評価のアンケート回答とか、性別とかです。
この量的変数と質的変数は、分析の時の扱いが異なるので、常にその変数がどちらに属するのかを意識しながら分析手法を考えることになります。

多変量解析について

先述までの分析は、全て多変量解析を想定した話になります。厳密に言うと、これ以外に、単変量解析、2変数解析という分析が存在しますので、これについても一応言及しておきます。

多変量解析というのは、使う変数が3つ以上の分析手法のことです。
それより変数が少ない場合、1変数のみを単変量解析、2変数のみを2変量解析といいます。
1変数のみの単変量解析は1次元の値の分布を把握し、2変量解析は2変数間のみの関係性をみていくことになり、多変量解析の前にざっくり変数の性質を把握するための分析となります。

多変量解析と2変量解析の大きな違いは、説明変数同士の相関性を考慮できるかどうかという点になります。
例えば、商品購入有無が目的変数で、客の性別、年齢が説明変数だった場合、2変量解析で年齢と商品購入有無だけみていた場合に相関性がない場合でも、性別という説明変数を取り入れ、性別毎に、年齢と商品購入有無を見ていくと、実は相関性があるようなケースは、2変量解析だけでは十分でなく、多変量解析が必要なケースとなります。


多変量解析のまとめ

分析の全体像としては、下記のような感じになります。
各分析の分類方法はこれまで説明した通り。それぞれの手法は、名前だけメモしておいて必要になった時に都度確認して習得していけばよいです。徐々にできる分析の幅が広がっていくことになるかと。
課題に遭遇したら、まずは、何をしたいのか(予測か分類か要約か)と、登場する各変数は何か(量的か質的か)を把握すること。それが整理できれば、あとはその場合の手法が何かを調べていけば万事OK。となります。

多変量解析まとめ(目的変数あり)
目的変数 説明変数 分析手法
量的変数 量的変数 重回帰分析
量的変数 質的変数 数量化I類
量的変数 質的変数 分散分析
量的変数 量的変数、質的変数混合 共分散分析
質的変数 量的変数 判別分析
質的変数 質的変数 数量化II類
質的変数 量的変数、質的変数混合 共分散分析

 

多変量解析まとめ(目的変数なし)
説明変数 分析手法
量的変数 主成分分析、因子分析
質的分析 数量化III類
親近性、距離、類似度データ クラスター分析、多次元尺度構成法、数量化IV類