Kaggleを始めてみた(つづき) python編

前回、Kaggleのチュートリアルである、タイタニック号の事故での生存者予測モデルを作る課題を、エクセルでやってみた。

spitta8823.hatenablog.com

 

 

今回は、下記に従って、pythonを使ってやってみる。

ちなみに、自分はpython2.7をMacにインストールして使ってます。

Getting Started With Python - Titanic: Machine Learning from Disaster | Kaggle

 

前半は前回と同じく、女性が生き残るモデルの結果をcsv出力します。

ここで、1つだけ引っかかったのでメモ書き。

 

最初、csvとnumpyのモジュールをimportします。インストールしていない場合は、easy_installで事前にインストール。

記載された通りにターミナル上(対話型シェル)でコマンドを1行づつ打って進めて行き、最後、

for row in csv_file_object:      # Run through each row in the csv file,
    data.append(row)             # adding each row to the data variable
data = np.array(data) 	         # Then convert from a list to an array
			         # Be aware that each item is currently
                                 # a string in this format

上記の部分を打つと、、、 

data = np.array(data)  
      ^

SyntaxError: invalid syntax

 と、構文エラーが発生。

 なんぞやと検索してみたら、同じエラーで困っている人を発見。

can get the data in python - Titanic: Machine Learning from Disaster | Kaggle

 

Try hitting return twice after the line data.append(row) to start a new line with the >>> command prompt

とあるように、data = np.array(data) の前にreturnを2回押して、次の行に移ってから記載すればちゃんと認識してくれました。なんとなく対話型シェルを使うとうっかり間違えます(この人と自分だけ?)。

この前半の部分では、pythonを使って、testデータの読み込みから提出する用のcsvファイル出力までの基本コマンドを学びます。ここまで出来ればあとは、モデルをすこしずつ複雑にしていけばよいです。

 

次のステップでは、性別の他に、乗客クラス(Passenger Class)と、チケット料金(Fare)を説明変数に加え、精度を上げます。

Data - Titanic: Machine Learning from Disaster | Kaggle

ここでgenderclassmodel.pyを落として実行すればよいはず。。。

ということで次回へ続く。。。