Kaggleを始めてみた(つづき) python編
前回、Kaggleのチュートリアルである、タイタニック号の事故での生存者予測モデルを作る課題を、エクセルでやってみた。
今回は、下記に従って、pythonを使ってやってみる。
ちなみに、自分はpython2.7をMacにインストールして使ってます。
Getting Started With Python - Titanic: Machine Learning from Disaster | Kaggle
前半は前回と同じく、女性が生き残るモデルの結果をcsv出力します。
ここで、1つだけ引っかかったのでメモ書き。
最初、csvとnumpyのモジュールをimportします。インストールしていない場合は、easy_installで事前にインストール。
記載された通りにターミナル上(対話型シェル)でコマンドを1行づつ打って進めて行き、最後、
for row in csv_file_object: # Run through each row in the csv file, data.append(row) # adding each row to the data variable data = np.array(data) # Then convert from a list to an array # Be aware that each item is currently # a string in this format
上記の部分を打つと、、、
data = np.array(data)
^
SyntaxError: invalid syntax
と、構文エラーが発生。
なんぞやと検索してみたら、同じエラーで困っている人を発見。
can get the data in python - Titanic: Machine Learning from Disaster | Kaggle
Try hitting return twice after the line data.append(row) to start a new line with the >>> command prompt
とあるように、data = np.array(data) の前にreturnを2回押して、次の行に移ってから記載すればちゃんと認識してくれました。なんとなく対話型シェルを使うとうっかり間違えます(この人と自分だけ?)。
この前半の部分では、pythonを使って、testデータの読み込みから提出する用のcsvファイル出力までの基本コマンドを学びます。ここまで出来ればあとは、モデルをすこしずつ複雑にしていけばよいです。
次のステップでは、性別の他に、乗客クラス(Passenger Class)と、チケット料金(Fare)を説明変数に加え、精度を上げます。
Data - Titanic: Machine Learning from Disaster | Kaggle
ここでgenderclassmodel.pyを落として実行すればよいはず。。。
ということで次回へ続く。。。