強化学習でボールを自由に動かす ~ネズミを追いかけるボール~ Part 3

実際の機材を使用した強化学習(事例・応用例)  こんにちは。 「ネズミを追いかけるボール」シリーズも今回が最終となります。  Part 1では「強化学習の概要」を紹介し、Part 2では「ボールの自動転がし」について、シミュレーション上で行った様子を紹介しました。  いよいよ今回のPart 3では、実際の機材を使用して、強化学習を用いたボールコントロールを行ってみたいと思います。  前回のおさらいとなりますが、図1は「ボールの自動転がし」に使用する実際の機材構成です。カメラでボールの位置を捕捉し、ステージの下にある高さセンサーで、ステージの状態をとらえています。  2個のサーボモータを回転させてステージを上下させることにより、ボールを「円」や「8の字」に転がそうとしています。仮想の(見えない)ネズミをボールが追いかけるように(強化学習で)学習を行っています。 図1 ボール転がし機の全体像   1 実機を使用した再学習(Fine-tuning)  コンピュータで使用する強化学習のモデルは、前回 Part 2 の「シミュレータを使用して学習したモデル」を使用します。このモデルは仮想の(見えない)ネズミをボールが追いかけるように学習していますが、実際の機材とシミュレ...
More

強化学習でボールを自由に動かす ~ネズミを追いかけるボール~ Part 2

疑似シミュレータで強化学習(事例・応用例) こんにちは。 前回のPart 1では強化学習の概要についてお話をしました。今回は強化学習の事例を紹介したいと思います。 ~関連ブログ~  「強化学習でボールを自由に動かす ~ネズミを追いかけるボール~ Part 3 実際の機材を使用した強化学習(事例・応用例)」   1 ボールの自動転がし  ここで紹介する事例は、 「ボールの自動転がし」です(図1)。 図1 工事用一輪車(手押し車)  図1のように、工事用の一輪車に平らな板を載せ、その板の上にボールを置きます。この一輪車を左右の手で上下させることにより、板の上のボールを自由自在に転がそうというものです。ボールを板の上でピタッと静止させたり、「8の字」の形にボールを転がしたいと考えています。  ここでは本物の一輪車は使いません。図2のような機材を用います。人の眼をカメラに、人の手をサーボモータに置き換えて、ステージの上のボールを自動的に、自在にコントロールすることを目標にしています。 図2 ボール転がし機  このような技術はシステム制御工学の「フィードバック制御」と呼ばれる中の一つのようですが、ここでは強化学習を用いてボールの...
More

強化学習でボールを自由に動かす ~ネズミを追いかけるボール~ Part 1

強化学習の概要 こんにちは。 前回は「倒立振り子」を例に、強化学習を用いた自動操作について紹介しました。 今回は強化学習と自動操作について、もう少し深くお話しをしたいと思います。 しかしその前に、このPart 1では強化学習の概要を紹介します。 ~関連ブログ~  「強化学習でボールを自由に動かす ~ネズミを追いかけるボール~ Part 2 疑似シミュレータで強化学習(事例・応用例)」  「強化学習でボールを自由に動かす ~ネズミを追いかけるボール~ Part 3 実際の機材を使用した強化学習(事例・応用例)」 Deep Learning(深層学習)を用いた強化学習としてはDQN が有名ですが、最近では次のように様々なアルゴリズムが提案されています。 DQN (Deep Q Learning) DDQN (Double DQN) DDPG (Deep Deterministic Policy Gradient) NAF  (Continuous DQN (CDQN )) CEM  (Cross-Entropy Method) Dueling DQN (Dueling network DQN) Deep SARSA A3C  (Asynchronous Advantage Actor-Criti...
More

ネズミを追いかける振り子と機械の自動操作(深層強化学習  Deep Reinforcement Learning)

こんにちは。 今回は、「機械の自動操作」について、少しお話をしたいと思います。 機械学習の一つの領域に「強化学習」がありますが、強化学習とディープラーニングを統合させた深層強化学習を用いた、「機械の自動操作」についてご紹介したいと思います。 自動操作で最近のホットな話題は、「車の自動運転」です。 Googleをはじめ、車の製造メーカー各社は、大量の機械学習技術者を採用し、「車の自動運転」を目指して競争しているようです。 複数のモータをスムーズに制御しなければならいない人間型ロボットについても同様で、機械学習を用いた制御方法が盛んに研究されているようです。 「強化学習」の基本につきましては、「強い三目並べをつくる」をテーマに、書籍「実装 ディープラーニング」(2016 オーム社)の第6章で紹介させていただきました。詳しくはこちらをご覧下さい。 初めに、強化学習と自動操作の基本ともいえる「倒立振り子」のご紹介です。 ここでは、この「倒立振り子」も簡単な制御機械の一つとして考えています。 ~関連ブログ~  「強化学習でボールを自由に動かす ~ネズミを追いかけるボール~ Part 1 強化学習の概要」   1 倒立振り子   上の図のような振り子を考えます。 こ...
More

書籍「実装 ディープラーニング」のご紹介

●書籍「実装ディープラーニング」のFAQ を作成しました。 こんにちは。今回は、書籍「実装 ディープラーニング」について、内容を少しご紹介したいと思います。 ※「実装 ディープラーニング」の韓国語版です。「딥러닝 부트캠프 with 케라스」 以下は、「はじめに」から抜粋した内容です。 車の自動運転。この夢のような話も、数年後には普通のことになっているかもしれません。 車の自動運転には、いくつかの高いレベルの技術が必要といわれています。その一つが、正確なセンサーとしての役割を担う画像認識です。もう一つは、人に近い、より高度な推測を可能とする強化学習です。本書はこの二つに焦点をあてて、ディープラーニングを使用したサンプルプログラムを示しながら、より実践的な手法を紹介します。 ~ 途中略 ~  画像のクラス分類では、1,000層からなるディープラーニングのネットワークも発表されています。最近の主流は、公開されている VGG-16(16層)、ResNet-152(152層)といった学習済みモデル(pre-trained model)を利用し、最後にFine-tuningする方法です。学習済みモデルを利用すると、高い性能を容易に発揮できることが示されています。  本書では、「画像のクラス分類」で、VGG-16、ResNet-152を具体...
More

数式をまったく使わないMCMC(マルコフ連鎖モンテカルロ法)の説明

こんにちは。 今回は、確率分布の平均値やモード(最頻値)を探す方法のアルゴリズムである「MCMC(マルコフ連鎖モンテカルロ法、Markov chain Monte Carlo methods)」について、お話ししたいと思います。 ここでは山田君が登場します。このストーリーは社内でも意外に好評で、週刊ダイヤモンドでも採用していただきました。 1 洞穴に落ちてしまった! 山田君は、山に遊びにいって、誤って大きな洞穴に落ちて気を失ってしまいました。 気が付いたら、もう夜。そこは大きな洞穴で、なんとか上の落ちた穴の位置を探したいと思いました。 さて、真っ暗闇の中で、どうやって穴の位置を探したらよいでしょうか? 2 落ちた穴を探す 山田君は、洞穴の一番高いところに落ちた穴があるだろうと考えました。 そこで、近くの小石を拾って、それを真上に投げ上げて、小石が天井にぶつかって落ちてくるまでの時間を測ることにしました。 山田君はランダムに歩いて、一歩進むたびに石を投げ上げながら天井の高いところを探します。 「ここら辺が高いな」と思ったら、その周辺に集中的に石を投げ上げて、落ちた穴を探すようにしました。 3 平均値・モードを求める 山田君は、20回小石を投げ上げたとしましょう。 ここで、山田君が小石を投げた時の足の位...
More

強化学習で〇×ゲームに強いコンピュータを育てる(深層学習 Deep Learning)

こんにちは。 今回は「強化学習」についてお話をしたいと思います。 ~関連ブログ~  「強化学習でボールを自由に動かす ~ネズミを追いかけるボール Part 1~ (深層学習  Deep Reinforcement Learning )」 人間は学習することによって、行動をより良いものに変えていくことができますよね。 コンピュータも自己学習をすることにより、より良い行動を取るようにすることができます。 それが強化学習です。 ●「強化学習で○×ゲーム(三目並べ)」の詳しい内容が書籍として出版されました。 詳しくはこちらをご覧下さい。 最近有名なのが、GoogleのDQN(Deep Q Network) でしょう。 シンプルなテレビゲームであるピンポンゲームを学習し、次第に強くなっていきます。 最初はほぼ負けているプレイヤー(コンピュータ)ですが、数千回のゲームを繰り返していくと だんだんと勝てるようになっていく様子は見ていて飽きません。 youtubeに強化学習の様子がありますので、興味のある方はどうぞ。 https://www.youtube.com/watch?v=N813o-Xb6S8 今回は、ピンポンよりももっとシンプルなゲームで強化学習を試してみたいと思います。 ...
More

解けない連立方程式とディープラーニング(深層学習 Deep Learning)

こんにちは。 今回は、ディープラーニング(深層学習 Deep Learning)について、少しお話をしたいと思います。テレビなどでも「人工知能」に関するニュースが多くなってきましたが、いずれも、このディープラーニングという手法が背景にあるようです。 ●画像認識と強化学習(DQN)を中心とした、ディープラーニングの書籍「実装 ディープラーニング」をオーム社から出版しました。詳しくはこちらをご覧下さい。 まずは、簡単な一次関数の問題から始めます。 問題 1  2点P(1, 1)、Q(3, 4)を通る1次関数 \(y = ax + b\) について \(a\)、\(b\)の値をそれぞれ求めましょう。 これは、中学校で勉強する1次関数についての問題です。次のような連立方程式を解けばよいですね。 \[ \left\{ \begin{eqnarray} a + b &=& 1 \\ 3a + b &=& 4 \end{eqnarray} \right. \] これを解いて、傾き \(a = 1.5\) 、切片 \(b = -\ 0.5\) となります。求める1次関数は、 \[ y = 1.5x\ -\ 0.5 \] です。 この1次関数をグラフにかくと、次のようになります。2点をピッタリ通る直線を1...
More

iPhone と Android の Web サイト表示速度の比較

今やスマホの普及率は約50%にもなりました。2人に1人はスマホで Web サイトを見ていることになりますね。そこで今回は、iPhone vs. Android をお届けします。と言っても、価格の比較でも機能の比較でもありません。Web サイトにアクセスしたときの表示速度の比較です。 果たして差があるのか? TrafficPatrol2 に追加された、スマートフォン実機による計測機能を利用して、実験してみました。 ※なお、本記事は iPhone と Android とのどちらが良いかのお話ではありません。 使用機種 使用したスマホの機種は次のとおりです。インターネットにつながる回線は、共通(社内の Wi-Fi 回線)にしました。  iPhoneAndroid メーカーAppleLG 機種名iPhone 5SNexus 5 OSiOSAndroid バージョン9.16.0.1 通信環境Wi-Fi ブラウザSafariChrome シナリオ TrafficPatrol2では、ブラウザにさせる一連の動きを「シナリオ」と呼びます。今回は、 某 Web サイトにアクセス ログイン画面表示 ログイン実行(ID 、パスワードを入力) 商品検索 商品詳細へ カートに追加 カー...
More

書籍「見えないものをさぐる ―それがベイズ」のご紹介

●書籍「見えないものをさぐる ―それがベイズ」のFAQ を作成しました。 こんにちは。 今回は、書籍「見えないものをさぐる ―それがベイズ」について、本の目次を中心に、内容を少しご紹介したいと思います。 「ベイズには興味はあるけど、とっても難しそうで、どんな所で役立っているのかもよくわからない」という方も多いと思います。そのような方が、ノートパソコンを片手に気軽に読んで、「面白いなー」と思っていただける本を目指しました。 第1章 宇宙から届いた箱の中身をさぐる - これがベイズの考え方 第1章では、ベイズの定理の考え方や、この書籍の全体像について説明しています。 宇宙から届いた箱の中身を、箱に手を差し込んで探ってみようという内容です。 ベイズの定理の式はでてきませんが、手を差し込む、つまり観測で得た情報をもとに、隠れている、「見えない状態」を探るという考え方について述べています。 第2章 病気の検査 - ベイズの定理 第2章でやっと、ベイズの定理がでてきます。 ベイズの定理で例題によくあげられる「病気の確率」を例に、ベイズの定理がどのように使われているかを述べています。 「病気の確率」では、『検査で陽性と判定されても、病気の確率は意外...
More