BLOG

AI 基礎

(JP Only)AIの深層学習「ディープラーニング」の活用法!人工知能のニューウェーブを知る

話題の人工知能技術、「ディープラーニング」。囲碁や将棋でプロに勝利をした話題を筆頭に、さまざまなメディアで取り上げられています。ディープラーニングの技術は今後どのように発展し、わたしたちの生活にどのように影響していくのでしょうか。

人工知能(AI)にまつわる情報は、ビジネスに本格導入していくだけの知識を収集をするのも簡単ではない領域です。うろ覚え、聞きかじりの知識だけでは心もとないと感じることも多いのではないでしょうか。ニュースで語られやすいディープラーニングのセンセーショナルな面だけでなく、基本的な知識もおさえていきたいところです。

今回は、ディープラーニングの概要から開発手法未来の活用方法など、ディープラーニングの基礎から応用に至るまでを詳しくご紹介します。

目次

人工知能(AI)における解析技能のひとつ「ディープラーニング」とは?

脳神経イメージ

ディープラーニングとは、人工知能における解析技能のひとつとして位置づけられる概念です。
「ディープラーニングと人工知能は同じじゃないの?」と感じる方もいらっしゃるかもしれません。

混乱するのもそのはず、人工知能の定義自体が諸説あります。本稿においては一般社団法人 人工知能学会設立趣意書の「大量の知識データに対して、高度な推論を的確に行うことを目指したもの 」の定義を拝借します。

では、人工知能の定義に含まれる「高度な推論」とはどのようなものでしょうか。

これまで、物理学や工学といった数学を用いる学問、微積分学にはじまるさまざな解析において、コンピューターの応用は飛躍的な発展を遂げてきました。これらは、数式やモデルを使って、記号的に記述することができて、インプットがあれば一定の演算のもと、確かなアウトプットにつなげることができる問題です。

とはいえ、たとえば微分方程式ひとつとっても、解くことができるものは実は限られていて、解けないような問題もたくさんあります。そうしたものをうまく近似するようなことも含めて、コンピューターはさまざまな解析を担ってきました。

ディープラーニングとニューラルネットワークの関係性

ディープラーニングをはじめとする人工知能開発は、「言語の理解や推論、問題解決」といった人間の知的行動を解析します。こうしたものを「高度な推論」としてとらえて、人間がものを考えるように、機械も思考をさせたいと考えているのです。

推論をコンピューター上で実現することは、長いあいだ、情報科学上の難問でした。

このような人間の知的行動における解析とはつまり、「データにおける有意な規則性=パターンを発見すること」と言い換えられます。言語や画像を見聞きするときに、人間はいとも簡単にその「意味」を理解してそこから思考をすることができます。これを機械に代行させるにあたっては「パターンの発見」が不可欠であり、そのための手法として研究されたのがニューラルネットワークと呼ばれる数理的モデルでした。

動物の脳神経とは、環境に存在する物質やエネルギーが感覚器官によってとらえられ、信号に変換されたものが、シナプスとニューロンによって、入力ノード→中間ノード→出力ノード、というふうに伝わるようにできています。動物にとって学習とは、その神経伝達経路の形成や変形のことを指します。
これを計算機上で模したものがニューラルネットワーク(NN)です。このネットワークの階層は、深くなればなるほど学習の精度が高まることが知られています。ディープラーニングとはその名の通り、このノードを多層にしたディープニューラルネットワーク(DNN)を用いた学習手法のことなのです。

ディープラーニングの仕組み

ディープラーニングとこれまでの人工知能開発との違い

人工知能研究はこれまで、何度か大きな盛り上がりを見せては、失望を迎えるという周期を繰り返してきました。

第一の波は、1960年代に発生しました。20年ほどまえにコンピューターが実用化され始めたのをうけて、機械翻訳等のさまざまな試みがおこなわれました。しかし、大きな成果は挙げられずに、ブームは沈静化しました。

1980年代に入ると、コンピューターは汎用機から個人へまで普及。パーソナルコンピューターの時代に移行します。このころに勃興したのが「エキスパートシステム」と呼ばれる研究です。計算機に人間の思考を、とりわけ専門家の役割をさせようというコンセプトが第二の波となりました。ところが、人間が暗黙に持つ常識の記述をうまく実現できないという問題にぶつかりました。

問題となったのは「推論」と呼ばれる人間の思考過程の再現性でした。エキスパートシステムとは、「人間の知的思考とは、帰納や演繹を中心とする記号(言語)の操作に置き換えることができる」という前提にたったコンセプトのソフトウェアでした。しかし、研究を進める中で、人間の知性そのものが、それだけには終わらないことが明らかになってきたのです。

こうした反省によって着目されたのが、認知科学等、学際的なアプローチの必要性でした。深層学習(ディープラーニング)は、脳神経の構造を模すことによって、記号操作に頼らずに出力を生み出すという発想に立っています。ニューラルネットワーク自体は情報科学の最初期、1940年代頃から研究されてきたものですが、人工知能研究第二次の波における反省とあいまって成熟した方法論だと言えるでしょう。

大まかなディープラーニングの構造(FFNN,CNN,,RNN,LSTM,GAN)

さて、いよいよディープラーニングの構造、どのような原理に基づいてそれは動くのか?について、現在応用のメインストリームを形成している、代表的な5つのモデルについて、解説したいと思います。

ディープラーニングは根本的な数理モデルはシンプルなものですが、より人間の判断に近い働きをさせるために、その目的に応じて様々な構成要素を備えています。

1.FFNN(フィードフォワードニューラルネットワーク)

ニューラルネットワークは、「入力層」、「中間層」、「出力層」の各層を持ちます。各層は複数の「ノード」から成ります。そして、ノードとノードが「エッジ」で結ばれる構造となっています。

  • 入力層における各ノードの値(入力値)
  • 各ノードが接続されているエッジの重みづけ
  • 入力層の持っている活性化関数

の3つにより計算が実行されて、その結果が次の中間層の各ノードに送られます。するとその中間層は同様な計算を行って、次の層へ・・・という順番で、情報が伝わっていきます。

ニューラルネットワークの分野で最初に考案されたのは、入力ノード→中間ノード→出力ノードというように単一方向へのみ信号が伝播する、最も単純なものでした。これをFFNN(フィードフォワードニューラルネットワーク)と呼びます。FFNNは構造が単純なだけに、即座に人間が期待するような挙動を示してくれる、というものではありません。

そこで、現在これを多層化させたり、フィードバックループ構造を持たせるなど、複雑な内部構造をもたせたモデルが開発されています。それがディープラーニングです。

ディープラーニングは以下に説明する、 CNN(畳み込みニューラルネットワーク)RNN(再帰型ニューラルネットワーク)LSTM(長・短期記憶ユニット)など、複数のコンポーネントを多層に組み合わせたモデルを学習させることを指します。

コンポーネントの選別に加え、各層の組み合わせ(アーキテクチャ)にもかなり自由度があり、タスクに応じてさまざまなアーキテクチャを採用する事が可能です。例えばGANのような少し特殊なアーキテクチャを用いれば画像生成など従来では難しいとされていたタスクへのアプローチも実現できます。

2. CNN(Convolutional Neural Network,畳み込みニューラルネットワーク)

神経科学の研究により、人間の脳で視覚を処理する部位は浅い(目に近い方の)層の細胞は、目で見た画像内のエッジを検知し、深い層ではより高次の認識をするということが明らかになっています。こうした動きを簡易的に再現しようという試みが畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)です。

フィルターの役割を担う「畳み込み層」と特徴マップの解像度を下げるための「プーリング層」、中間層はこのいずれかの役割を担っていて、これらが交互に繰り返された後、全結合層が配置されます。

CNNは、実際に画像認識の分野で優れた性能を発揮しており、画像認識のエラー率を大幅に下げることに成功したことでも知られています。

3. RNN(Recurrent Neural Network,再帰型ニューラルネットワーク)

再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)とは、店舗の売上データやウェブサイトのアクセス数、設備のセンサデータなど、多種多様な時系列データを扱えるようにしたものです。時系列データにおいて人間が注目したいのは、その変化のトレンドや周期、またそれが今後どのように変化するかという点です。

RNNの中間層は、ある時刻の中間層からの出力を次の時刻の中間層に伝えるためのパスを持つ構造となっています。それによって、ある時刻の中間層は、同じ時刻の入力に加えて、前の時刻の中間層からのインプットも受け取ることになります。

4. LSTM(Long Short-Term Memory, 長・短期記憶ユニット)

RNNには、「長時間前のデータを利用しようとすると、誤差が消える」「演算量が爆発してしまう」といった問題があり、短時間のデータしか処理できませんでした。この欠点を解消し、長期の時系列データを学習することができる強力なモデルです。

これは、神経科学の短期記憶、長期記憶からヒントを得た考え方により開発されました。時刻経過とともに変化する「メモリセル」と呼ばれる中間層の状態を保持するパラメータを組み込むことがその発想の中核です。これに加えて、「忘却ゲート」と呼ばれる関数が、時間経過による各要素の変化を制御しています。

5. GAN(Generative Adversarial Network, 敵対的生成ネットワーク)

GANは2つのニューラルネットワークを競合させて学習する方法です。生成器G(Generator)と識別器D(Discriminator)の2つのネットワークで構成され、Gは「Dに見破られないように真のデータに似るように生成」、一方のDは「真のデータなのか、Gが生成したデータなのかを識別するように成長」します。

これまでにご説明した、CNN、RNN、LSTMはニューラルネットワークの内部コンポーネント、という位置づけでしたが、GANの場合は「モデル」というレイヤーに位置づけられます。
これにより、効率よくデータが生成できるだけでなく、人間から見て非常に高品質なデータが生成できることが知られています。

国内におけるディープラーニングの活用状況の海外比較

日本と海外のディープラーニングの活用状況を比較してみると、現状、日本における水準は遅れを取っているといえます。
ロボティクスも含め、人工知能技術全般においては、過去からの研究の蓄積とアドバンテージがあるものの、ディープラーニングそのものの基礎研究は遅れています。応用面でも、金融をはじめとする新たな領域へのキャッチアップについては、初動が遅れやすい状況です。

資金力の面でも大きな差がひらいています。日本では、国からの研究費がAI分野全体で数百億円のレベルにある一方で、Googleの研究費は年間1兆数千億円にも上っています。

人材不足も顕著です。Element AIの調査によると、LinkedInで調べた結果、AI人材の数は1位の米国が9000人を超えていたのに比較して、日本は117人と9位に留まっていたとのことです。

Global AI Talent Pool Report 2018

日本人にとってロボットといえば、鉄腕アトムやドラえもんですよね。主にSFやサブカルチャーの文脈において、日本人はロボットや人工知能に対しては強い好意と期待を抱いてきました。欧米社会では、人に代わる労働力や召使いとしてAIをとらるような描写が盛んです。「2001年宇宙の旅」「ターミネーター」「マトリックス」等の映画が描いてきたように、人間に対して反抗する、対立するというイメージがあるのでしょうか。日本のカルチャーシーンでは、ロボットは友だちであり、共生する仲間であるという価値観があります。

データ解析が得意な人工知能「ディープラーニング」の特徴

ディープラーニングを利用した画像認識技術。写真に写っている物体を推論する

十分なデータ量があれば、ディープラーニングを用いることで、写真に何が写っているのか推論することができます。

わたしたちの日常生活に直接触れることができるものとしては、iPhoneやfacebook上の人工知能です。過去に保存した顔写真から推論して、名前を言い当てます。
特にiPhoneの最近の機能には、人別に写真をまとめてグルーピングする機能が登場。技術の進歩に驚かされることもしばしばです。

医療現場においてはレントゲンの画像から病気を診断するなど、日々の生活に役立つサービスが生まれています。これらを実現するアルゴリズムとして、先にご紹介した、畳み込みニューラルネットワーク(CNN)が応用されています。

Cogent Labsは、手書きで書かれた申込書をスキャニングし、筆跡を元にテキストデータを生成するサービス『Tegaki』を提供しています。

ディープラーニングを利用した音声認識技術。スマートフォンやロボットの音声入力

ディープラーニングを利用したほかの例としては、音声認識技術があります。
スマートフォンに向かって話しかけると、高い精度でこれを認識し、適したテキストが自動入力される機能があります。使ったことがある方も多いでしょう。

Alexaを始めとするスマートスピーカーの登場もご存知の方も多いと思います。これらは再帰型ニューラルネットワーク(RNN)が応用されて実現した機能です。

囲碁の達人を超えた!ディープラーニングが活躍したアルファ碁

2017年、アルファ碁と名付けられたソフトウェアが囲碁の世界トップ棋士と対局し、勝利しました。アルファ碁は、Google Deep Mindによって開発されたコンピューター囲碁プログラムです。2017年5月当時の世界ランキング1位であった、柯潔(か けつ)氏との三番勝負で3局全勝を挙げ、中国囲棋協会にプロの名誉九段を授与されました。

一般に、囲碁や将棋等のボードゲームは、選択する手の候補が多ければ多いほど、選択する手の探索範囲が爆発的に増えてしまいます。そのため、単に計算能力が高いだけのソフトウェアでは強い手を生み出すことは難しい。選択肢の幅広さはチェッカー、オセロ、チェス、将棋、囲碁の順に広くなっていきます。その最も難しい囲碁で、人間のトップ選手に勝利したのでした。

アルファ碁は、どのような仕組みで思考をするのでしょうか?論文によると、アルファ碁は盤面を評価する「value networks」、そして動きを選択する「policy networks」という2つの評価関数を使っているとのことです。

囲碁においては、「あらゆる手をしらみつぶしにひとつひとつ考えていく」ということはできません。なぜなら囲碁では、あらゆる回答パターンが想定できます。そのため機械による答えの計算ができなくないのです。これを「組み合わせ爆発」とよびいます。読むことができる深さと幅が、無限大ではないのです。そこで、限られた情報量を計算し、その結果の精度を高めるというふたつの壁をクリアすることが必要になります。

従来の人工知能研究では、この情報削減のルールをひとつひとつ人間が教えていく、というアプローチをとっていて、そこに限界がありました。これにブレイクスルーを生んだのが、正解データを投入することで、独自に正しい特徴を学習させる機械学習の手法です。アルファ碁はこの手法をさらに一歩推し進め、人間の正解に頼らずに、AI同士の対戦を重ねることで学習する強化学習のアプローチを採用、さらなる成果を収めたのでした。

ディープラーニングに期待される今後の研究分野について

ディープラーニング技術を注視している理由をビジネスの視点から解説

ここからはディープラーニング技術が今後のビジネスにおいてどのようなメリットをもたらすのか、という視点で解説をします。

ディープラーニングが発展することのメリットは、次の3点です。

  • 人の手から機械での作業へ移行が可能になる
  • 人件費や工程を削減することでコストを下げることができる
  • ミスを減らすことができる

製造業においては1980年代頃からロボティクス技術の発達により、人間に代わってロボットアームが自動車等の製造ラインに導入されてきました。当然のことながら、労働力を機械に置き換えることで、人間の体力、精神力的な限界を突破することができます。

人はずっと集中して働き続けることはできません。もちろん機械でも、本質的には同じではありますが、繰り返し繰り返し作業をしていくという点では、人間を遥かに上回る生産性を発揮してくれます。

オフィスワークの世界でもいまRPAと呼ばれる技術が注目を集めています。こちらはAIとは違い、ある程度複雑な単純作業を、人間がロボットに教え込むことで繰り返させることをコンセプトにしています。

これまでに実現してきたいかなる機械化も、その繰り返し作業のもととなるものはひとつひとつ、人間の手作業によるものでした。製造業における金型のように、ひとつのもとを作ればその後の量産が単純な場合は、初期投資をしやすい。しかし、画像のひとつひとつにタグをつけていくとか、工場のモニタリングデータのなかで異常検知すべき特徴を教える、といったことは、現実的な話ではありませんでした。

そこで、ディープラーニングの強力なパターン認識能力が登場します。手作業を圧倒的に削減するための希望の灯火になっているのです。

これまで、学習データさえあれば実用化できるのに、その学習データを準備するのが到底不可能なアルゴリズムという問題を突破できずに終わってしまった研究テーマや実装アイデアはたくさんありました。ディープラーニングは、そのような壁を取り払ってくれるポテンシャルを秘めており、今後の人工知能開発にとって強力な力になっていくでしょう。

自然言語処理力の向上で音声入力の精度に貢献

ディープラーニングで注目される分野ひとつが自然言語処理能力です。人が操る言葉というものは、確実に一定のルールに基づいて運用されていながらも、どうしてもパターン化しきれない、原則と例外が入り乱れるものです。

言語学の研究に始まって、計算機科学の分野でも形態素解析等、さまざまなアプローチが試みられてきましたが、どうしても歯が立たない牙城のような存在でした。

ディープラーニングによって自然言語理処理能力が上がることはすでに実証され、実用化が進んでいます。人の言葉に応答してくれるSiri等のアプリケーションが身近にありますが、自然言語処理技術の向上に加えて、音響技術の向上による人の声からテキストへの変換精度の改善など、各要素技術の発達によって対話型のインターフェースが実用性を高めつつあります。

音声認識入力が発達すると、機械と人との間のインターフェイスが拡張されるというメリットを享受できます。

スマートフォンやPCにはかならずキーボードとディスプレイがついています。インターフェイスを操作することで機械への指示を送り込み、ロボットを動かしているのです。指令を送るために、タイピングや、ソフトの使い方や機能等、かなり広範囲のものを学ばなければなりません。

音響技術と自然言語処理技術が高度化すれば、機械が苦手な人でも、話すだけで電子機器の操作ができるという未来が期待できます。

言葉の裏の真意を読み解いたり、人工知能が自分から相手が望むプランを提供したりする、ということも実現できるかもしれません。そうした技術が確立されれば、顧客サポートや接客、秘書業務などができるようになるという期待もあります。

原則と例外をうまく認知して、その場の求めに応じて柔軟に対応するという能力は、人間が得意とし、機械が苦手とするものです。ならば、なぜ人間が柔軟な判断をできるのでしょうか。これを説明するのも難しいものです。

ディープラーニングにかけられている期待には、そうした暗黙知を機械に置き換えることで、再現性のある確かな技術基盤を確立したい、という動機が含まれています。

画像解析力の向上で病気を早期発見する技術の開発

画像解析力が高度になれば、人工知能は人間の判断をスピーディーにしてくれるでしょう。医療の分野では、病気の早期発見に役立つと考えられ、期待を集めています。例えばレントゲンの画像をもとに人工知能が病気を診断したり。

いまは長い期間をかけて専門的な知識を学び、現場での業務経験を摘んだ人の手によって医療的な診断がされていますが、人工知能の活躍範囲が広がれば、より多くの患者を短時間で診断できるようになるでしょう。

人工知能の精度を上げることで診断ミスを減らせば、多くの患者の早期発見につながりますし、医師の負担も減らせます。

診断できる病気としては、ガン、肝臓の疾患、心血管疾患、骨、脳、外傷、高血圧など多岐にわたるものがあるといわれています。

研究のプロセスを短縮し新商品の開発時間を短くする技術の開発

先端的な研究においても、ディープラーニングが活用されるでしょう。工学、薬学、理学、医学等、どの分野においても必ず研究においては「データから特徴を見出す」というプロセスが欠かせません。

研究機関においては、これまではエキスパートの「経験と勘」が重要な役割を果たしてきました。

人がやろうとすると長時間かかっていたものが短縮化する、といったことによっても研究開発のプロセスが短縮、改善されて、よりスピーディに物事が発展していくことにつながるのです。

これらの注目が集まっているように、自然言語、音声、画像、研究データなど、さまざまなデータに対してディープラーニングは力を発揮することができます。そしてそれらはすでに人間の活動をサポートしてくれ始めていますし、まだまだこれからもその領域が広がろうとしているのです。

ディープラーニングの発達で面倒なことはAI任せにできる?マトリックスの世界は来る?来ない?

計算機の計算能力の進歩や通信インフラの高性能化は、驚くべきスピードで進んでいます。ほんの30年前、羽生善治氏を除くほぼ全てのプロ棋士は、コンピューターに将棋で負ける日は来ないと予測していましたが、すでに覆されました。数年後には、最難関種目である囲碁業界を驚かせたアルファ碁が登場したのでした。

ディープラーニングへの期待やメリットを見ていると、やはり、「人間の仕事はAIに取られてしまうのではないだろうか」という不安も立ち上がってきますよね。

「2045年問題」という言葉があります。人工知能研究の世界的権威であるレイ・カーツワイル氏は、人工知能の性能が全人類の知性の総和を越える技術的特異点=シンギュラリティが、2045年に来ると予測しているというのです。

しかし本質を見誤ってはなりません。「絶対に未来はこうなる」とは言えないものです。2045年問題のベースとなっているムーアの法則のアナロジーのみで判断はできません。

いまのペースで進んでいけば、確かにマシンスペックは極めて高い水準に到達するでしょう。しかし本稿でまとめたような「ディープラーニングでできること」と「人間の知的行動」を冷静に比較してみると、いかがでしょうか?

画像をみてカテゴリ分けをするとか、自然言語が発話されたものを解釈する、というのはこれまで機械ができなかったことが機械でできるようになったからすごいのであって、それはそれで極めて偉大な知的営為ではありますが、だからといって、これ自体が人間の知性の解明ではありません

現在の人工知能研究における要素技術をすべてつなぎあわせたとしても、人間の知性と同じになることはないでしょう。「汎用AI」として語られるようなものを生み出すためには、理論的にも技術的にも、まったく異なるブレイクスルーが必要です。

大切なのは、冷静な目、曇りなき眼を持って、いまどんな人工知能技術が発展していて、そのうえで人はどんな仕事をしていくべきなのか?を考えることではないでしょうか。

まとめ

ディープラーニングの概要や応用方法について、イメージが湧いたでしょうか。はじめに、ディープラーニングとニューラルネットワークの関係性を解説しました。データにおける「パターンを見出すための数理モデル」としてニューラルネットワークは研究されており、学習を行うための層が多層になっているものがディープラーニングとよばれています。

ルール記述と帰納や演繹に基づく今までの人工知能開発とは画期的に違っていて、その代表的な例=FFNNを基本構造としながらも、CNN,RNN,LSTM等のコンポーネントによる機能向上、さらにはそれらの組み合わせによってデータ生成精度を高めるGANと呼ばれる手法についても紹介しました。画像認識、時系列データ、言語認識、データ生成等、目的に応じて適したアプローチがあることを見てきました。

次に、日本国内におけるディープラーニングの活用状況と海外の状況を比較しました。人材、予算、さまざまな面で遅れを取っていることが指摘されていて、これからの巻き返しが求められています。

さらに、具体的にディープラーニングが活用されている機能について紹介しました。十分なデータがあれば画像、音声が認識できるだけでなく、囲碁という高度な知的ゲームにおいても発展を見せています。

最後に、自然言語処理力や音声認識入力、画像解析力の発展がどのようなメリットをもたらすかについてもまとめました。

技術の発展は不可逆であり、また加速的なものであり、そのなかで現在の波が一体いかなる本質を有していて、それが自分や自分の周囲にいる人々にとってどのような意味を持つのか。そこを考えていくのが大事だ、といえるでしょう。

Cogent Labsは、手書き文字や活字をはじめとしたあらゆる文字をデータ化する『SmartRead』というサービスをご用意してます。文字の認識率99.22%の技術力から、データ入力業務の効率化とコスト削減できるソリューションです。

業務効率化ツールをお探しの企業様は、ぜひご覧になってみてください。

SmartReadについて知る