機械学習 (ML) とは何か、ML を理解する

機械学習 (ML) アルゴリズムは、近年の非常に重要なイノベーションのいくつかを支えています。機械学習について、その概要や仕組み、仕事の未来にとって重要な理由をご紹介します。

オフィスでコンピュータを操作する 2 人の社員

このブログでは、以下についてご紹介します。機械学習の理解促進にお役立てください。

1800 年代初頭に機械化が始まって以来、人類は生活の質を向上させるために、よりスマートな機械の開発を続けてきました。近代の各時代は、蒸気機関から自動運転車まで、その時代に登場したテクノロジーの進歩によって表すことができます。これは、機械学習 (ML) も例外ではありません。ただし、機械学習は日常生活のさまざまな場面でそのメリットを活用できる点において、他のテクノロジーとは一線を画します。実際、機械学習アルゴリズムは、過去 5 年間の技術革新の大部分を支えてきました。

認識しているかどうかに関わらず、おそらくもう日常的に機械学習のメリットを享受していることでしょう。サイエンス フィクションの域を超えて、機械学習がすでに大きな変化をもたらしている 4 つの分野をご紹介します。

  • Spotify、Netflix、Google などの各プラットフォームで、高度にカスタマイズされたユーザー レコメンデーションの生成
  • 顔認識やビジュアル検索で使用する画像の人物やオブジェクトの識別
  • Alexa や Siri などの仮想パーソナル アシスタントの基盤となる音声認識やデータ処理の強化
  • 過去の動作パターンに基づく不正な金融取引の予測

1959 年には早くも、人工知能 (AI) の先駆者である Arthur Samuel 氏が機械学習を「人がプログラムを作成しなくても、学習して動作するコンピュータを生み出すための研究分野」と定義しています。それから 70 年ほどが経った今、その定義は多種多様なアルゴリズムやモデルを含むまでに拡大しています。それでは、ここからは、機械学習の概要、他の形式の人工知能との違い、機械学習がビジネスにとって重要な理由をご説明します。

機械学習 (ML) とは何か

機械学習は、人間と同様に学習するコンピュータの開発に重点を置いた人工知能のサブフィールドです。機械学習では、人間の知性を模倣しようとするアルゴリズムを使用し、繰り返し学習することで AI の出力を改善します。人がプログラムを作成しなくても、問題を解決し、予測を生成できるこの能力が、機械学習の高い適応性を生み出しています。

コンピュータは機械学習を活用することで、一定の範囲で自立的に学習できるようになりますが、それでも人間によるコンピュータへのデータ入力はまだ必要です。データ サイエンティストは、トレーニング データを機械学習アルゴリズムに入力して、機械学習モデルを作成します。トレーニングが完了したら、そのモデルにライブ データを追加することで、新しい予測を生成できるようになります。最後に、これらの予測の結果を新たなトレーニング データとして活用し、モデルの精度を「フライホイール効果」で高めれば、進化を加速させることができます。

機械学習 (ML) は、人間と同様に学習するコンピュータの開発に重点を置いた人工知能 (AI) のサブフィールドです。

機械学習と人工知能の違い

人工知能とは、機械で人間の知性をシミュレートするためのあらゆるテクノロジーを指します。AI と機械学習は同じような目的を持ち、密接に関連しています。ただし、AI には、検索アルゴリズム、ルールベースのシステム、遺伝的アルゴリズムなど、ML 自体には備わっていない多くの方法が包含されます。それだけでなく、AI はさまざまな文化的背景を学習するため、理論的な観点で将来の AI の発展と方向性に関して重要な議論や討論が現在も行われています。

AI が広範な概念を指すのであれば、ML は AI の特定の応用分野の 1 つにすぎません。AI の手法にはそれぞれ、機械が複雑なタスクを効果的に完了できるようにする、という 1 つの幅広い目的があります。AI のサブフィールドである機械学習では、大量のデータを分析することでこの目的を達成します。ただし ML モデルは、モデルごとに 1 つの特定のタスクを処理することに特化しているため、その用途は限られます。

機械学習とディープ ラーニングの違い

ディープ ラーニングは、ニューラル ネットワークを使用して人間の脳の構造をより忠実に模倣する機械学習の一種です。ディープ ラーニングでは人間が介入する必要性を減らすために、機械学習よりもはるかに多くのデータとコンピューティング能力が必要になります。ディープ ラーニング モデルは、ニューラル ネットワークでいくつものレイヤーを使って処理することで、大量の非構造化データセットを分析し、学習することができます。人工知能が包括的な用語であるように、機械学習というカテゴリにはディープ ラーニングが含まれます。

ディープ ラーニングを理解する鍵は、人工ニューラル ネットワーク (ANN) やシミュレーテッド ニューラル ネットワーク (SNN) とも呼ばれるニューラル ネットワークにあります。ニューラル ネットワークは、レイヤー構造で接続された数千から数百万単位のシンプルな処理ノードで構成されます。そのため、入力データと出力データ間の複雑な非線形関係をモデル化し、データをより効率的に分類できます。これは、コンピュータ ビジョン (人間と同じように機械が視覚イメージを解読するプロセス) で特に有効です。

ディープ ラーニングは、ニューラル ネットワークを使用して人間の脳の構造をより忠実に模倣する機械学習の一種です。

機械学習の仕組み

機械学習モデルはさまざまな形式をとることができますが (詳細は後述)、基本的な原則は比較的一貫しています。カリフォルニア大学バークレー校によると、ML アルゴリズムは通常、次の 3 つのコンポーネントで構成されます。

  1. パターンの認識と予測: ML モデルは、データを分類したり結果を予測したりするのによく使用されます。したがって、新しい意思決定プロセスを始めるたびに、初期推定を行います。アルゴリズムを使って、投入された入力データを学習し、認識すべきパターンの種類を「推測」します。
  2. 誤差計算: 次に、アルゴリズムで推定値と既存のサンプル (提供されている場合) を比較する必要があります。最初の予測がどの程度正確であったかを定量化することで、誤差の程度を評価できます。
  3. 最適化: 最後に、アルゴリズムでは推定値を算出するために使用した意思決定プロセスを分析し、将来的に繰り返し使えるよう調整します。各パラメータに割り当てられた「重み」を変更することで、入力されたサンプルと算出した推定値との間に生まれた誤差を低減させることができます。反復、評価、最適化のこの継続的なプロセスにより、最終モデルはより正確な推定値を生成します。

例えば、画像認識システムをトレーニングするのに、データ サイエンティストが犬と猫のラベルを付けた写真のデータセットをアルゴリズムに入力するとします。入力データを受け取ったアルゴリズムは、猫と犬の違いを識別し始めます。犬や猫を識別するためのさまざまなパラメータには、大きさや輪郭、被毛の種類の違い、顔の各部位を表す特徴などが挙げられます。

次に、アルゴリズムは、学習した有用性と関連性に応じて、これらの各パラメータに重みを割り当てます。アルゴリズムが猫を正しく識別した場合、重みは調整されませんが、誤っていた場合は、その結論を導き出す際に使用したパラメータの重みを減らします。このようにして、モデルは新たな間違いを犯す可能性を徐々に減らしていきます。

ML モデルは、データを分類したり結果を予測したりするのによく使用されます。

機械学習の 4 つの種類

機械学習モデルは通常、各アルゴリズムの学習方法に基づいていくつかの種類に分けることができます。なかでも一般的な 4 つの種類として、教師あり学習、教師なし学習、半教師あり学習、強化学習が挙げられます。ただし、このカテゴリは広範囲にわたるため、多くの機械学習モデルではそれぞれの特徴を組み合わせて使うことになります。例えば、ディープ ラーニング モデルは、これら 4 つのカテゴリのいずれにも分類できます。

あるタスクで使うべき機械学習の種類は、データ サイエンティストが取り組んでいる特定の目標やデータセットに大きく左右されます。実際、アルゴリズムは、データサイエンス チーム (またはそのユーザー) が直面している特定の課題に基づいて適用されることがよくあります。ニーズに最適な機械学習モデルを評価する最良の方法は、各アルゴリズムの仕組みを理解することです。

教師あり学習の仕組み

教師あり機械学習 (教師あり学習とも呼ばれる) は、ラベル付きトレーニング データを使用して学習します。データ サイエンティストは、データに 1 つ以上のタグを割り当ててラベル付けし、アルゴリズムに明確なカテゴリや数値などの有用なコンテキストを与えます。例えば、一連の電子メールに「迷惑メール」や「迷惑メールではない」というラベルを付けると、ML アルゴリズムに判断材料となる構造化データを渡して学習させることができます。

アルゴリズムで、入力 (データ) と出力 (ラベル) を分析し、入力と出力それぞれの関係性を学習します。このトレーニングが完了し、重みが適切に調整されると、モデルは新しいデータの出力を予測できるようになります。比較的シンプルな仕組みのため、教師あり学習が現在最も一般的な機械学習の形式です。教師あり学習に関する手法の例には以下のものがあります。

  • 線形回帰: 独立変数 (入力。例: 広告費) と従属変数 (出力。例: 総収益) の間に線形関係を構築し、将来の結果を予測します。線形回帰を使用すると、変数間の関係の強さや、独立変数の特定の値における従属変数の値を推定できます。例えば、給与が社員の満足度にどのように影響するかなどです。
  • ロジスティック回帰: 1 つ以上の独立変数に基づいて 2 値の結果の確率を予測します。結果は常に、はい/いいえ、1/0、真/偽などの 2 値になります。ロジスティック回帰は主に、社員の離職リスクの特定といった予測や分類タスクで使用されます。
  • 決定木: 木のような構造を形成し、枝分かれして関連付けられた決定を使用して、将来の結果と予測をモデル化します。このような分岐決定シーケンスを使って複雑なデータセットを分類すれば、データをグループ化して可視化することができます。決定木は、予算の作成や新しいソリューションの購入による影響の評価など、戦略を立てるときに役立ちます。

教師なし学習の仕組み

教師なし機械学習 (教師なし学習とも呼ばれる) は、ラベルのないデータセットを使用して学習します。教師なし ML アルゴリズムはデータセットの傾向を分析し、その過程でデータ ポイントをさまざまなグループにクラスタリングします。こうしたアルゴリズムを活用すると、手作業を減らしながら、データ内の隠れたパターンを効率的に洗い出すことができます。

教師なし学習は主にデータをクラスタリングするタスクで使用されますが、有効活用できる分野は他にも数多くあります。教師なし学習アルゴリズムの一般的な用途は以下のとおりです。

  • K 平均法クラスタリング: データ ポイントを類似性に基づいてグループ化し、基本的なパターンを検出します。このアルゴリズムでは、データサイエンティストが設定した固定のターゲット クラスタの数 (K) に合わせてデータを分類します。K 平均法クラスタリングは、そのシンプルさと有効性により、非常に人気の高いクラスタリング アルゴリズムの 1 つです。ソーシャル メディア プラットフォームで使用されるようなレコメンデーション エンジンでは多くの場合、K 平均法クラスタリングを使用して、ユーザーの過去の動作に基づいてコンテンツを提案します。
  • アソシエーション ルール: データ項目間の補完的な出現頻度をカウントして、その関係性の強さを割り出します。ランダム サンプルよりもはるかに高い割合で発生する相関性を見つけることで、企業はそれに応じて戦略を立てることができます。例えば、ある商品とよく一緒に購入される商品など、お客様の購入傾向を把握するのに特に有効です。
  • 次元削減: 重要な特徴量を保持しながら、冗長な特徴量やノイズの多いデータを削除してデータセットを簡素化します。生データが少ない大規模なデータセットを扱う場合、変数の数を減らすと分析がかなり簡単になります。例えば、自然言語処理テクノロジーでは、音声認識に役立つ音声の特徴量のみを効果的に抽出できます。

半教師あり学習の仕組み

半教師あり機械学習 (または半教師あり学習) は、その名前が示すように、教師あり学習と教師なし学習のギャップを解消する学習法です。半教師あり学習モデルでは、トレーニング プロセスでラベル付きデータとラベルなしデータの両方を使用します。少量のラベル付きデータをアルゴリズムに投入することで、その学習内容をラベルなしデータセット全体に適用できます。データのラベル付けは手間とコストのかかるプロセスになりがちであるため、半教師あり学習は効率的なソリューションとしてよく使われます。

半教師あり学習は前述の 2 つの学習法の優れた側面を活かしたバランスの取れた手法であり、同じような用途で活用できます。半教師あり学習が効果を発揮する 3 つのケースを以下に示します。

  • 不正行為の検出: 不正行為が確認されたサンプル データを財務部門でごくわずかしか保持していない場合、半教師あり学習システムを使うことでデータセットが小さくても効率的に学習できます。不正行為は変則的で検出が難しいものですが、半教師あり学習を活用することで会計担当者が数多くの取引を分類する必要がなくなります。
  • コンテンツ分類: 大量のコンテンツを読み、アノテーションを付ける作業を手で行うと非常に長い時間がかかります。しかし、半教師あり学習を使えば、手作業でラベル付けされた少数のサンプルを集めるだけで済みます。コンテンツの分類は、検索エンジン用の Web ページの分類から、メール クライアント用の受信メールの分類まで、あらゆるものに適用できます。
  • 音声認識: 主なタスクとして、アクセントや声のトーンの違いなど、人間が発する幅広く多様な音声を認識します。半教師あり学習ではまず、人間がアノテーションした小規模な音声用トレーニング セットを学習してから、自己学習を行います。Meta による自己トレーニング試験では、単語の認識誤りが 33.9% 減少しました。

強化学習の仕組み

強化機械学習 (強化学習とも呼ばれる) は、試行錯誤を繰り返してタスクを学習する手法です。他の方法とは異なり、強化学習アルゴリズムでは、特定の目標および従うべき明確なルールを指定します。この他に、ポイントベースで目標を設定する方法もあります。具体的には、肯定的な結果ではポイントを加算し、否定的な結果ではポイントを減算します。このフィードバック ループにより、学習するほどに結果を改善させることができます。

強化機械学習アルゴリズムは、ゲーム、ロボット工学、プロジェクト管理など、次から次へ判断が求められるシナリオで高い効果を発揮します。強化機械学習は、最も効率的な経路を見つけて報酬を最大化するという特性を持つため、意思決定をサポートする強力なツールとして活用できます。

Workday の調査によると、意思決定者の 80% が、ビジネスの競争力を維持するために AI が必要であると考えています。

企業による機械学習の活用方法

デジタル化された仕事では、データは企業にとって最も価値のある資産となっています。企業は、機械学習で過去のデータを活用することで、将来に向けた効果的な戦略を練る機会を得られます。拡張ワークフォースが広まるにつれ、手動プロセスに固執し続け、データを十分に活用できない企業は後れをとることになるでしょう。

Workday の調査によると、意思決定者の 80% が、ビジネスの競争力を維持するために AI が必要であると考えています。それにもかかわらず、76% の回答者が、AI と ML の活用方法に関する知識が不十分であると述べています。ビジネスリーダーが成功を収めるには、機械学習がビジネスに最大の価値をもたらすことができる領域を把握する必要があります。

Workday のお客様が当社の組み込みの機械学習をどのように活用しているか、いくつか事例をご紹介します。

  • 最適な応募者の採用: 大量の応募を手作業で評価するのは大変な作業です。機械学習を利用すると、採用担当者は人財募集の内容と有望な応募者を迅速に照合し、そのマッチ率に基づいて応募者をグループ分けすることができます。大手多国籍自動車メーカーは、HiredScore AI for Recruiting を使用することで、応募者のスクリーニング効率が 70% 向上しました。* 
  • スキルの特定と追跡: ワークフォースが持つ幅広く多彩なスキルを完全に把握するのは、簡単なことではありません。機械学習を活用すれば、基本的なスキル カタログに頼ることなく、スキルをさまざまな視点で全体的に把握できます。スキル ギャップに関するインサイトを明らかにする場合でも、業界、地域、熟練度に基づいてスキルをグループ分けする場合でも、スキルベースの人財戦略を策定する上で機械学習は欠かせません。
  • 社内人財の流動性の強化: 人財が成長し、スキルアップできる機会が常日頃からなければ、離職するリスクが高まります。機械学習を使うと、社員のスキル、役割、在職期間に基づいて、推奨される学習内容や募集中の職務に関する情報を各社員に合わせて提示できます。大手グローバル不動産会社では、Workday の ML が生成した役割に関する推奨事項を活用することで、社内人財の流動性が 10% 高まりました。 
  • マネージャのプロセス効率の向上: リーダーは、多くの貴重な時間を手作業に費やしています。ML を使用すると、スケジュール作成を効率化し、社員フィードバックからインサイトを明らかにし、かなりの時間を費やしている問題に対処することが可能になります。実際、企業ベンチャー組織では、人事部門プロセスにおけるマネージャ向けセルフサービスの割合を 50% にまで高めることができ、監督と説明責任を大幅に強化することができました。 
  • 財務業務でのインテリジェント オートメーション: 財務部門の多くの領域で自動化が進んでいますが、手作業で行われているプロセスも依然として数多く残っています。機械学習で実現するインテリジェント オートメーションには、サプライヤの請求書のスキャン、経費の領収書のスキャン、顧客支払の照合などがあります。
  • データの異常の検出: ビジネスで成功を収めるには、質の高い財務データが欠かせません。機械学習を使用すると、財務サイクルの早い段階で総勘定元帳の異常を検出して、フォーキャストの精度を向上させることができます。こうすることで、財務担当者はより戦略的で価値のある業務に集中できるようになります。

Workday の調査によると、CEO の 98% が AI と ML を導入することでビジネス上のメリットを何かしらの形ですぐに得られると考えています。

Workday で次のステップへ

Workday が世界中の経営幹部を対象に実施した AI に関する調査によると、CEO の 98% が AI と ML を導入することでビジネス上のメリットを何かしらの形ですぐに得られると考えています。しかし、AI や ML を導入してその活用が進んでいると回答した企業はわずか 1% でした。したがって、組織全体で AI を全面的に活用できれば、企業は将来的に競争力を大いに高めることができるでしょう。

ビジネスリーダーが直面する大きな障壁の 1 つは信頼です。Workday は、透明性、説明可能性、プライバシー、安全性を備えた責任ある AI に信頼を置いています。そして、責任ある AI を基盤に開発された AI テクノロジーをお客様にお届けしています。また、既存および策定中の規制やベストプラクティス フレームワークへの順守を文書化するとともに、ソリューションの開発、評価、保守の方法を説明したファクト シートを開示しています。

この他にも、Workday AI を当社のプラットフォームのコアに組み込むことで、有意義なビジネスの価値をもたらす新しい AI 機能を迅速に提供できるよう努めています。Workday AI は、業界でも最大規模を誇る非常にクリーンな財務および人事データセットに基づいてトレーニングされているため、常に現実に即した結果を予測します。同じバージョンの Workday を 6,500 万人を超えるユーザーが活用しており、機械学習を常に進化させるために必要な信頼できるデータを保有しているのは、当社のお客様だけです。

Workday による AI と ML の導入サポートについて詳しくは、Workday のテクノロジー ページをご覧ください。

*HiredScore は Workday 傘下の会社です。

Workday が信頼を何よりも大切にしながら、どのように組織の人財と資金の管理方法を変革し、大手グローバル ブランドを AI に対応する未来へと力強く導いているかをご覧ください。

さらに読む