AIエージェントALF

New

資料

ディープラーニングとは

Tessa • Product Management

2025年7月14日

AI Tips

ディープラーニング(Deep Learning, DL)とは？

多くの方がAIと言えば漠然と「ディープラーニング」だと認識していると思います。それだけ現在のAI業界で「ディープラーニング」は重要という感覚を超えて当然の概念です。ディープラーニングも結局は、マシーンラーニングの方法論の一つだと考えてください。

ディープラーニングの定義

マシーンラーニングが"コンピューターが自らデータを学習するようにすること"であれば、これを実現するための方法もいくつかあるでしょう。その中の一つが人の脳を模倣した「ニューラルネットワーク(Neural network)」を構築する方法です。ディープラーニングは、このニューラルネットワーク、正確には"深い(＝層が複数ある)"ニューラルネットワーク(Deep Neural Networks, DNN)を使用するマシーンラーニング技法です。

実はディープラーニングもニューラルネットワークの一種ですが、ディープラーニングの創始者であるジェフリー・ヒントンがわざとディープラーニングという言葉を使った理由は、2006年当時まではニューラルネットワークが"時代遅れ"の概念として扱われていたためです。

ニューラルネットワーク自体は1958年にフランク・ローゼンブラットが提案した「パーセプトロン」まで遡る古い発想です。しかし、初期の人工ニューラルネットワークには限界が多すぎました。特に1969年にはマービン・ミンスキーとシーモア・ペパートが『パーセプトロン』という本でパーセプトロンの限界を指摘し、第一次AIの冬を呼び起こした主要な事件に挙げられたほどです。多くのAI学者が2000年初めまで「ローゼンブラット」「マシーンラーニング」「AI」という言葉を発することができなかったと考察できます。

ニューラルネットワークは勾配消失問題でほとんど没落に近い状況に至りました。ディープラーニングの父である"ジェフリー・ヒントン(Geoffrey Hinton)"教授と"ヤン・ルクン(Yann LeCun)"教授でさえ当時を振り返り、
ニューラルネットワークという用語を使用すると研究予算の承認が拒否されるなど、ニューラルネットワークは使用してはならない用語になったこともあったそうです。しかし、完全に没落すると思っていたニューラルネットワークは、勾配消失問題を解決できる様々な方法が登場し、2000年代に再び復活します。[1]

筆者が大学院生だった1997年〜2002年には人工知能研究をしていると言えば、怪訝な表情をする人が多かった。「なぜ人工知能は実現しないのですか？」と周りの研究者に聞いても苦笑いするだけだった。
なぜなら「人工知能」という言葉自体が、あるいは「人工知能が可能だ」と主張すること自体がある種の禁忌になっていたからだ。[2]

しかし、ジェフリー・ヒントンが2006年と2012年、既存のニューラルネットワークの限界を克服できる方法を明らかにしました。ヒントン教授はこの時、わざと「ディープラーニング」という用語を使いましたが、一種のリブランディングと見てとれます。インターネットの高度化により、ディープラーニングに使用するのに十分なレベルのビッグデータが生まれ、GPUに代表されるハードウェアの発達が後押しされ、ディープラーニングの時代が大きく開かれました。[3] [4]

（出典：Building High-level Features Using Large Scale Unsupervised Learning）

ディープラーニング以前まで大部分のマシーンラーニングは結局、人間が"特徴"を抽出して規則を作成しなければならないという限界がありました。例えば、人と猫を区分するAIを作るには、犬と猫を区分できる基準を明確に入力しなければなりません。人は犬と猫を一眼で見分けることができますが、そうできる理由を言葉でうまく説明することはできません。犬と猫を区分する"特徴"を知ってはいるが、これをコンピューターに教えることは難しいのです。

ディープラーニングの最も重要な点は、コンピューターが人の助けなしにデータから"特徴"を抽出できるという点です。上記の画像は、2012年にGoogleから出た研究結果を要約したものです。1,000台のコンピューターで1,000万個のYouTubeの画像をディープラーニングで分析し、人と猫を区分しました。[5]

以前はコンピュータープログラムに「犬と猫を区分する方法」と「犬と猫のデータ」を入れて「分類された結果」を得たとすれば、今はコンピューターに「犬と猫のデータ」、そして「分類された結果」だけを入れて「区分する方法」を直接捜し出すようにすることができるという意味です。今では、人が知らない方法でさえ、コンピューターが見つけることができるようになったのです。GoogleのDeepMindの開発者たちはイ・セドルより囲碁を上手に打つ方法を知りませんが、GoogleのDeepMind開発者たちが作ったAlphaGoはイ・セドルより囲碁を上手に打つ方法を知っているようにです。

ディープラーニングの原理は？

ディープラーニングの原理は、基本的にはニューラルネットワークの原理と同じです。ニューラルネットワークの限界の一部を補完したのがディープラーニングなためです。ニューラルネットワークは人の脳を模倣したモデルです。

（出典：Artifical Neural Networks and its Applications）

人の細胞を数学的にモデリングした「パーセプトロン」がまるでニューロンのように入力を受けて出力を出す構造です。パーセプトロンは、各入力ごとに「荷重値」、つまり強度を与えます。このパーセプトロンをいくそうにも積み重ねて連結したものを、ニューラルネットワークと言います。

ここでディープラーニングの原理を簡単に説明しましょう。（急に難しい言葉が出たからと慌てずに、難しければパス！）

一般的な形態のニューラルネットワークは、入力層(input layer)・隠れ層(hidden layer)・出力層(output layer)で形成されています。ここで、入力層から隠れ層を経て出力層に計算が進むことを「順伝播(Forward Propagation)」と言います。その結果として出た値を活用して、出力層から入力層まで戻りながら再び荷重値を修正することを「逆伝播(Backpropagation)」と言います。入力に対応する出力が出るように、その誤差が最小になるように順伝播と逆伝播を繰り返しながら、最適な荷重値を探す過程がまさにニューラルネットワークの"学習"です。

ディープラーニングを発見した人物はジェフリー・ヒントンです。ジェフリー・ヒントンは2006年、深層信念ネットワーク(Deep Belief Network, DNN)に関する論文を発表しました。これまでニューラルネットワーク分野では、ニューラルネットワークを何層も積み重ねると学習がうまくいかないという問題がありました。ジェフリー・ヒントンの2006年の論文は、ニューラルネットワークの層が深くなっても学習がうまくいく方法を見つけ出し、ディープラーニング時代に信号弾を打ち上げたのです。[3]

2012年にはILSVRCに出場し、他のチームより圧倒的な性能を見せて話題を呼びました。このとき、ニューラルネットワークが学習されたデータだけをうまく処理し、新しいデータをうまく処理できなかった問題をデータに故意に脱落(Dropout)させる方式で解決したりもしました。[4] まさにディープラーニングの父と呼ばれるに値する人物です。

ディープラーニングに使われるニューラルネットワークにもさまざまな種類があります。画像認識に主に使われた畳み込みニューラルネットワーク(Convolution Nerural Network, CNN)、音声認識や自然言語処理に主に使われたリカレントニューラルネットワーク(Recurrent Neural Network, RNN)が代表的です。CNNとRNNは数年前まで人気のあるディープラーニングモデルでしたが、現在は「アテンション(attention)」概念を適用したトランスフォーマー(Transformer)がその座を代替しています。

ディープラーニングのアルゴリズムの種類

畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)

畳み込み層は画像を認識する代表的なディープラーニングアルゴリズムです。大きく分けて、画像から"特徴"を抽出する部分と分類する部分で構成されています。

特徴を抽出する部分は、畳み込み層(Convolution Layer)とプーリング層(Pooling Layer)で構成されます。畳み込み層は、画像にさまざまなフィルターを適用して特徴を抽出します。プーリング層は、抽出された特徴を圧縮して特徴を減らし、一般化する役割を果たします。

畳み込みとプーリングの作業を経ると、画像から核心的な特徴を抽出して類似性をよく判断できるようになります。このようにフィルターを適用して抽出された「特徴マップ(Feature Map)」を入力として、「畳み込み演算」を通じて結果を出力するのが最後の段階、全結合層(Fully Connected Layer)です。最適な隠れ層の深さと適切な活性関数を見つけることが性能に決定的な影響を及ぼします。[1]

CNNの概念を最初に提示したのはヤン・ルクンで、彼は1990年代前後にCNNに関していくつかの論文を発表しました。ただ、この概念が有名になったのは、2012年にジェフリー・ヒントンがILSVRCでCNNを活用した「AlexNet」で優勝したおかげです。[6]

リカレントニューラルネットワーク(Recurrent Neural Network, RNN)

音声やテキスト、自然言語のように順序と前後の関連性があるデータを処理するために使われる代表的なディープラーニング技術が、リカレンとニューラルネットワーク(RNN)です。リカレントニューラルネットワークは、前の段階の出力を再び入力として使用する構造を持っています。文章翻訳、テキスト生成、音声認識など「順次データ」を扱う作業に主に使われます。

リカレントニューラルネットワークでデータが処理されるプロセスは次のとおりです。まず、入力層では、シーケンスデータの各要素が入力されます。隠れ層では、前のステップの出力を再入力として受け取り、現在の入力と組み合わせて新しい出力を生成します。出力層は最終出力を生成して結果を導出します。

RNNは時間に応じて順次データを処理し、過去の情報を維持してシーケンスデータの文脈を理解することができます。しかし、RNNは構造上「長期記憶」が脆弱な問題がありました。これを改善するために「LSTM(Long Short-Term Memory)」のような改善された構造が提案されたりもしました。LSTMのより簡単なバージョンとして、GRU(Gated Recurrent Unit)があります。

トランスフォーマー(Transformer)モデルとは？

トランスフォーマーモデルは、2017年のGoogleの論文で初めて提唱されました。[7] トランスフォーマー以前はRNNとアテンション(attention)を利用して言語モデルを作りましたが、RNNはデータを順次処理するため、速度が遅いという短所がありました。ちなみに、アテンションは2014年の機械翻訳の性能向上のための論文で提唱された概念です。簡単に説明すると、アルゴリズムがデータから「重要な部分」を判断して、より多くの荷重値を与えるようにする方法です。[8]

トランスフォーマーモデルはRNNではなく、アテンションだけで言語モデル(Language Model, LM)を作る方法として提唱されました。トランスフォーマーモデルは、言語処理を並列化します。与えられたテキスト本文の全てのトークンが「順番に」ではなく「同時に」学習されるという意味です。はるかに大きなデータを使えるようになるのです。[9]

トランスフォーマーモデル活用したAIの代表的な事例は、OpenAIの「GPT」シリーズです。2018年に初めて公開されたGPTは大きな注目を集めることができませんでしたが、GPT-2、GPT-3以前よりはるかに多くのパラメータと学習データを活用しながら恐ろしい性能を見せました。そして2022年11月、全世界を相手にベータサービスを開始した「ChatGPT」は人々に衝撃を与えました。ChatGPTの回答は、以前のチャットボットとは比較にならないほど自然で有用だったからです。その後、トランスフォーマーモデルを活用した高性能のAIサービスが続々と登場しています。この2〜3年間、AI業界を支配しているモデルと言っても過言ではありません。

LLM(Large Language Model)とは？

まずは単語の意味から解釈を始めましょう。LLMは「大規模言語モデル(Large Language Model)」の略称です。

それでは言語モデル(Language Model)とは何でしょうか？言語モデルはAIが人の言葉、「自然語」を理解するようにする方法の一つです。単語がいくつか与えられたとき、文章を完成させるためには前後にどんな単語がくるべきか、確率的に予約するモデルです。GoogleやYahoo!などの検索エンジンに検索語を入力すると、リアルタイムで次の単語を予測しておすすめの検索語として表示されるのを思い浮かべると理解しやすいでしょう。もちろん、検索エンジンはディープラーニングベースの言語モデルの他にも様々な技術が集約された複合システムですので、参考までに。

トランスフォーマーの登場以前にも言語モデルを作るのに使っていたニューラルネットワークモデルが存在しましたが、従来の方式(RNN、LSTMなど)は速度が遅いという短所がありました。しかし、トランスフォーマーモデルはデータを並列的に処理することができ、一度に多くのデータを処理することができ、ついに真のLLMを実現できるようになりました。

トランスフォーマーモデルとLLMの可能性が本格的に注目されたのは、OpenAIが2022年11月にLLMを活用した対話型AIアプリケーション「ChatGPT」を発売してからです。ChatGPTは人のどんな質問にも自然に答えることはもちろん、各種専門家試験まで通過する底力を見せつけました。ChatGPTの性能を直接確認した大衆は、いつも間にかぐんと発展したAIの水準に驚きました。

その後、LLMという新しい技術の活用に対する関心が高まり、新しい研究とサービスが続々と登場しています。このブログを書いている瞬間にも、新しいニュースが登場しているほどです。次はChatGPT以降に発表された主なLLM関連サービスをご紹介します。

発表日	サービス名	会社	パラメーター(個)
2022.11	ChatGPT	OpenAI	1750億
2023.2	LLaaMA-1	Meta	70億〜650億
2023.3	GPT-4	OpenAI	非公開
2023.5	PaLM2	Google	3400億
2023.7	LLaMA-2	Meta	70億〜700億
2023.7	Claude-2	Anthropic	非公開
2023.9	HyperCLOVA X	NAVER	非公開
2023.11	GPT-4 Turbo	OpenAI	非公開
2023.11	Phi-1.5	MS	13億
2023.12	Gemini 1.0	Google	32億5000万(Nano)、Pro、Ultra非公開
2024.2	Gemini 1.5	Google	非公開
2024.3	Claude 3	Anthropic	520億
2024.3	Grok	xAI	330億
2024.4	LLaMA-3	Meta	80億〜700億
2024.5	GPT-4o	OpenAI	未公開

原文：Tena（Content Marketer in Korea）

翻訳：Tessa（CX/Product in Japan）

[1] 한규동, “AI 상식사전”, 길벗, 2022, p. 270.

[2] 마쓰오 유타카, "인공지능과 딥러닝: 인공지능이 불러올 산업 구조의 변화와 혁신", 동아엠앤비, 2015, p. 8.

[3] G. E. Hinton, S. Osindero, and Y.-W. Teh, "A fast learning algorithm for deep belief nets", Neural Computation, vol. 18, no. 7, pp. 1527-1554, Jul. 2006.

[4] A. Krizhevsky, I. Sutskever, and G. E. Hinton, "ImageNet classification with deep convolutional neural networks", in Advances in Neural Information Processing Systems 25 (NIPS 2012), 2012.

[5] Q. V. Le et al, Building High-level Features Using Large Scale Unsupervised Learning, in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2013, pp. 7630-7634.

[6] Y. Lecun, "Generalization and network design strategies", in Connectionism in Perspective, R. Pfeifer, Z. Schreter, F. Fogelman, and L. Steels, Eds. Zurich, Switzerland: Elsevier, 1989.

[7] A. Vaswani et al., "Attention Is All You Need", arXiv, 1706.03762, Jun. 2017.

[8] D. Bahdanau, K. Cho, and Y. Bengio, "Neural Machine Translation by Jointly Learning to Align and Translate", arXiv, 1409.0473, Sep. 2014.

[9] R. Toews, "The Next Generation Of Artificial Intelligence", Forbes, Oct. 12, 2020.