参考文献
[1] David Duvenaud, Dougal Maclaurin, Jorge Aguilera-Iparraguirre, Rafael Gómez-Bombarelli, Timothy Hirzel, Alán Aspuru-Guzik, and Ryan P. Adams. Convolutional Networks on Graphs for Learning Molecular Fingerprints. https://papers.nips.cc/paper/5954-convolutional-networks-on-graphs-for-learning-molecular-fingerprints.pdf (2019/10/30 参照).
[2] Glen, Robert & Bender, Andreas & Hasselgren, Catrin & Carlsson, L & Boyer, S & Smith, James. (2006). Circular fingerprints: Flexible molecular descriptors with applications from physical chemistry to ADME (vol 9, pg 199, 2006). IDrugs: the investigational drugs journal. 9. 311-311.
[3] Katsuhiko Ishiguro, Shin-ichi Maeda, and Masanori Koyama. Graph Warp Module: an Auxiliary Module for Boosting the Power of Graph Neural Network in Molecular Graph Analysis. https://arxiv.org/pdf/1902.01020.pdf (2019/10/30 参照).
[4] L. Ruddigkeit, R. van Deursen, L. C. Blum, J.-L. Reymond, Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17, J. Chem. Inf. Model. 52, 2864–2875, 2012.
[5] R. Ramakrishnan, P. O. Dral, M. Rupp, O. A. von Lilienfeld, Quantum chemistry structures and properties of 134 kilo molecules, Scientific Data 1, 140022, 2014.
[6] Kingma, Diederik & Ba, Jimmy. (2014). Adam: A Method for Stochastic Optimization. International Conference on Learning Representations.
[7] Preferred Networks. Optuna: A hyperparameter optimization framework. github.com/pfnet/optuna, 2018.
[8] Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. How Powerful are Graph Neural Networks? https://arxiv.org/pdf/1810.00826.pdf (2019/11/27参照).
次に学習条件の詳細について述べます。 訓練時にはAugmentationを行いました。利用したAugmentation手法は、色・明るさの変更、左右反転、ランダムクロップです。 OptimizerとしてはAdam(α=1e-4, beta1=0.9, beta2=0.999)を用いました。 論文では、HeatmapとOffsetのLossは1倍、Embeddingは0.4倍して足し合わせていると書かれていますが、さまざまに条件を変えて実験した結果、以下のようにLossを変更しています。 まずHeatmapについて、独自データセットは頂点の密度がMSCOCOより小さいことを考慮し、頂点のない部分のLoss(式2、下式)を1/50倍しています。 またEmbedding loss が軽視される傾向があったため、係数を0.4倍ではなく1倍に変更しました。
最後に評価時の条件についてです。まずHeatmapから値が0.4以上の点の座標をとってくることで頂点の候補を列挙します。次に、それぞれの頂点候補に対して、最もEmbedding間距離の小さいものをペアとし、BBoxを生成します。ここで重複するBBoxが多数生成されるため、NMS(Non Maximum Suppression)を施して取り除きます。これは、2つのBBoxのIoUを計算し、これが閾値以上だった場合に、予測確率(そこに物体があるという確信度。今回は2頂点のHeatmapの平均値を用いた)の大きいもののみを残すという手法です。NMSの閾値は0.4に設定しました。
Mildenhall, B., Srinivasan, P.P., Tancik, M., Barron, J.T., Ramamoorthi, R., Ng, R., 2020. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. arXiv:2003.08934 [cs]. プロジェクトページ: http://www.matthewtancik.com/nerf
Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., Dean, J., 2013. Distributed Representations of Words and Phrases and their Compositionality, in: Burges, C.J.C., Bottou, L., Welling, M., Ghahramani, Z., Weinberger, K.Q. (Eds.), Advances in Neural Information Processing Systems 26. Curran Associates, Inc., pp. 3111–3119.
Eslami, S.M.A., Rezende, D.J., Besse, F., Viola, F., Morcos, A.S., Garnelo, M., Ruderman, A., Rusu, A.A., Danihelka, I., Gregor, K., Reichert, D.P., Buesing, L., Weber, T., Vinyals, O., Rosenbaum, D., Rabinowitz, N., King, H., Hillier, C., Botvinick, M., Wierstra, D., Kavukcuoglu, K., Hassabis, D., 2018. Neural scene representation and rendering. Science 360, 1204–1210. https://doi.org/10.1126/science.aar6170
Park, J.J., Florence, P., Straub, J., Newcombe, R., Lovegrove, S., 2019a. DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation. Presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 165–174.
Chen, Z., Zhang, H., 2019a. Learning Implicit Fields for Generative Shape Modeling. Presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5939–5948.
Sitzmann, V., Thies, J., Heide, F., Niessner, M., Wetzstein, G., Zollhofer, M., 2019. DeepVoxels: Learning Persistent 3D Feature Embeddings. Presented at the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2437–2446. Sitzmann, V., Thies, J., Heide, F., Nießner, M., Wetzstein, G., Zollhöfer, M., 2018. DeepVoxels: Learning Persistent 3D Feature Embeddings. arXiv:1812.01024 [cs]. データセットは https://vsitzmann.github.io/deepvoxels/ にてダウンロードできます。
「動き」をコンピューターに理解させる上で、もっとも単純なタスクが「行動認識」と呼ばれるタスクです。行動認識では動画を入力として、その行動ラベルを予測します。すなわち、画像分類の動画版と言えます。画像認識では2D Convolutionがよく用いられていますが、動画認識では3D Convolutionを用いることが多いです。時間 L よりも小さいカーネルサイズ d を設定する事で、時間方向に局所的な特徴を獲得できます。
動画キャプション生成タスクの中でも、一つの動画に対して一つのキャプションしか生成しない(Vanillaな)Video Captioningと、複数のイベントに対するキャプションを生成するDense Video Captioningという2つのタスクに分かれています。複数のキャプションを生成する理由としては、(長めの)動画には通常複数のイベントがあることが想定され、単一のキャプション生成だけではイベントの全てを捉えられないことが挙げられます。YouTubeにあるような動画は比較的長め(数分)の物が多いので、より現実的な動画をモデリングすることになります。
この Dense Video Captioning タスクでは、複数のキャプションとそれに対応するセグメントの出力が求められます。このセグメントというのは、そのキャプションがどこからどこまでのフレームに対応するかを示し、動画フレームの始点と終点で表現できます。これをわかりやすく示したのが下の図です。Dense Video Captioningでは一つの動画に対して複数のキャプションがアノテーションされており、それぞれにフレームの区間(赤線)が振られています。
ここで g はMLPで、\sigma はシグモイド関数です。また、iはフレームのインデックスで、dはEmbeddingの次元数です。\rhoはPositional Encodingとなっており、予測されたセグメントとアンカーのセグメントをエンコーディングします。このような連続的なマスクは先ほど示した離散的なマスクと比較すると正確性に乏しいですが、以下のように離散的なマスクと連続的なマスクを組み合わせることで微分可能かつ正確なマスクを作成することができます。
Zhou, L., Zhou, Y., Corso, J. J., Socher, R., & Xiong, C. (2018). End-to-end dense video captioning with masked transformer. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 8739-8748).
Tran, D., Bourdev, L., Fergus, R., Torresani, L., & Paluri, M. (2015). Learning spatiotemporal features with 3d convolutional networks. In Proceedings of the IEEE international conference on computer vision (pp. 4489-4497).
Carreira, J., & Zisserman, A. (2017). Quo vadis, action recognition? a new model and the kinetics dataset. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 6299-6308).
Xie, S., Sun, C., Huang, J., Tu, Z., & Murphy, K. (2018). Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 305-321).
Li, Y., Yao, T., Pan, Y., Chao, H., & Mei, T. (2018). Jointly localizing and describing events for dense video captioning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7492-7500).
Krishna, R., Hata, K., Ren, F., Fei-Fei, L., & Carlos Niebles, J. (2017). Dense-captioning events in videos. In Proceedings of the IEEE international conference on computer vision (pp. 706-715).
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
Sun, C., Myers, A., Vondrick, C., Murphy, K., & Schmid, C. (2019). Videobert: A joint model for video and language representation learning. In Proceedings of the IEEE International Conference on Computer Vision (pp. 7464-7473).
Wang, J., Jiang, W., Ma, L., Liu, W., & Xu, Y. (2018). Bidirectional attentive fusion with context gating for dense video captioning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7190-7198).
Mun, J., Yang, L., Ren, Z., Xu, N., & Han, B. (2019). Streamlined dense video captioning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 6588-6597).
Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.
Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167.
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham.
Zhou, L., Xu, C., & Corso, J. J. (2018, April). Towards automatic learning of procedures from web instructional videos. In Thirty-Second AAAI Conference on Artificial Intelligence.
Kitaev, N., Kaiser, Ł., & Levskaya, A. (2020). Reformer: The Efficient Transformer. arXiv preprint arXiv:2001.04451.
再学習に用いるデータは、クエリ、FAQ の問い合わせ文およびラベルの3つの組になります。ラベルは、正例と負例の二値になります。今回は、負例の組は正例以外の FAQ を K 件をランダムに抽出することで作成しました。ラベルの分布に偏りが生じることを避けるために、正例は K 個のコピーを作ることで、正例と負例のサンプル数の比率が同じになるようにしました。検証セットでの実験によって K=100 としました。
Robertson, S. (2010). The Probabilistic Relevance Framework: BM25 and Beyond. In Foundations and Trends® in Information Retrieval (Vol. 3).
Artetxe, M., & Schwenk, H. (2019). Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond. Transactions of the Association for Computational Linguistics, 7, 597–610.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
Nogueira, R., & Cho, K. (2019). Passage Re-ranking with BERT.
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.
J. Devlin, M. W. Chang, K. Lee, and K. Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171-4186.
J. C. Gu, Z. H. Ling, X. Zhu and Q. Liu. 2019. Dually Interactive Matching Network for Personalized Response Selection in Retrieval-Based Chatbots. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 1845-1854.
J. Li, M. Galley, C. Brockett, G. P. Spithourakis, J. Gao, and B. Dolan. 2016. A Persona-Based Neural Conversation Model. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 994-1003.
M. T. Luong, H. Pham, and C. D. Manning. 2015. Effective Approaches to Attention-based Neural Machine Translation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1412-1421.
A. Madotto, Z. Lin, C. S. Wu, and P. Fung. 2019. Personalizing Dialogue Agents via Meta-Learning. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5454-5459.
P. E. Mazare, S. Humeau, M. Raison and A. Bordes. 2018. Training Millions of Personalized Dialogue Agents. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2775-2779.
A. Miller, A. Fisch, J. Dodge, A. H. Karimi, A. Bordes, and J. Weston. 2016. Key-Value Memory Networks for Directly Reading Documents. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1400-1409.
S. Sukhbaatar, A. Szlam, J. Weston, and R Fergus. 2015. End-To-End Memory Networks. In Proceedings of the 28th Annual Conference on Neural Information Processing Systems (NIPS 2015), pages 2440-2448.
I. Sutskever, O. Vinyals, and Q. V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Advances in Neural Information Processing Systems, pages 3104-3112.
A. Vaswani, N. Shazeer, N. Parmer, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. 2017. Attention Is All You Need. In Advances in Neural Information Processing Systems, pages 6000-6010.
S. Zhang, E. Dinan, J. Urbanek, A. Szlam, D. Kiela, and J. Weston. 2018. Personalizing Dialogue: I have a dog, do you have pets too?. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, pages 2204-2213.
LIMEはRibeiro et al.(2016)[6]で考案されたExplainable AIの手法で、1つの予測結果(画像データであれば1枚の画像の予測結果、テーブルデータであれば1レコードの予測結果)に対してのみ局所的に近似させた単純な分類器を使って、そこから予測に寄与した特徴量の可視化をするものです。
局所近似する分類器を求める目的関数
\xi(x) = \argmin L(f, g, \pi_x) + \Omega(g) g\in G
ここではExplainable AIの3つのアプローチのうち「解釈可能なモデルで近似」に分類される「Born Again Tree」について紹介します。Explainable AIにおける「解釈可能なモデルで近似」では、精度は高いが解釈性の低いAI(機械学習)を解釈性の高いモデルで表現することを目的とします。
Born Again Tree
Born Again Treeは、Breiman and Shang(1996)[3]で考案された、予測精度は良いが解釈性が低いAI(機械学習)モデルから解釈性の高い決定木によって近似し、予測用モデルと解釈用モデルで予測精度と解釈性を両立させる手法です。
図11:Born Again Treeの分析フロー
図12:Born Again Treeの分析イメージ (引用元: アンサンブル木モデル解釈のためのモデルの簡略化[21])
Born Again Treeでは、図11のように、最初に予測精度の高いAI(機械学習)モデルを構築し、その後学習したモデルを使い擬似訓練データを生成します。この時入力データである特徴量からランダムにサンプリングを行い、学習モデルで予測させ、サンプリングデータと学習結果を疑似訓練データとします。その後生成した擬似訓練データを利用し、解釈性の高いAI(機械学習)モデルを構築します。そして予測精度の高いモデルと解釈性の高い2つのモデルから予測精度と解釈性を実現させます。
今回紹介した手法以外のExplainable AIの手法を知るには、Explainable AIのサーベイ論文であるGuidotti et al.(2018)[7]やAdadi and Berrada(2018)[1]やWebで無料公開されているExplainable AIの教科書的な存在である”Interpretable Machine Leaning : Guide for Making Black Box Models Explainable”[12]がおすすめです。
Explainable AIの応用例
ここでは、実社会でExplainable AIが実装されている応用例を3点ほど紹介します。
Google Explainable AI
「Google Explainable AI」はGoogleが提供する機械学習開発・運用サービスの1つで、これは同じくGoogleが提供している「Auto Tables」「Could AI Platform」上のAI(機械学習)モデルに対して利用できるものです。Explainable AIのアプローチとしては、「特徴量の可視化」に分類できます。
図13:Google Explainable AI (引用元:Google Explainable AI HP[9])
現状のExplainable AIの課題として、Explainable AI はAI(機械学習)モデルの予測・推測の計算工程を完全に明らかにするものではありません。またAI(機械学習)モデルの予測・推測の根拠を完全に示すものでもありません。これは現状のExplainable AIが万能ではなく、「ブラックボックス」となっているAI(機械学習)モデルの仕組みを完全に把握し、説明している訳ではないからです。あくまで現状のExplainable AIは、「ブラックボックス」となっているAI(機械学習)の予測・推測の根拠の一部を説明または別の解釈性の代替手法で近似している方法と認識し利用する必要があると考えられます。ただし、これはExplainable AIの限界ではなくExplainable AIという研究領域が発展途上であり、今後のそのAI(機械学習)としての解釈性と精度が高まりその必要性はより高くなると考えられます。
最後に、冒頭で述べたように昨今ではAIの社会実装が1つのトレンドとなっており、社会のありとあらゆる場所で顕在的、潜在的にAIの社会実装が必要となっています。また内閣府が提示している”サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会課題の解決を両立する、人間中心の社会(Society)”である「Society5.0」(内閣府HP[22])という狩猟社会、農耕社会、工業社会、そして現在の情報社会の次の第5の社会が来ることが目前となっています。この社会ではありとあらゆるものがIoT(Internet of Things)で繋がりデータをビッグデータとして蓄積し、AI(人工知能)により必要な情報が必要な時に提供され、ロボットや自動走行車などによって社会課題を解決する社会と言われております。その社会の中で、AI(人工知能)は高い必要性と重要な役割を有していますが、現状のAI(機械学習)では中身が「ブラックボックス」となっており、高い精度で予測・推測ができるけれど、根拠を提示できないものでは社会に求められている役割を十分に果たすことは厳しいと考えられます。故に予測・推測の根拠を提示するExplainable AIは今後の社会に必要不可欠なものになると考えられます。
Angelino, E., Larus-Stone, N., Alabi, D., Seltzer, M., & Rudin, C. (2017). Learning certifiably optimal rule lists for categorical data. The Journal of Machine Learning Research, 18(1), 8753-8830.(http://www.jmlr.org/papers/volume18/17-716/17-716.pdf)
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016, August). ” Why should i trust you?” Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 1135-1144). (https://dl.acm.org/doi/pdf/10.1145/2939672.2939778)
Riccardo Guidotti, Anna Monreale, Salvatore Ruggieri, Franco Turini, and Dino Pedreschiz. (2018) A Survey Of Methods For Explaining Black Box Models Cornel University(https://arxiv.org/pdf/1802.01933.pdf)