• ラフスケッチの自動線画化

    <span lang='en' >Sketch Simplification</span><span lang='ja' >ラフスケッチの自動線画化</span>

    本研究では、畳込みニューラルネットワークを用いてラフスケッチを線画に自動変換する手法を提案する。既存のスケッチ簡略化手法の多くは単純なラフスケッチのベクター画像のみを対象としており、スキャンした鉛筆画など、ラスター形式の複雑なラフスケッチを線画化するのは困難であった。これに対し提案手法では、3種類の畳込み層から構成されるニューラルネットワークモデルによって複雑なラフと線画の対応を学習することで、ラスター形式の様々なラフスケッチを良好に線画化することができる。提案モデルでは、任意のサイズやアスペクト比をもつ画像を入力として扱うことが可能であり、出力される線画は入力画像と同じサイズになる。また、このような多層構造をもつモデルを学習させるため、ラフスケッチと線画がペアになった新しいデータセットを構築し、モデルを効果的に学習させる方法を提案した。得られた結果についてユーザテストを行い、提案手法の性能が既存手法を大きく超えることを確認した。

  • 白黒画像の全自動色付け

    <span lang='en' >Colorization of Black and White Images</span><span lang='ja' >白黒画像の全自動色付け</span>

    本研究では、ディープネットワークを用いて白黒画像をカラー画像に自動変換する手法を提案する。提案手法では、画像の大域特徴と局所特徴を考慮した新たな畳込みネットワークモデルを用いることで、画像全体の構造を考慮した自然な色付けを行うことができる。提案モデルにおいて、大域特徴は画像全体から抽出され、局所特徴はより小さな画像領域から計算される。これらの特徴は“結合レイヤ”によって一つに統合され、色付けネットワークに入力される。このモデル構造は入力画像のサイズが固定されず、どんなサイズの画像でも入力として用いることができる。また、モデルの学習のために既存の大規模な画像分類のデータセットを利用し、それぞれの画像の色とラベルを同時に学習に用いることで、効果的に大域特徴を学習できるようにしている。提案手法により、100年前の白黒写真など、様々な画像において自然な色付けを実現できる。色付けの結果はユーザテストによって評価し、約90%の色付け結果が自然であるという回答が得られた。

  • ランキングロスと分類ロスにもとづくファッションデータの特徴抽出

    <span lang='en' >Fashion Style in 128 Floats</span><span lang='ja' >ランキングロスと分類ロスにもとづくファッションデータの特徴抽出</span>

    多様なファッション画像を効果的に分類できる特徴量抽出手法を提案する。 提案手法では、ランキングロスとクロスエントロピーロスを合わせて畳込みニューラルネットワークを学習させることで、 ノイズが多く含まれるようなデータセットに対しても良好に特徴抽出が行えることを示した。

  • Siameseネットワークモデルを用いた画像特徴量抽出

    <span lang='en' >Deep Convolutional Feature Point Descriptors</span><span lang='ja' >Siameseネットワークモデルを用いた画像特徴量抽出</span>

    Siameseネットワークモデルを効率的に学習させることで、 ロバストな画像特徴量を計算する手法を提案する。 提案手法では、モデルに2つの画像パッチを入力し、出力された特徴量の誤差によってモデルを学習させる。 また、入力するパッチをその識別の難しさによって分類し、識別が困難なパッチを優先的に学習させることで、SIFT特徴量よりもロバストな特徴量の抽出を実現した。

  • ファション性の推定

    <span lang='en' >Neuroaesthetics in Fashion</span><span lang='ja' >ファション性の推定</span>

    Being able to understand and model fashion can have a great impact in everyday life. From choosing your outfit in the morning to picking your best picture for your social network profile, we make fashion decisions on a daily basis that can have impact on our lives. As not everyone has access to a fashion expert to give advice on the current trends and what picture looks best, we have been working on developing systems that are able to automatically learn about fashion and provide useful recommendations to users. In this work we focus on building models that are able to discover and understand fashion. For this purpose we have created the Fashion144k dataset, consisting of 144,169 user posts with images and their associated metadata. We exploit the votes given to each post by different users to obtain measure of fashionability, that is, how fashionable the user and their outfit is in the image. We propose the challenging task of identifying the fashionability of the posts and present an approach that by combining many different sources of information, is not only able to predict fashionability, but it is also able to give fashion advice to the users.

  • 測地混合モデル

    <span lang='en' >Geodesic Finite Mixture Models</span><span lang='ja' >測地混合モデル</span>

    There are many cases in which data is found to be distributed on a Riemannian manifold. In these cases, Euclidean metrics are not applicable and one needs to resort to geodesic distances consistent with the manifold geometry. For this purpose, we draw inspiration on a variant of the expectation-maximization algorithm, that uses a minimum message length criterion to automatically estimate the optimal number of components from multivariate data lying on an Euclidean space. In order to use this approach on Riemannian manifolds, we propose a formulation in which each component is defined on a different tangent space, thus avoiding the problems associated with the loss of accuracy produced when linearizing the manifold with a single tangent space. Our approach can be applied to any type of manifold for which it is possible to estimate its tangent space.

  • 変形・照明不変の特徴量

    <span lang='en' >Deformation and Light Invariant Descriptor</span><span lang='ja' >変形・照明不変の特徴量</span>

    DaLI descriptors are local image patch representations that have been shown to be robust to deformation and strong illumination changes. These descriptors are constructed by treating the image patch as a 3D surface and then simulating the diffusion of heat along the surface for different intervals of time. Small time intervals represent local deformation properties while large time intervals represent global deformation properties. Additionally, by performing a logarithmic sampling and then a Fast Fourier Transform, it is possible to obtain robustness against non-linear illumination changes. We have created the first feature point dataset that focuses on deformation and illumination changes of real world objects in order to perform evaluation, where we show the DaLI descriptors outperform all the widely used descriptors.

  • 衣服の領域分割

    <span lang='en' >Clothes Segmentation</span><span lang='ja' >衣服の領域分割</span>

    In this research we focus on the semantic segmentation of clothings from still images. This is a very complex task due to the large number of classes where intra-class variability can be larger than inter-class variability. We propose a Conditional Random Field (CRF) model that is able to leverage many different image features to obtain state-of-the-art performance on the challenging Fashionista dataset.

  • 木構造のキネマティック合成

    <span lang='en' >Kinematic Synthesis of Tree Topologies</span><span lang='ja' >木構造のキネマティック合成</span>

    Kinematic synthesis consists of the theoretical design of robots to comply with a given task. In this project we focus on finite point kinematic synthesis, that is, given a specific robotic topology and a task defined by spatial positions, we design a robot with that topology that complies with the task.

    Tree topologies consist of loop-free structures where there can be many end-effectors. A characteristic of these topologies is that there are many shared joints. This allows some structures that may seem redundant to not actually be redundant when considering all the end-effectors at once. The main focus of this work is the design of grippers that have topologies similar to that of the human hand, which can be seen as a tree topology.

  • 単眼画像の人間の三次元位置の推定

    <span lang='en' >Monocular Single Image 3D Human Pose Estimation</span><span lang='ja' >単眼画像の人間の三次元位置の推定</span>

    This line of research focuses on the estimation of the 3D pose of humans from single monocular images. This is an extremely difficult problem due to the large number of ambiguities that rise from the projection of 3D objects to the image plane. We consider image evidence derived from the usage of different detectors for the different parts of the body, which results in noisy 2D estimations where the estimation uncertainty must be compensation. In order to deal with these issues, we propose different approaches using discriminative and generative models to enforce learnt anthropomorphism constraints. We show that by exploiting prior knowledge of human kinematics it is possible to overcome these ambiguities and obtain good pose estimation performance.