Ein Team von Forschern hat eine wegweisende Studie veröffentlicht, die sich mit der Automatisierung des Bauens von Modellen aus LEGO®-Bausätzen befasst. Die Studie, durchgeführt von Wissenschaftlern der Universität Stanford, präsentiert einen innovativen Ansatz, bei dem ein neuronales Netzwerk die zweidimensionalen Bauanleitungen von LEGO® in präzise dreidimensionale Bauanweisungen umwandelt.
Das zentrale Problem dieser Forschungsarbeit besteht darin, die Bild-basierten, schrittweisen Montageanleitungen von menschlichen Designern in maschineninterpretierbare Anweisungen zu übersetzen. Dies wird als sequenzielle Vorhersageaufgabe formuliert, bei der das Modell in jedem Schritt die Anleitung liest, die Komponenten lokalisiert, die zur aktuellen Form hinzugefügt werden sollen, und ihre 3D-Positionen ableitet. Eine besondere Herausforderung besteht darin, eine 2D-3D-Korrespondenz zwischen dem Bild der Anleitung und dem realen 3D-Objekt herzustellen, sowie die 3D-Positionsschätzung für unbekannte 3D-Objekte, da eine neue Komponente, die in einem Schritt hinzugefügt werden soll, ein Objekt sein kann, das aus vorherigen Schritten aufgebaut wurde.
Um diese Herausforderungen anzugehen, präsentieren die Forscher ein neuartiges lernbasiertes Framework, das Manual-to-Executable-Plan Network (MEPNet), welches die Montageschritte aus einer Sequenz von Anleitungsbildern rekonstruiert. Die Schlüsselidee besteht darin, neuronale 2D-Schlüsselpunkterkennungsmodule und 2D-3D-Projektionsalgorithmen zu integrieren, um hochpräzise Vorhersagen und eine starke Generalisierung auf unbekannte Komponenten zu ermöglichen. MEPNet übertrifft vorhandene Methoden auf drei neu gesammelten LEGO®-Anleitungsdatasets und einem Minecraft-Hausdataset.
Die Diskussion der Ergebnisse hebt hervor, dass das größte Problem – die Bestimmung der exakten 3D-Position eines Objekts aus einer 2D-Zeichnung – durch die Einschränkungen beim Bauen mit LEGO®-Steinen erleichtert wird. Diese wegweisende Studie zeigt das Potenzial von KI in der Automatisierung komplexer Aufgaben und eröffnet neue Perspektiven für die Anwendung von Deep-Learning-Techniken in der Robotik und im Bauwesen.
Der Code und die Trainingsdaten können über GitHub abgerufen werden.