Beispielsweise sind im Deutschen das Subwort „Herz“, im Englischen „Heart“ und im Spanischen „Corazon“ definiert. In allen Sprachen existiert darüber hinaus der lateinische Ausdruck „Card(ia)“. Diese Subwörter sind sprachübergreifend zusammengefasst zu dem Konzept „HEART“.
Entsprechende Konzepte existieren für alle anderen relevanten Bestandteile der Sprache. Mit Hilfe eines speziellen Programms, ist es nun möglich, Subwörter und Konzepte aus Dokumenten zu extrahieren.
Für „Herzmuskelentzündung, Entzündung des Herzmuskels, Myokarditis oder inflammation of the heart muscle“ werden dabei jedes Mal die Konzepte HEART, MUSCLE und INFLAMMATION extrahiert und die Dokumente somit sprachlich normalisiert.
