Ok aber was ist, wenn ich zwei paar Schuhe in einen Rucksack packen will, weil ich weiß, dass ich auf dem Weg erst durch Matschpfützen laufen muss, danach aber zu Villa X komme wo ich für eine edle Party eingeladen bin und das andere paar Schuhe brauche?
Naja, dann hast du 2 Anforderungen und für je ein Szenario eine entsprechende Encodierung. Sprich immer ein Video pro Szenario.
Ich kann natürlich an guten Tagen die Schuhe nehmen und an regnerischen die Stiefel, aber wenn ich im Voraus wüsste, dass beides auf einer Strecke kommt, was dann?
Das blöde ist ja das du das ja beim Video machen weißt. Ist wie als würde die Wettervorhersage immer funktionieren.
2 gleiche Schuhe, sprich 1 Paar sind immer ein Video. Sie sind aber immer identisch die du grad trägst. 
Wenn du jetzt z.B. ein Video hast das mit WMV9 kodiert wurde in 1080p30 und das ist dein Intro, dann ist es jetzt mal ein unbequemer schwarzer rechter Stiefel.
Und dann hast du dein Mainvideo in h264 kodiert mit 1152p60. Das ist dann dein bequemer weißer linker Turnschuh.
Fällt dir was auf?
Kannst nicht beide tragen.
Bzw. Praktisch schon, aber das wäre nicht normal, sondern Chaotisch. 
Natürlich meinte ich nicht Dinge wie die Auflösung plötzlich zu halbieren oder andere Dinge die einem in's Auge fallen, und ich meinte auch nicht, ständig zwischen zwei Einstellungen zu hüpfen, sondern Einstellung B nur nach A kommen zu lassen, beide paar Schuhe in einen Rucksack.
Und das geht praktisch nicht.
Du hast 2 Videos mit unterschiedlichen Charakteristika. Stiefel und Turnschuh die du als Paar bezeichnest.
Geht einfach nicht.
Du hast bei Regen Szenario A) mit der WMV9 Datei z.B. und du hast Sonne bei Szenario B) mit der h264 Datei.
Das kann auch der gleiche Codec sein, nur unterschiedlich eingestellt und schon stimmt das Szenario nicht mehr.
Du musst sie vorher angleichen. Und das geht nur indem du zuerst dekodierst und dekomprimierst, dann aufeinander abstimmen tust und dann erneut encodierst.
Sprich du machst aus dem rechten Stiefel ein Turnschuh und der hat dann die gleichen Charakteristika wie der linke Turnschuh. Und dann passen sie auch für das Szenario B.
Du kannst nicht einfach mal ohne irgendeine Art der Neuberechnung einfach zwei verschiedene Videos zusammensetzen. Das geht einfach nicht.
MKVmerge kopiert nur, genauso wie es MyMP4box tut und alle anderen Muxer.
Das heißt, würden diese beiden Videos in einer File ablaufen, mit Einstellung A und mit Einstellung B, würde optisch nichts unpassendes passieren.
Und du glaubst wirklich das der Decoder einfach so zwischendurch mal die Decodierungsroutine im laufenden Prozess ändert, ja? 
Das wäre cool. Dann hast du als einziger eine Verschlüsslungs und Komprimierungstechnik erfunden die mehrere Einstellungen während der Decodierungsphase berücksichtigt.
Genial xD
Sollteste dann Patent anlegen bei der Telekommunikationstechnik 
Du stellst dir das womöglich etwas blöd vor.
Pass auf: Du hast angenommen 2 Videos die mit dem gleichen Codec encodiert worden sind. ABER mit 2 unterschiedlichen Einstellungen. z.B. andere GOP Länge oder das eine arbeitet mit 3 B-Frames, der andere mit 4.
Und jetzt stell dir vor das der Decoder diese Informationen braucht um das Video zu dekodieren.
Er fängt also mit Schlüssel 1 an zu dekodieren bis er zum Video kommen würde das nicht mehr den Einstellungen von Video 1 entspricht. Was glaubst du würde er bei Video 2 machen?
Den Schlüssel für Video 2 nutzen? Woher denn? Er weiß doch gar nicht das da Video 2 anfängt. Für den Decoder ist das dann immer noch Video 1 und schmeißt dir eine Fehlermeldung an den Kopf, weil er das nicht versteht.
Ist ne ganz simple Sache.
Um ein Video zu dekodieren, gibt es den Header. Ein Stream hat einen Header jeweils.
Bedeutet dein Video besteht immer aus ein Stream und einen Header. Im Header steht der Schlüssel zum dekodieren des Videos. Würde der nicht drin stehen, wäre es ein unbekanntes RAW Video das nicht dekodiert werden kann.
Und jetzt willst du 2 Streams zusammensetzen mit 2 unterschiedlichen Einstellungen.
Sagen wir jetzt mal das die 2 Streams unterschiedlich sind, sich aber dennoch zusammensetzen lassen würden. Du hättest ein Stream. Und was machst du mit dem Header? Da kann jeweils nur ein Schlüssel für den Decoder drin stehen. Einer würde auch nur von den beiden rein gehen.
Bedeutet im Endeffekt das du das andere Video nicht dekodieren könntest und es Fehlermeldungen geben würde. Eventuell sogar ein Bluescreen, weil der Decoder auf einmal auf Speicher zugreift den er gar nicht abfragen durfte. Einfach weil der Informationsfluss sich geändert hat.