Para convertir cosas entre formatos, 
ffmpeg es perfecto y multiplataforma. Estoy bastante seguro de que hay frontends gráficos para windows de esta herramienta.
Resolutamente apruebo esta idea. No he leído bien cómo van, pero lo que seguramente quieren consiste en:
-  Una pista de video 1080p
-  Una pista de audio por cada idioma
-  Una pista de subtítulos por cada idioma (esto nunca sobra, si se puede incluir, mucho mejor)
-  Fuentes y demás es opcional
-  También opcional, extras como el opening/ending japonés y cosas así.
Lo complicado será sincronizar las pistas de audio con la de video, y luego los subtítulos. Será tedioso y laborioso, pero es plenamente posible, y tendrá la ventaja de que si por ejemplo la versión latina viene con calidad 480p, solamente toman el audio y ya. Y los subtítulos simples en formato SRT son muy manejables.