Text nach einem Punkt (.) "splitten"

  • Hallo Community.

    Ich versuche eine Textdatei aufteilen. Sie ist zwar kurz, aber ich benötige den Inhalt als einzelne Dateien, die jeweils nur einen einzigen Satz enthalten.

    Beispielsweise enthält die Ursprungsdatei den Text:

    "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet."

    Der Inhalt der Ausgabedateien sollte nach dem Bearbeiten so aussehen:

    Datei 1:
    "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua."

    Datei 2:
    "At vero eos et accusam et justo duo dolores et ea rebum."

    Datei 3:
    "Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet."

    Ich bin bisher mit split oder auch awk nicht weiter, aber an die Grenzen meines Wissens gekommen.

    Vielleicht kennt hier jemand eine Lösung?

    Danke :)

  • Du könntest den Text in eine Tabellenkalkulation importieren und den Punkt als Trenner nehmen. Dann würde jeder Satz in einer eigenen Spalte stehen.

    Hardware: MEG X570 UNIFY | AMD Ryzen 9 5950X | 64 GB Ram | AMD Radeon RX 6600 | Hauppauge Starburst 2

    System: Debian Bookworm (Plasma) im Dualboot mit Win11

  • Also ich habe nun ein kleines Bashscript geschrieben das im Grunde genau das macht was du möchtest. Dateiname "splitter.sh" Inhalt der Datei:


    Danach die Datei ausführbar machen:


    Code
    chmod +x /pfad/zum/script/splitter.sh


    Danach kannst du das im Terminal anwenden:

    Code
    /pfad/zum/script/splitter.sh /pfad/zu/deiner/source/datei.txt

    Du kannst das vereinfachen, wen du die splitter.sh in nen Ordner legst der in deinem $PATH ist aber so klappt es.

    --
    Ciao!

    Linux Nutzer seit über 20 Jahren. I ❤️ Freedom!

    Offizieller Proton-Botschafter aus der Schweiz 🇨🇭 😅

    Meine Haupt-Distribution ist Ubuntu.

    Mein Blog: https://rueegger.me

    Wer meinen sinnlosen Gedanken folgen möchte, kann dies gerne auf Mastodon tun: https://swiss.social/@srueegger

  • Meine ursprüngliche "splitter.sh" ist falsch, ich hab das Problem erst falsch gelesen. Die trennt nach "Zeilen" und nicht nach "Sätzen" sorry dafür. Mit dem Script müsste es aber gehen:


    --
    Ciao!

    Linux Nutzer seit über 20 Jahren. I ❤️ Freedom!

    Offizieller Proton-Botschafter aus der Schweiz 🇨🇭 😅

    Meine Haupt-Distribution ist Ubuntu.

    Mein Blog: https://rueegger.me

    Wer meinen sinnlosen Gedanken folgen möchte, kann dies gerne auf Mastodon tun: https://swiss.social/@srueegger

  • Lessli Sorry ich habe deinen Download Link entfernt. Kannst du versuchen die Datei zu zippen oder der Datei eine Dateiendung geben. Sowohl Firefox wie auch Google Chrome warnen vor dem Download und blockieren ihn.

    --
    Ciao!

    Linux Nutzer seit über 20 Jahren. I ❤️ Freedom!

    Offizieller Proton-Botschafter aus der Schweiz 🇨🇭 😅

    Meine Haupt-Distribution ist Ubuntu.

    Mein Blog: https://rueegger.me

    Wer meinen sinnlosen Gedanken folgen möchte, kann dies gerne auf Mastodon tun: https://swiss.social/@srueegger

  • kim88

    Ich habe leider immer noch ein kleines Problem.

    Das Skript läuft einwandfrei, solange keine Umlaute enthalten sind. Aus

    Aus dem Gespräch der beiden erfährt er die Hintergründe seiner Reise nach England.

    wird dann

    nde seiner Reise nach England.


    Vielleicht weißt du auch dafür eine Lösung?

  • Das kommt davon, wenn man nur mit Lorem Ipsum Texten testet.

    Das sollte das Problem lösen - unter der Voraussetzung das deine "source.txt" UTF-8 formatiert ist.


    --
    Ciao!

    Linux Nutzer seit über 20 Jahren. I ❤️ Freedom!

    Offizieller Proton-Botschafter aus der Schweiz 🇨🇭 😅

    Meine Haupt-Distribution ist Ubuntu.

    Mein Blog: https://rueegger.me

    Wer meinen sinnlosen Gedanken folgen möchte, kann dies gerne auf Mastodon tun: https://swiss.social/@srueegger

  • Dann ist die Quelldatei wahrscheinlich nicht UTF-8. Kannst du versuchen die nach UTF-8 zu konvertieren. Am einfachsten wohl Inhalt kopieren neue Textdatei erstellen, Inhalt einfügen -> als UTF-8 abspeichern.

    --
    Ciao!

    Linux Nutzer seit über 20 Jahren. I ❤️ Freedom!

    Offizieller Proton-Botschafter aus der Schweiz 🇨🇭 😅

    Meine Haupt-Distribution ist Ubuntu.

    Mein Blog: https://rueegger.me

    Wer meinen sinnlosen Gedanken folgen möchte, kann dies gerne auf Mastodon tun: https://swiss.social/@srueegger

  • Du kannst noch irgendwas in die Richtung versuchen - ist gerade ungetestet. Das konvertiert die Datei quasi on-the-fly:


    --
    Ciao!

    Linux Nutzer seit über 20 Jahren. I ❤️ Freedom!

    Offizieller Proton-Botschafter aus der Schweiz 🇨🇭 😅

    Meine Haupt-Distribution ist Ubuntu.

    Mein Blog: https://rueegger.me

    Wer meinen sinnlosen Gedanken folgen möchte, kann dies gerne auf Mastodon tun: https://swiss.social/@srueegger

  • Sicher weil bei mir klappt es:

    Das ist das Script:



    Das ist meine Source-Datei - ja ich weiss nicht sonderlich kreativ einfach lroemipsum mit ein paar umlauten gespickt:

    Code
    Lorem ipsöum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vöäüero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor öüsit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.   
    
    Duiäs autem vel eum iriureööö dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.   
    
    Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse.

    Und hier findest du die Textdateien die es mir generiert (inkl den Umlauten):

    Archiv.zip

    --
    Ciao!

    Linux Nutzer seit über 20 Jahren. I ❤️ Freedom!

    Offizieller Proton-Botschafter aus der Schweiz 🇨🇭 😅

    Meine Haupt-Distribution ist Ubuntu.

    Mein Blog: https://rueegger.me

    Wer meinen sinnlosen Gedanken folgen möchte, kann dies gerne auf Mastodon tun: https://swiss.social/@srueegger

  • Ich habe das (gesamte) Skript noch einmal neu aufgesetzt. Jetzt läuft es.

    Die von dir gefundene Lösung war ja nur ein Teil, und ich vermute, dass sich schon vorher irgendwo ein Fehler eingeschlichen hatte.

    Dank dir noch einmal für deine Hilfe :)

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!