Beiträge von verdooft

    Über Llama 3 habe ich schon im Thread "AI Modelle lokal und ohne API Key nutzen" gepostet.

    Mittlerweile gibt es auch GGUF-Modelle, die per imatrix erstellt wurden. Selbst verwende ich llama.cpp mit diesen Modellen:

    8B:

    70B;

    In beiden Model Cards gibt es ein Kapitel "Which file should I choose?". Ich verwende meistens die beste Quantisierungsmethode, die auf meiner Hardware läuft.

    Seit TheBloke nicht mehr auf Hugging Face aktiv ist, ist der bartowski-Account zu einer guten Quelle für LLMs geworden.

    In meiner Schulzeit wurden Computer, Smartphones, Tablets noch gar nicht verwendet. Aus heutiger Sicht wäre es mir auch egal gewesen, ob da Windows oder Linux oder beides verwendet wird, da ich bei eigenen Geräten eh immer die Wahl habe, per Dualboot oder VM zusätzlich was zu verwenden. Und Windows + andere Microsoftprodukte zu kennen, erweitert auch den Horizont.

    Neben den offiziellen Lehrern und Lehrerinnen kann man sich auch selbst für was begeistern, sich mit anderen Schülerinnen und Schülern austauschen, Eltern geben einem Impulse, usw..

    Drum sehe ich irgendwelche Vorgaben irgendwo als nicht so kritisch an.

    Llama3 Modelle sind draussen, selbst die 8B Variante kann relativ gut Deutsch, laut Blogbeitrag sind nur etwa 5% der Trainingsdaten nicht-englisch gewesen und spalten sich in über 30 Sprachen auf.

    Beitrag zu den Modellen: https://ai.meta.com/blog/meta-llama-3/

    Die ersten Quantisierungen waren fehlerhaft, konnte man mit llama.cpp so beheben:

    ./gguf-py/scripts/gguf-set-metadata.py models/llama3/Llama-3-13B-Instruct-v0.1.Q8_0.gguf tokenizer.ggml.eos_token_id 128009
    War die Datei nicht betroffen, kam: Ist schon der Wert.

    GGUFs der Instruct-Modelle gibt es hier:

    Viel Spaß beim Testen.

    Um gewünschte Informationen von ChatGPT zu erhalten, muss ich meine Fragen so oft konkretisieren,

    Ist mir bei lokalen Modellen auch aufgefallen, gerade teste ich Llama 70B Instruct. Wobei man da direkt einen Systemprompt mit diversen Vorgaben setzen kann. (sachlich argumentieren, wissenschaftliche Erkenntnisse berücksichtigen...). Manchmal setze ich den Kreativitätswert (Temperatur) hoch oder runter. Je mehr ich lokale Modelle nutze, desto eher gelingt es mir, Prompts direkt so zu gestalten, dass mir die Antworten gut genug und passend sind.

    Was bei den neuen Llama 3 Modellen hinzukommt ist, dass nur 5% der Trainingsdaten nicht Englisch waren und sich in über 30 Sprachen aufteilen, dafür finde ich das ausgegebene Deutsch erstaunlich gut. Paar Grammatikfehler sind drin.

    ChatGPT nutze ich nicht.

    Ich nutze auch Automatic1111, allerdings nur per CPU. Aktuell warten viele auf die Modelle Stable Diffusion 3, was ich bei Reddit sah, bessere Umsetzung von komplizierten Prompts (links das, rechts das, mittig was anderes...) und Textgenerierung, ist schon beeindruckend. Kann aber noch dauern, selbst den kostenpflichtigen Zugriff per Api gibt es noch nicht lange.

    Wäre ich sicher, dass der RAM immer reicht, hätte ich keine Auslagerungsdatei. Da ich KI-Modelle nutze, die deutlich über 40 GiB sind, wurde es bei großem Kontext aber schonmal eng (parallel gestarteter Firefox usw.), dann stand da: Prozess wurde getötet.

    Drum vergrößere ich die Swapdatei bald, achte aber darauf, dass nicht zuviel auf die SSD geschrieben wird. Ich vermute, bei meinen Anwendungen wird eher nur einmal in den RAM, Auslagerungsspeicher geschrieben und dann mehrmals von dort gelesen, drum würde das passen.

    Swap in RAM-Größe würde ich nur anlegen, wenn wenig RAM verbaut ist, aber mal deutlich mehr gebraucht wird, oder wenn das so für bevorzugte Energiesparmodi notwendig wäre.

    TJUNCTION des Prozessors sind 100 Grad.

    Intel® Core™ i7-8700K Prozessor (12 MB Cache, bis zu 4,70 GHz) – Produktspezifikationen | Intel
    Intel® Core™ i7-8700K Prozessor (12 MB Cache, bis zu 4,70 GHz) Kurzübersicht über Spezifikationen, Funktionen und Technik.
    www.intel.de

    Da sind 74/75 Grad eigentlich im Rahmen. Bei meiner AMD CPU gehts auch mal auf 80 Grad hoch, und das Verhalten, wenn Youtube im Browser läuft, dass trotz relativ niedriger Gesamtauslastung (nicht alle Kerne, wie bei dir bei Steam) die Temperatur hochgehen kann, während KI-Anwendungen alle Kerne auslasten und die Temperator bei unter 60 Grad bleibt, kenne ich auch.

    Klar, der Kühlkörper kann verstaubt sein, wenn die Temperaturen bei ähnlichen Anwendungen früher niedriger war.

    Geht es um die Datei: SDRplay_RSP_API-Linux-3.14.0.run?

    Wie oben empfohlen, mal mit --help aufgerufen?

    bash ./SDRplay_RSP_API-Linux-3.14.0.run --help
    ./SDRplay_RSP_API-Linux-3.14.0.run --list   Print the list of files in the archive
     --noexec              Do not run embedded script
     --keep                Do not erase target directory after running
                           the embedded script
    --target dir          Extract directly to a target directory
    --tar arg1 [arg2 ...] Access the contents of the archive through the tar command

    In der entpackten install_lib.sh steht, was genau während der Installation passiert.

    Entpacken, ohne das Script auszuführen, geht z.B. so (sd vorher mit mkdir angelegt):

    bash ./SDRplay_RSP_API-Linux-3.14.0.run --target sd/ --noexec

    Welche Run-Datei, von wo? Ich würde den Hersteller fragen, wenn die Run-Datei keine Deinstallationsoption (--help mal probiert?) hat, man nicht in die Datei reinsehen kann (file datei.run). Manche run-Dateien bieten die Deinstallation an, wenn man sie nochmal ausführt und eine vorhandene Installation erkannt wird.

    Ich nutze so Seiten nicht und greife nur auf Nachrichten zu, für die ich nichts direkt zahle. Bei direkt als generiert erkennbaren Texten kommt hinzu, dass mir die meistens viel zu schlecht sind als dass ich sie lesen möchte. Zumal ich dann die Informationen alle auf Richtigkeit prüfen müsste, da konsumiere ich lieber direkt Medien, die ich diesbezüglich für seriöser halte.

    Angebot und Nachfrage, anscheinend werden so generierte Texte nachgefragt, also auch angeboten.