Posts by verdooft

    Ich habe bisher diverses mit lokalen Sprachmodellen getestet, klappt erstaunlich gut, wenn man den Prompt und gegebenenfalls den Systemprompt entsprechend gestaltet. Das geht auch unter Beibehaltung des Kontextes, so dass man unerwünschtes korrigieren lassen kann.

    Wobei man um eine manuelle Eigenkontrolle selten drumrum kommt.

    Sofen die eigene Hardware geeignet ist, kann man auch lokale Sprachmodelle laufen lassen.

    Ich verwende aktuell Llama3 70B, vorher war ich bei Mixtral 8x7B. Beide können ziemlich gut Deutsch. Als Software bin ich bei llama.cpp gelandet.

    Kommt halt drauf an, was du vor hast.

    Googledienste, zu denen ich auch das Indizieren zähle, sind dann ok, wie man selbst Vorteile hat, die größer als die Nachteile sind. Drum nutzen soviele Content-Erstellenden Youtube und nicht (nur) freie Alternativen, wo es schwer bis nicht möglich ist, Reichweite aufzubauen.

    Das ist kein Vorwurf, nur eine Feststellung. Ich würde es ja genauso handhaben.

    So grob sehe ich es eh wie andere, die einen nutzen das nicht, die anderen was anderes nicht. Aus den unterschiedlichsten Gründen und mit verschiedenen Kompromissen. Als durch die Dokumente, die Snowden Presse zugänglich gemacht hat, hervorging, dass die NSA es toll findet, dass Leute Wanzen freiwillig mit sich rumtragen, habe ich mich gewundert, dass trotzdem immer mehr Leute Smartphones nutzen.

    Ist halt wie mit vielen Dingen, manche landen durch Informationen woanders als andere, und nicht jede Information erreicht jede/n.

    Ansich mögen die meisten Websitebetreibenden Google, sonst würden sie den Suchbot per Eintrag in der robots.txt verbieten. Klar, gäbe dann weniger Aufrufe von Extern, aber wenn Datenschutz soooo wichtig ist, wäre das doch konsequent?

    Code
    User-agent: Googlebot 
    Disallow: /

    Wenn man Google auf die Art supportet, warum sollte man Google dann auf dem eigenen Rechner nicht nutzen?

    Über Llama 3 habe ich schon im Thread "AI Modelle lokal und ohne API Key nutzen" gepostet.

    Mittlerweile gibt es auch GGUF-Modelle, die per imatrix erstellt wurden. Selbst verwende ich llama.cpp mit diesen Modellen:

    8B:

    70B;

    In beiden Model Cards gibt es ein Kapitel "Which file should I choose?". Ich verwende meistens die beste Quantisierungsmethode, die auf meiner Hardware läuft.

    Seit TheBloke nicht mehr auf Hugging Face aktiv ist, ist der bartowski-Account zu einer guten Quelle für LLMs geworden.

    In meiner Schulzeit wurden Computer, Smartphones, Tablets noch gar nicht verwendet. Aus heutiger Sicht wäre es mir auch egal gewesen, ob da Windows oder Linux oder beides verwendet wird, da ich bei eigenen Geräten eh immer die Wahl habe, per Dualboot oder VM zusätzlich was zu verwenden. Und Windows + andere Microsoftprodukte zu kennen, erweitert auch den Horizont.

    Neben den offiziellen Lehrern und Lehrerinnen kann man sich auch selbst für was begeistern, sich mit anderen Schülerinnen und Schülern austauschen, Eltern geben einem Impulse, usw..

    Drum sehe ich irgendwelche Vorgaben irgendwo als nicht so kritisch an.

    Llama3 Modelle sind draussen, selbst die 8B Variante kann relativ gut Deutsch, laut Blogbeitrag sind nur etwa 5% der Trainingsdaten nicht-englisch gewesen und spalten sich in über 30 Sprachen auf.

    Beitrag zu den Modellen: https://ai.meta.com/blog/meta-llama-3/

    Die ersten Quantisierungen waren fehlerhaft, konnte man mit llama.cpp so beheben:

    ./gguf-py/scripts/gguf-set-metadata.py models/llama3/Llama-3-13B-Instruct-v0.1.Q8_0.gguf tokenizer.ggml.eos_token_id 128009
    War die Datei nicht betroffen, kam: Ist schon der Wert.

    GGUFs der Instruct-Modelle gibt es hier:

    Viel Spaß beim Testen.

    Um gewünschte Informationen von ChatGPT zu erhalten, muss ich meine Fragen so oft konkretisieren,

    Ist mir bei lokalen Modellen auch aufgefallen, gerade teste ich Llama 70B Instruct. Wobei man da direkt einen Systemprompt mit diversen Vorgaben setzen kann. (sachlich argumentieren, wissenschaftliche Erkenntnisse berücksichtigen...). Manchmal setze ich den Kreativitätswert (Temperatur) hoch oder runter. Je mehr ich lokale Modelle nutze, desto eher gelingt es mir, Prompts direkt so zu gestalten, dass mir die Antworten gut genug und passend sind.

    Was bei den neuen Llama 3 Modellen hinzukommt ist, dass nur 5% der Trainingsdaten nicht Englisch waren und sich in über 30 Sprachen aufteilen, dafür finde ich das ausgegebene Deutsch erstaunlich gut. Paar Grammatikfehler sind drin.

    ChatGPT nutze ich nicht.

    Ich nutze auch Automatic1111, allerdings nur per CPU. Aktuell warten viele auf die Modelle Stable Diffusion 3, was ich bei Reddit sah, bessere Umsetzung von komplizierten Prompts (links das, rechts das, mittig was anderes...) und Textgenerierung, ist schon beeindruckend. Kann aber noch dauern, selbst den kostenpflichtigen Zugriff per Api gibt es noch nicht lange.

    Wäre ich sicher, dass der RAM immer reicht, hätte ich keine Auslagerungsdatei. Da ich KI-Modelle nutze, die deutlich über 40 GiB sind, wurde es bei großem Kontext aber schonmal eng (parallel gestarteter Firefox usw.), dann stand da: Prozess wurde getötet.

    Drum vergrößere ich die Swapdatei bald, achte aber darauf, dass nicht zuviel auf die SSD geschrieben wird. Ich vermute, bei meinen Anwendungen wird eher nur einmal in den RAM, Auslagerungsspeicher geschrieben und dann mehrmals von dort gelesen, drum würde das passen.

    Swap in RAM-Größe würde ich nur anlegen, wenn wenig RAM verbaut ist, aber mal deutlich mehr gebraucht wird, oder wenn das so für bevorzugte Energiesparmodi notwendig wäre.

    TJUNCTION des Prozessors sind 100 Grad.

    Intel® Core™ i7-8700K Prozessor (12 MB Cache, bis zu 4,70 GHz) – Produktspezifikationen | Intel
    Intel® Core™ i7-8700K Prozessor (12 MB Cache, bis zu 4,70 GHz) Kurzübersicht über Spezifikationen, Funktionen und Technik.
    www.intel.de

    Da sind 74/75 Grad eigentlich im Rahmen. Bei meiner AMD CPU gehts auch mal auf 80 Grad hoch, und das Verhalten, wenn Youtube im Browser läuft, dass trotz relativ niedriger Gesamtauslastung (nicht alle Kerne, wie bei dir bei Steam) die Temperatur hochgehen kann, während KI-Anwendungen alle Kerne auslasten und die Temperator bei unter 60 Grad bleibt, kenne ich auch.

    Klar, der Kühlkörper kann verstaubt sein, wenn die Temperaturen bei ähnlichen Anwendungen früher niedriger war.