Meinews.de  


Zurück   Meinews.de > Forum > Newsgroups de.comp.os.* Forum > Newsgroup de.comp.os.unix.linux.misc
Registrieren FAQ Benutzerliste Kalender Suchen Heutige Beiträge Alle Foren als gelesen markieren

Newsgroup de.comp.os.unix.linux.misc Alles, was sich nicht anders einordnen laesst.

Antwort
 
Themen-Optionen Ansicht
  #1  
Alt 03-22-2008, 03:09 PM
Philipp Kraus
 
Beiträge: n/a
Standard Datenbestand analysieren

Hallo,

Ich habe folgendes Problem: Bei einem Bekannten soll ein Server System
erstellt werden. Zurzeit werden die Daten auf einem Linux (Feisty)
gespeichert, an dem mehrere USB Platten angeschlossen sind, ein Mac
Mini mit USB Platte und ein Tablet PC (interne Platte mit WinXP).

Wie man sich nun vorstellen kann, ist der Datenbestand völlig
unstrukturiert. Ziel ist es einen Linux Server zu haben, auf dem
zentral die Daten via Samba abgelegt werden.
Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist
mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei einen
MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern, so dass
ich dann nach identischen Dateien suchen kann und diese evtl
automatisiert lösche, das nächste ist, was ist mit "ähnlichen" Dateien,
d.h. z.b. eine Worddatei, aber verschiedene Versionen)? Ähnliche
Dateien lieferen unterschiedliche MD5-Hashes, gibt es eine Möglichkeit,
dass man wie unter PHP methaphone(<string>) verwendet, um sagen zu
können, welche Dateien per Hand geprüft werden müssen.

Das Datenvolumen beläuft auf ca 1,2 TB

Bin wirklich um Hilfe dankbar, denn per Hand zu sortieren wird Jahre dauern.

Phil

Mit Zitat antworten
Alt Today
Advertising
Google Adsense
 
This advertising will not be shown
in this way to registered members.
Register your free account today
and become a member on
Meinews.de
Standard Sponsored Links

  #2  
Alt 03-22-2008, 03:39 PM
Helmut Hullen
 
Beiträge: n/a
Standard Re: Datenbestand analysieren

Hallo, Philipp,

Du meintest am 22.03.08:

> Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist
> mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei
> einen MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern,


http://arktur.shuttle.de/CD/5.0-slac...50-PR1-hln.zip

von Adrian Lopez

Viele Gruesse
Helmut

"Ubuntu" - an African word, meaning "Slackware is too hard for me".

Mit Zitat antworten
  #3  
Alt 03-22-2008, 05:11 PM
Bernd Mayer
 
Beiträge: n/a
Standard Re: Datenbestand analysieren

Philipp Kraus schrieb:
>
> Ich habe folgendes Problem: Bei einem Bekannten soll ein Server System
> erstellt werden. Zurzeit werden die Daten auf einem Linux (Feisty)
> gespeichert, an dem mehrere USB Platten angeschlossen sind, ein Mac Mini
> mit USB Platte und ein Tablet PC (interne Platte mit WinXP).
>
> Wie man sich nun vorstellen kann, ist der Datenbestand völlig
> unstrukturiert. Ziel ist es einen Linux Server zu haben, auf dem zentral
> die Daten via Samba abgelegt werden.
> Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist mit
> find alle Datenverzeichnisse durch zu laufen, von jeder Datei einen
> MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern, so dass
> ich dann nach identischen Dateien suchen kann und diese evtl
> automatisiert lösche, das nächste ist, was ist mit "ähnlichen" Dateien,
> d.h. z.b. eine Worddatei, aber verschiedene Versionen)?
>
> Das Datenvolumen beläuft auf ca 1,2 TB


Hallo,

für identische Daten kann ich fdupes empfehlen, damit kann man z.B. eine
Liste ausgeben lassen mit den doppelten Dateien inklusive der
Dateigrösse. Man kann das Programm aber auch im interaktiven Löschmodus
laufen lassen oder gleich ganz scharf mit automatischem Löschen
(Verlinken statt Löschen ist auch möglich).

http://netdial.caribe.net/~adrian2/fdupes.html
http://en.wikipedia.org/wiki/Fdupes
http://linux.die.net/man/1/fdupes

Alternativ kenne ich auch noch dupseek:
http://www.beautylabs.net/software/dupseek.html


Bernd Mayer
--
Schäuble, wenns Dir hier nicht gefällt, dann geh doch nach drüben!
Mit Zitat antworten
  #4  
Alt 03-22-2008, 05:12 PM
Christian Garbs
 
Beiträge: n/a
Standard Re: Datenbestand analysieren

Mahlzeit!

Philipp Kraus <philipp.kraus*flashpixx.de> wrote:

> Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist
> mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei
> einen MD5-Hash zu erzeugen und die Liste in einer Daten zu
> speichern, so dass ich dann nach identischen Dateien suchen kann und
> diese evtl automatisiert lösche, das nächste ist, was ist mit
> "ähnlichen" Dateien, d.h. z.b. eine Worddatei, aber verschiedene
> Versionen)?


fdupes für "gleiche" Dateien wurde ja schon genannt. Wenn Bilder im
Spiel sind: ich nutze gerne die Ähnlichkeitssuche aus gqview.

Gruß,
Christian
--
.....Christian.Garbs.............................. .......http://www.cgarbs.de
Cogito ergo sum. (Ich glaub, ich bin der Ergo.)
Mit Zitat antworten
  #5  
Alt 03-22-2008, 06:21 PM
Helmut Hullen
 
Beiträge: n/a
Standard Re: Datenbestand analysieren

Hallo, Philipp,

Du meintest am 22.03.08:

> Ähnliche Dateien lieferen unterschiedliche MD5-Hashes, gibt es eine
> Möglichkeit, dass man wie unter PHP methaphone(<string>) verwendet,
> um sagen zu können, welche Dateien per Hand geprüft werden müssen.


freedup -n

http://freedup.org
http://arktur.shuttle.de/CD/5.0-slac...-i386-1hln.tgz

Viele Gruesse
Helmut

"Ubuntu" - an African word, meaning "Slackware is too hard for me".

Mit Zitat antworten
 
Antwort


Themen-Optionen
Ansicht


Ähnliche Themen
Thema Erstellt von Forum Antworten Letzter Beitrag
Prozesserfolg: Inkassofirma muss Eintrag im Datenbestand der SCHUFA Holding AG widerrufen
Gutes Urteil. http://www.news4press.com/Prozesserfolg-Inkassofirma-muss-Eintrag_424393.html Mfg. Jürgen
Jürgen Malberg Newsgroup de.etc.finanz.misc 0 01-24-2009 06:21 PM
Startzeit von Windows XP SP3 analysieren
Hallo Florian. ich würde mal während des Bootvorgangs einen Netzerktrace ziehen. Dann kannst Du ja sehen ob während der Wartezeiten Netzwerkverkehr...
Florian Spisla Newsgroup microsoft.public.de.german.windowsxp.sonstiges 6 12-12-2008 12:50 PM
Startzeit von Windows XP SP3 analysieren
Hallo Bei uns beschweren sich diverse Leute, das sie bis zu 10 Minuten warten müssten, bis sie mit ihren PCs arbeiten können, also angemeldet sind...
Florian Spisla Newsgroup microsoft.public.de.german.windowsxp.networking 0 12-05-2008 12:45 PM
GPL und Datenbestand
Hi! Markus Deckmann <Markus.Deckmann79@web.de> writes: > Daraus schließe ich das man, sollte man mit GPL-lizenzierter > Software bspw. eine...
Markus Deckmann Newsgroups de.sci.* Forum 3 07-24-2008 08:59 AM
S.M.A.R.T. analysieren
Christian Dürrhauer schrieb: > > Ein Wert ungleich Null bedeutet nicht zwangsläufig, dass die Platte bald > stirbt. Aber es ist andererseits auch...
David Pritzkau Newsgroup de.comp.hardware.laufwerke.festplatten 2 03-13-2008 06:26 AM


Alle Zeitangaben in WEZ. Es ist jetzt 10:38 AM Uhr.



Copyright ©2000 - 2010, Meinews.de - Hosted by niuz.biz
Powered by vBulletin Copyright © 2010 vBulletin Solutions, Inc.
Forum SEO by Zoints