![]() |
|
|||||||
| Newsgroup de.comp.os.unix.linux.misc Alles, was sich nicht anders einordnen laesst. |
![]() |
|
|
Themen-Optionen | Ansicht |
|
#1
|
|||
|
|||
|
Hallo,
Ich habe folgendes Problem: Bei einem Bekannten soll ein Server System erstellt werden. Zurzeit werden die Daten auf einem Linux (Feisty) gespeichert, an dem mehrere USB Platten angeschlossen sind, ein Mac Mini mit USB Platte und ein Tablet PC (interne Platte mit WinXP). Wie man sich nun vorstellen kann, ist der Datenbestand völlig unstrukturiert. Ziel ist es einen Linux Server zu haben, auf dem zentral die Daten via Samba abgelegt werden. Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei einen MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern, so dass ich dann nach identischen Dateien suchen kann und diese evtl automatisiert lösche, das nächste ist, was ist mit "ähnlichen" Dateien, d.h. z.b. eine Worddatei, aber verschiedene Versionen)? Ähnliche Dateien lieferen unterschiedliche MD5-Hashes, gibt es eine Möglichkeit, dass man wie unter PHP methaphone(<string>) verwendet, um sagen zu können, welche Dateien per Hand geprüft werden müssen. Das Datenvolumen beläuft auf ca 1,2 TB Bin wirklich um Hilfe dankbar, denn per Hand zu sortieren wird Jahre dauern. Phil |
|
|
||||
|
||||
|
|
|
#2
|
|||
|
|||
|
Hallo, Philipp,
Du meintest am 22.03.08: > Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist > mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei > einen MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern, http://arktur.shuttle.de/CD/5.0-slac...50-PR1-hln.zip von Adrian Lopez Viele Gruesse Helmut "Ubuntu" - an African word, meaning "Slackware is too hard for me". |
|
#3
|
|||
|
|||
|
Philipp Kraus schrieb:
> > Ich habe folgendes Problem: Bei einem Bekannten soll ein Server System > erstellt werden. Zurzeit werden die Daten auf einem Linux (Feisty) > gespeichert, an dem mehrere USB Platten angeschlossen sind, ein Mac Mini > mit USB Platte und ein Tablet PC (interne Platte mit WinXP). > > Wie man sich nun vorstellen kann, ist der Datenbestand völlig > unstrukturiert. Ziel ist es einen Linux Server zu haben, auf dem zentral > die Daten via Samba abgelegt werden. > Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist mit > find alle Datenverzeichnisse durch zu laufen, von jeder Datei einen > MD5-Hash zu erzeugen und die Liste in einer Daten zu speichern, so dass > ich dann nach identischen Dateien suchen kann und diese evtl > automatisiert lösche, das nächste ist, was ist mit "ähnlichen" Dateien, > d.h. z.b. eine Worddatei, aber verschiedene Versionen)? > > Das Datenvolumen beläuft auf ca 1,2 TB Hallo, für identische Daten kann ich fdupes empfehlen, damit kann man z.B. eine Liste ausgeben lassen mit den doppelten Dateien inklusive der Dateigrösse. Man kann das Programm aber auch im interaktiven Löschmodus laufen lassen oder gleich ganz scharf mit automatischem Löschen (Verlinken statt Löschen ist auch möglich). http://netdial.caribe.net/~adrian2/fdupes.html http://en.wikipedia.org/wiki/Fdupes http://linux.die.net/man/1/fdupes Alternativ kenne ich auch noch dupseek: http://www.beautylabs.net/software/dupseek.html Bernd Mayer -- Schäuble, wenns Dir hier nicht gefällt, dann geh doch nach drüben! |
|
#4
|
|||
|
|||
|
Mahlzeit!
Philipp Kraus <philipp.kraus*flashpixx.de> wrote: > Ich muss nun zunächst auf dem Linux Duplikate finden, meine Idee ist > mit find alle Datenverzeichnisse durch zu laufen, von jeder Datei > einen MD5-Hash zu erzeugen und die Liste in einer Daten zu > speichern, so dass ich dann nach identischen Dateien suchen kann und > diese evtl automatisiert lösche, das nächste ist, was ist mit > "ähnlichen" Dateien, d.h. z.b. eine Worddatei, aber verschiedene > Versionen)? fdupes für "gleiche" Dateien wurde ja schon genannt. Wenn Bilder im Spiel sind: ich nutze gerne die Ähnlichkeitssuche aus gqview. Gruß, Christian -- .....Christian.Garbs.............................. .......http://www.cgarbs.de Cogito ergo sum. (Ich glaub, ich bin der Ergo.) |
|
#5
|
|||
|
|||
|
Hallo, Philipp,
Du meintest am 22.03.08: > Ähnliche Dateien lieferen unterschiedliche MD5-Hashes, gibt es eine > Möglichkeit, dass man wie unter PHP methaphone(<string>) verwendet, > um sagen zu können, welche Dateien per Hand geprüft werden müssen. freedup -n http://freedup.org http://arktur.shuttle.de/CD/5.0-slac...-i386-1hln.tgz Viele Gruesse Helmut "Ubuntu" - an African word, meaning "Slackware is too hard for me". |
|
|
|
|
![]() |
| Themen-Optionen | |
| Ansicht | |
|
|
Ähnliche Themen
|
||||
| Thema | Erstellt von | Forum | Antworten | Letzter Beitrag |
| Prozesserfolg: Inkassofirma muss Eintrag im Datenbestand der SCHUFA Holding AG widerrufen Gutes Urteil. http://www.news4press.com/Prozesserfolg-Inkassofirma-muss-Eintrag_424393.html Mfg. Jürgen |
Jürgen Malberg | Newsgroup de.etc.finanz.misc | 0 | 01-24-2009 06:21 PM |
| Startzeit von Windows XP SP3 analysieren Hallo Florian. ich würde mal während des Bootvorgangs einen Netzerktrace ziehen. Dann kannst Du ja sehen ob während der Wartezeiten Netzwerkverkehr... |
Florian Spisla | Newsgroup microsoft.public.de.german.windowsxp.sonstiges | 6 | 12-12-2008 12:50 PM |
| Startzeit von Windows XP SP3 analysieren Hallo Bei uns beschweren sich diverse Leute, das sie bis zu 10 Minuten warten müssten, bis sie mit ihren PCs arbeiten können, also angemeldet sind... |
Florian Spisla | Newsgroup microsoft.public.de.german.windowsxp.networking | 0 | 12-05-2008 12:45 PM |
| GPL und Datenbestand Hi! Markus Deckmann <Markus.Deckmann79@web.de> writes: > Daraus schließe ich das man, sollte man mit GPL-lizenzierter > Software bspw. eine... |
Markus Deckmann | Newsgroups de.sci.* Forum | 3 | 07-24-2008 08:59 AM |
| S.M.A.R.T. analysieren Christian Dürrhauer schrieb: > > Ein Wert ungleich Null bedeutet nicht zwangsläufig, dass die Platte bald > stirbt. Aber es ist andererseits auch... |
David Pritzkau | Newsgroup de.comp.hardware.laufwerke.festplatten | 2 | 03-13-2008 06:26 AM |