czy to prawda, że e-mail może być deduplikowane używając tylko niektóre z ich nagłówków jak zgodnie z RFC ich message-id powinno być wyjątkowe?email deduplikacji
Czy istnieje jakiś sposób, aby obliczyć prawdopodobieństwo 1 pojedynczy email beeing pominięte w tej metodzie deduplikacji poniżej (SHA512 hash tych 3 nagłówki)?
// $email is a parsed array containing 3 keys (mime headers) -> message_id, subject and date. $hashStr = $email['message_id']; $hashStr .= $email['subject']; $hashStr .= $email['date']; $uniqueEmailId = hash('sha512', $hashStr);
Jest to rodzaj misji krytycznej że żaden pojedynczy email zostaną pominięte, są szanse, że jesteśmy konieczności deduplikuj na kilka (> 2) mld pliki MIME.
Message-ID nie jest identyfikatorem GUID w tym znaczeniu. Jest globalnie wyjątkowy, ale skonstruowany w sposób specyficzny dla implementacji. Zwykłą techniką jest połączenie heks timestamp_seq # po lewej stronie z nazwą hosta po prawej stronie znaku @. Zobacz RFC 2822 pp22-24 –