Unterabschnitte
3. Evaluierungstypen
Man kann eine Einteilung in drei Kategorien von Evaluierungen vornehmen. Jeder
Typ von Evaluierung erfordert eigene Protokolle zum Durchführen und Auswerten
der Testreihen. Dabei existieren deutliche und offensichtliche Unterschiede
zwischen den drei Kategorien, aber auch unscheinbare Unterschiede im Detail,
über die man sich vor der Durchführung klar sein sollte. Die drei verschiedenen
Typen werden nun im einzelnen vorgestellt.
3.1 Technologische Evaluierung
Durch eine technologische Evaluierung wird vor allem die Implementierungen,
Genauigkeit und Geschwindigkeit von Bewertungs- und Entscheidungs-Algorithmen
evaluiert. Somit ermöglichen die Ergebnisse direkte Vergleiche
konkurrierender Produkte.
Die Allgorithmen werden auf einer standardisierten Datenbasis angewendet.
Die darin enthaltenen Testdaten sollten eine breite Streuung aufweisen,
jedoch nicht zu komplex aber auch nicht zu einfach sein. Die Sammlung der
Daten erfolgt durch einen ``universellen'' Sensor.
Die gesammelten Daten sollten den Entwicklern der Algorithmen nicht bereits
vorab bekannt gegeben werden. Es spricht jedoch nichts gegen das Veröffentlichen
einer Teilmenge von Testdaten zur beispielhaften Veranschauung des
gesammelten Materials.
Die Teilnehmer bzw. Testkandidaten können durch Einhalten einer
Schnittstellenspezifikation ihre Algorithmen teilnehmen lassen. Durch
die Trennung von Entwickler und Test-Durchführer kann man aussagekräftige
Ergebnisse erzielen, denn dem Entwickler ist es in der Regel nicht möglich,
die kompletten Daten einzusehen bzw. die Daten zu seinen Gunsten auszuwählen.
In der Regel sind solche Evaluierungen wiederholbar, weil die Daten
vorher gesammelt und gespeichert wurden. Ebenso ist eine Offline-Auswertung
möglich, da die Testläufe deterministisch ablaufen, d.h. bei gleicher
Eingabe sollten die Algorithmen reproduzierbare Ausgaben liefern.
- fvc2002
Im Jahre 2002 fand der Fingerprint Verification Competition [9, fvc2002] statt.
Zielsetzung war der Vergleich konkurrierender Verfahren zum Erkennen von
Fingerabdrücken.
Es starteten insgesamt 31 Teilnehmer, davon 21 aus Industrie und 6 aus Akademischen
Einrichtungen. Die Evaluierung wurde auf vier Datenbanken durchgeführt, davon drei
mit realen und eine mit synthetischen Testdaten.
2004 findet ein weitere Wettbewerb statt [10].
3.2 Szenario Evaluierung
In einer Szenario Evaluierung liegt das Hauptaugenmerk auf der
Modellierung realer Bedingungen. Hierbei wird die Gesamtperformanz
eines Prototyps oder einer simulierten Anwendung ermittelt.
Da die Test-Systeme mit eigenen Sensoren arbeiten werden,
wird jedes System leicht unterschiedliche Daten liefern. Daher muss
besonderen Wert darauf gelegt werden, dass alle zu betrachtenen
Systeme unter denselben Bedingungen und mit den gleichen
Testpersonen durchgeführt werden. Die Einstellungen an den
Einhabegeräten sollten vor Beginn der Testreihe festgelegt werden
und nicht während der Durchführung geändert werden.
Je nach Speicherkapazität kann man auf eine Kombination von
online und offline Verarbeitung setzen.
Falls die Umstände und Parameter der Testläufe nachvollziehbar
und kontrollierbar sind, kann man die Testläufe zum modellierten
Szenario wiederholen.
- Vorstellbar sind Untersuchungen von Hardware und Software
im Labor mit einer ausgewählten Anzahl an Testpersonen.
3.3 Operative Evaluierung
Die Operative Evaluierung betrachtet ein geschlossenes biometrisches
System unter realen Bedingungen, eventuell im Live-Betrieb. Dabei
sind hier meist die Bevölkerung und die technische Ausstattung anhand
des zu betrachtenden Systems fest vorgegeben und können kaum
beeinflusst werden.
Wichtig sind gute Protokollierungen. Da in der Regel eine mehrfache
Ausführung der Testreihe nicht möglich sein wollte, bedarf es einer
guten Planung und Vorbereitung.
Zumeist beeinflussen unvorhergesehene
oder undokumentierte Ereignisse die Ergebnisse, wie zum Beispiel
Wettereinflüsse, wechselnde Testpersonen oder Ausfälle von Eingabegeräten.
- Zoo Hannover
Europas grösstes System zur Gesichtserkennung für Dauerkartenbesitzer
wurde 2002 im Zoo Hannover in Betrieb genommen. Das System soll Wartezeiten
für die Ausstellung von Dauerkarten merklich verringern. Gleichzeitig
dient es als Basis für umfangreiche Tests im Live-Betrieb.
- Flughafen Sidney
Ebenfalls ein System zur Gesichterkennung gewährt Mitarbeitern Zutritt
zu gesperrten Bereichen.
Performanzermittlung, 29. Jan 2004
|
|