Datenqualität und Selektivitäten digitaler Daten

Alte und neue digitale und analoge Datensorten im Vergleich

Schlagworte: Methoden der empirischen Sozialforschung, Big Data, Digitale Daten, Prozessproduzierte Daten, Forschungsinduzierte Daten, Qualitative Daten, Quantitative Daten, Mixed Methods, Corona-App, Datenqualität, Digitale Spaltungen, Rekursivität, Digitale Plattformen, Daten und Macht, Computational Social Sciences

Abstract

Der Begriff „digitale Daten“ ist unpräzise, weil in den Sozialwissenschaften spätestens seit den 1960ern Daten nicht nur digital erhoben, verarbeitet und analysiert wurden, sondern in der Forschungspraxis auch oft parallel analoge und digitale Daten erhoben wurden. Am Beispiel der quantitativen Sozialforschung schärft der Beitrag den Begriff der „digitalen Daten“ durch die Unterscheidung zwischen forschungsinduzierten, klassischen und neuartigen prozessproduzierten Daten („Big Data“). Auf dieser Basis zeigen wir, dass klassische Modelle der empirischen Sozialforschung zur Beurteilung der Datenqualität und Selektivitäten von prozessproduzierten Daten – wie etwa das sogenannte Bick-Müller-Modell – auch auf neuartige prozessproduzierte Daten übertragen können, deren Besonderheit es ist, dass sie meist im Kontext des Web 2.0 entstehen und i.d.R. ausschließlich digital sind. Mit Hilfe des Bick-Müller-Modells lassen sich die spezifischen Stärken und Schwächen von neuartigen prozessproduzierten Daten aufzeigen. Allgemein lässt sich festhalten, dass Web 2.0-Daten blinde Flecken aufweisen, insofern dass sowohl im nationalstaatlichen Rahmen, als auch im globalen Kontext große Teile der Bevölkerung keinerlei digitale Spuren hinterlassen. Diese digitalen Ausschlüsse folgen weitgehend herkömmlichen Mustern sozialer Ungleichheit: Im Gegensatz zu jungen, hochgebildeten Männern aus der oberen Mittelschicht in Großstädten des globalen Nordens hinterlassen ältere, geringgebildete Arbeiterfrauen aus dem ländlichen Afrika praktisch keinerlei digitale Spuren. Verwendet man Web 2.0-Daten in der Forschung, besteht damit die Gefahr, dass keinerlei, unvollständige oder verzerrte Informationen über die Personenkreise, die am stärksten sozial benachteiligt werden, gewonnen werden. Weiterhin kommt es zu einer Machtverschiebung hinsichtlich Dateneigentümerschaft vom Staat und der Bevölkerung hin zu multinationalen Konzernen. Dies heißt aber nicht, dass Web 2.0-Daten nicht für die Forschung geeignet sind. Vielmehr werden durch die Anwendung des Bick-Müller-Modells verschiedene analoge und digitale Datensorten miteinander vergleichbar, was wichtig ist, weil – wie die Analyse zeigt – sich nicht allgemein, sondern nur in Bezug auf eine spezifische Forschungsfrage zeigen lässt, welche Daten besser, weniger oder gar nicht geeignet sind.

Autor/innen-Biografien

Nina Baur, Technische Universität Berlin

Nina Baur ist Professorin für Methoden der empirischen Sozialforschung am Institut für Soziologie der Technischen Universität Berlin.

Peter Graeff, Christian-Albrechts-Universität zu Kiel

Peter Graeff ist Professor für Soziologie und empirische Sozialforschung am Institut für Sozialwissenschaften an der Christian-Albrechts-Universität zu Kiel.

Literaturhinweise

Arndt, Christiane, und Charles Oman. 2006. Uses and Abuses of Governance Indicators. Paris: OECD Development Centre Studies.

Arora, Sanjay K., Yin Li, Jan Youtie, und Philip Shapira. 2016. Using the wayback machine to mine websites in the social sciences: a methodological resource. Journal of the Association for Information Science and Technology, 67(8):1904–1915.

Bähr, Sebastian, Georg-Christoph Haas, Florian Keusch, Frauke Kreuter, und Mark Trappmann. 2020. Missing data and other measurement quality issues in mobile geolocation sensor data. Social Science Computer Review 38(1):10–24.

Baur, Nina, Peter Graeff, Lilli Braunisch, und Malte Schweia. 2020. The Quality of Big Data. Development, Problems, and Possibilities of Use of Process-Generated Data in the Digital Age. Historical Social Research 45(3):209–243.

Baur, Nina. 2009. Measurement and Selection Bias in Longitudinal Data. A Framework for Re-Opening the Discussion on Data Quality and Generalizability of Social Bookkeeping Data. Historical Social Research 34 (3):9–50. doi: 10.12759/hsr.34.2009.3.9-50.

Bick, Wolfgang, und Peter J. Müller. 1980. The nature of process-produced data – towards a social scientific source criticism. In Historical Social Research. The Use of Historical and Process-Produced Data. Historisch-Sozialwissenschaftliche Forschungen Band 6, Hrsg. Jerome M. Clubb und Erwin K. Scheuch, 369–413. Stuttgart: Klett-Cotta.

Bick, Wolfgang, und Peter J. Müller. 1984. Sozialwissenschaftliche Datenkunde für prozeßproduzierte Daten. Entstehungsbedingungen und Indikatorenqualität. In Sozialforschung und Verwaltungsdaten. Historisch-Sozialwissenschaftliche Forschungen Band 17, Hrsg. Wolfgang Bick, Reinhard Mann und Peter J. Müller, 123–159. Stuttgart: Klett-Cotta.

Biemer, Paul P. 2010. Total survey error: Design, implementation, and evaluation. Public Opinion Quarterly 74(5):817–848.

Dehmel, Susanne, Peter Kenning, Gert G. Wagner, Christa Liedtke, Hans W. Micklitz, und Lousa Specht-Riemenschneider. 2020. Die Wirksamkeit der Corona-Warn-App wird sich nur im Praxistest zeigen. Der Datenschutz ist nur eine von vielen Herausforderungen. Veröffentlichungen des Sachverständigenrats für Verbraucherfragen. Berlin: Sachverständigenrat für Verbraucherfragen.

Diekmann, Andreas. 2016. Gesellschaft der Daten. Die Soziologie muss sich neu erfinden. Süddeutsche Zeitung. 25.09.2016. www.sueddeutsche.de/kultur/geisteswissenschaften-die-gesellschaft-der-daten-1.3178096 (Zugegriffen: 15. Jan. 2021)

Einspänner, Jessica, Mark Dang-Anh, und Caja Thimm. 2014. Twitter and Society, Hrsg. Katrin Weller, Axel Bruns, Jean Burgess, Meria Mahnt und Cornelius Puschmann, 97–108. Bern: Peter Lang.

Elias, Norbert. 1969. Die höfische Gesellschaft. Frankfurt am Main: Suhrkamp.

Fuchs, Marek. 1994. Umfrageforschung mit Telefon und Computer. Einführung in die computergestützte telefonische Befragung. Weinheim: Psychologie Verlags Union.

Graeff, Peter, und Nina Baur. 2020. Digital Data, Administrative Data, and Survey Compared: Updating the Classical Toolbox for Assessing Data Quality of Big Data, Exemplified by the Generation of Corruption Data. Historical Social Research 45(3):244–269.

Groves, Robert M., und Lars Lyberg. 2010. Total survey error. Past, present, and future. Public Opinion Quarterly 74(5);849–879.

Hill, Craig A., Paul Biemer, Trent Buskirk, Mario Callegaro, Anna Lucia Cordova Cazar, Adam Eck, Lili Japec, Antja Kirchner, Stas Kolenikov, Lars Lyberg, und Patric Sturgis. 2019. Exploring new statistical frontiers at the intersection of survey science and big data: Convergence at „BigSurv 18“. Survey Research Methods 13(1):123–135.

Iglesias, José Antonio, Alexandra Tiemblo, Agapito Ledezma, und Araceli Sanchis. 2016. Web news mining in an evolving framework. Information Fusion 28:90–98.

Initiative D21 e. V. 2020. D21-Digital-Index 2019/2020. Jährliches Lagebild zur Digitalen Gesellschaft. https://initiatived21.de/app/uploads/2020/02/d21_index2019_2020.pdf (Zugegriffen: 15. Jan. 2021)

ITU (International Telecommunication Union). 2019. Measuring Digital Development. Facts and Figures 2019. Geneva: ITU. www.itu.int/en/ITUD/Statistics/Documents/facts/FactsFigures2019.pdf (Zugegriffen: 02. Feb. 2020)

Kandt, Jens. 2019. Geotracking. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 1353–1360. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_100.

Knoblauch, Hubert, und Rene Tuma. 2020. Videography. An Interpretive Approach to Video-Recorded Micro-Social Interaction. In The Sage Handbook of Visual Methods, Hrsg. Eric Margolis und Luc Pauwels, 129–142. Los Angeles: Dage.

Koch, Gertraud. 2019. Digitale Selbstvermessung. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 1089–1102. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_77.

Lakes, Tobia. 2019. Geodaten. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 1345–1352. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_99.

Lepsius, Rainer M. 1979. Die Entwicklung der Soziologie nach dem Zweiten Weltkrieg 1945 bis 1967. Kölner Zeitschrift für Soziologie und Sozialpsychologie (Sonderheft) 21:25–70.

Mayerl, Jochen, und Thorsten Faas. 2019. Quantitative Analyse von Twitter und anderer usergenerierter Kommunikation. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 1027–1040. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_73.

Reuband, Karl-Heinz. 2019. Schriftlich-postalische Befragung. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 769–786. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_53.

Rohwer, Anja. 2009. Measuring corruption: A comparison between the Transparency International´s Corruption Perception Index and the World Bank’s Worldwide Governance Indicators. CESifo DICE Report 7.3, 42–52.

Schmitz, Andreas, und Olga Yanenko. 2019. Web Server Logs und Logfiles. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 991–999. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_70.

Schneider, Daniel, und Kristen Harknett. 2019. What’s to like? Facebook as a tool for survey data collection. Sociological Methods & Research, 1–33.

Schrape, Jan-Felix, und Jasmin Siri. 2019. Facebook und andere soziale Medien. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 1053–1064. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_75.

Schünzel, Anja, und Boris Traue. 2019. Websites. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 1001–1013. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_71.

Thaller, Manfred 2017 [1990]. Entzauberungen: Die Entwicklung einer fachspezifischen historischen Datenverarbeitung in der Bundesrepublik. Historical Social Research, Supplement 29, 178–192. doi:10.12759/hsr.suppl.29.2017.178-192.

Traue, Boris, und Anja Schünzel. 2019. YouTube und andere Webvideos. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 1065–1077. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_76.

Traue, Boris. 2020. Selbstautorisierungen. Die Transformation des Wissens in der Kommunikationsgesellschaft. Habilitationsschrift. TU Berlin.

Tuma, Rene. 2017. Videoprofis im Alltag – Die kommunikative Vielfalt der Videoanalyse. Wiesbaden: Springer VS.

Wagner-Schelewsky, Pia, und Linda Hering. 2019. Online-Befragung. In Handbuch Methoden der empirischen Sozialforschung, Hrsg. Nina Baur und Jörg Blasius, 787–800. Wiesbaden: Springer VS. doi: 10.1007/978-3-658-21308-4_54.

Wallgren, Anders, und Britt Wallgren. 2014. Register-based Statistics. Statistical Methods for Administrative Data. Second Edition. Chichester: John Wiley & Sons.

Williams, Nora Webb, Andreu Casas, und John D. Wilkerson. 2020. Images as Data for Social Science Research: An Introduction to Convolutional Neural Nets for Image Classification (Elements in Quantitative and Computational Methods for the Social Sciences). Cambridge: Cambridge University Press. doi:10.1017/978110886074.

Veröffentlicht
2021-09-15
Rubrik
Sektion Wissenschafts- und Technikforschung: Digitale Daten und neue Methoden – Chancen und Herausforderungen für die Soziologie