Das TUNICO-Korpus wurde im Rahmen des TUNICO-Projekts (Linguistic dynamics in the Greater Tunis Area; a corpus-based approach) zwischen 2013 und 2016 erstellt. Es besteht aus Transkriptionen von Aufnahmen von Interviews mit mehr als 30 Stunden Dialogen und Narrativen, die während einer Feldstudie in Tunis im Jahr 2013 gesammelt wurden. Es besteht aus digitalen Dokumenten, die die Sprache von Sprechern unterschiedlicher sozialer Herkunft im Alter von unter 35 Jahren repräsentieren, die im Großraum von Tunis aufgewachsen sind und noch dort leben.

Das digitale Korpus wurde nach den Richtlinien der Text Encoding Intiative (TEI) kodiert und mit Lemma- und POS-Informationen versehen. Es wurde zusammen mit dem TUNICO-Wörterbuch erstellt, das große Mengen von Daten aus diesem Korpus enthält. Zusätzlich zum Wörterbuch wurde aus dem Korpus eine Reihe von Listen erstellt, die allgemeine Statistiken über Wortformen, Statistiken über Fremdwörter, die häufigsten Verben, Substantive und Adjektive enthalten. Die Corpus-Texte wurden mit dem Wörterbuch verlinkt, was es erlaubt im Text-Interface auch die Wörterbuchdaten zu sehen.