Codegenerierung für Data Science Analysen

56 sec read

Das von Open AI veröffentlichte “Codex”-Sprachmodell” zur Generierung von Programmcode wurde in letzter Zeit mit großem Interesse in den Fach-Medien betrachtet, und in vielen Berichten, teilweise sehr enthusiastisch, beschrieben. In einem früheren Blogbeitrag habe ich auch bereits darüber geschrieben, und die Frage auf geworfen, ob es in Zukunft Programmierer (teilweise) ersetzen wird.

Ich habe nun im Bereich von Analysen im Data Science Bereich ein konkretes Experiment gemacht, um zu testen, ob hier ein Einsatz möglich ist. Die Aufgabe war dabei keinen Programmcode zu schreiben, um die Aufgaben zu erledigen, sondern Anweisungen in Englischer Sprache zu geben. Das Codex System musste das in Programmcode übersetzen, der dann ausgeführt wurde.

Details zum Experiment können Sie in meinem Artikel unter

https://andreasstckl.medium.com/using-open-ai-codex-for-data-science-tasks-252c66d8d4f0

nachlesen.

Was habe ich dabei gelernt?

Die Anweisungen müssen den Prozess, der als Code generiert werden soll, genau beschreiben. Dies erfordert etwas Experimentierfreude und nicht weniger Know-how als das Schreiben des Codes von Hand. Der Hauptvorteil und damit die Zeitersparnis liegt darin, dass man nicht alle Details der Syntax kennen muss.

Die Eingabeaufforderung muss sehr sorgfältig gewählt werden. Manchmal führen kleine Änderungen in der Eingabeaufforderung zu nicht nachvollziehbaren Änderungen im Ergebnis. 

Die Algorithmen müssen vom Autor beherrscht werden, und auch die benötigten Programmpakete müssen bekannt sein. Das Sprachmodell macht in etwa das Gleiche, als wenn man die richtige Texteingabe in der Google-Suche verwendet, die gefundenen Ergebnisse von Stackoverflow nimmt und die Codeschnipsel zusammensetzt. Allerdings auf eine schnellere und komfortablere Weise.