12 июля — 16 июля
Это была моя первая неделя в Sabudh Foundation, и мы начали с лекции, чтобы изучить основы, которые помогут нам в будущем лучше понять концепции науки о данных.
Мы изучили основы Python, такие как создание функций, арифметические операции, печать операторов, хранение данных в переменных, списки кортежей. Мы также изучили одну из библиотек анализа данных Python Pandas. В нем мы узнали, как открывать CSV-файлы, как их читать, изменять, разбивать в соответствии с нашими потребностями, применять операции к столбцам и строкам соответственно.
import pandas as pd# read the top n rows of csv file as a dataframe reviews_df = pd.read_csv("IMDB Dataset.csv", nrows=100)print(reviews_df.head())
Вывод:
review sentiment 0 One of the other reviewers has mentioned that ... positive 1 A wonderful little production. <br /><br />The... positive 2 I thought this was a wonderful way to spend ti... positive 3 Basically there's a family where a little boy ... negative 4 Petter Mattei's "Love in the Time of Money" is... positive
Помимо всего этого мы узнали о математике, статистике. Нас также познакомили с тем, что такое машинное обучение, как оно работает, как оно помогает нам улучшать предыдущий код и автоматизировать его. Мы также узнали о линейной регрессии, ее процессе и работе.
19–23 июля
После изучения основных кодов, математики и статистики на первой неделе наша вторая неделя была посвящена статистике и программированию. В статистике мы узнали о теории вероятностей, теории распределения и смешанных моделях. В программировании мы узнали о том, как использовать и создавать функции, лямба, карту, фильтр, классы и объекты, работу с файлами и несколько других встроенных функций. Я покажу вам (читателю) мельком, как сделать функцию.
def my_function(): print("Hello from a function") my_function()
После создания функции вы не можете использовать ее, пока не вызовете ее. Функция Lamba также похожа на обычную функцию, но в основном используется, если вы создаете встроенные функции. Карта используется для реализации функции в итерируемом списке.
Классы играют очень важную роль в кодировании. Чтобы сделать наш код чистым и пригодным для повторного использования, нам нужны классы. Классы также могут содержать несколько функций.
В теории вероятностей мы узнали о том, как анализировать случайные явления, в теории распределения мы узнали о различных распределениях, распределении Пуассона, экспоненциальном, нормальном и равномерном.
26 июля — 30 июля
Узнав о различных методах распространения, мы остались с непрерывным распространением. что касается кодирования, мы продвинулись вперед и начали изучать DSA и Numpy. В структуре данных и алгоритме (DSA) мы узнали о списке и массиве. Есть разница и сходство.
Numpy — это библиотека для языка программирования Python, добавляющая поддержку больших многомерных массивов и матриц, а также большой набор высокоуровневых математических функций для работы с этими массивами. С помощью этой библиотеки мы можем реализовать почти все математические вычисления, а также можем работать с матрицами любого размера из-за всех этих функций Numpy становится очень важно изучить ее, чтобы мы могли легко реализовывать алгоритмы и сложные математические операции, такие как интегрирование и дифференцирование. легко.
В процессе дифференциации мы также узнали о цепном правиле, правиле произведения, частном правиле, правиле мощности.
2 августа — 7 августа
Прошел уже месяц, и мы многое узнали о кодировании, но еще многое предстоит сделать. На 4-й неделе мы глубже погрузились в концепции DSA, то есть связанный список. Связные списки связаны ссылкой друг с другом и всегда являются последовательными. Они следуют FIFO (First In First Out).
Как мы видим на изображении выше, все ячейки/ячейки памяти связаны через ссылку, имеющую заголовок и нуль в конце, который представляет, что этот список завершен.
Мы также узнали о библиотеке python matplotlib, которая помогает нам в визуализации данных и построении графиков. Мы можем создавать всевозможные графики, такие как гистограммы, линейные диаграммы, точечные диаграммы и т. д. Мы также узнали о Seaborn, то есть о расширенной версии Matplotlib, которая использует Matplotlib вместе с Numpy и Pandas для построения графиков. Он имеет более простой синтаксис, гораздо более функционален и организован, чем Matplotlib, и рассматривает весь набор данных как единое целое.
На этой неделе мы впервые реализовали что-то из машинного обучения. Внедрение линейной регрессии было завершено на этой неделе.
Проанализировав данные, мы видим, что в них есть, независимо от того, очищены они или нет, сколько строк и столбцов у нас есть. EDA( Исследовательский анализ данных ) был выполнен сразу после этого. EDA – это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием статистических графиков.
Мы будем внедрять его дальше на следующей неделе.