Зависимость числа редукторов от количества узлов кластера


Зависимость числа редукторов от количества узлов кластера

06.02.2013 09:18:10 Просмотров 47 Источник

Моя hadoop программа использует один mapper, которая разбивает входные данные на определенное число порций, число которых задается в файле /usr/countcomputers.txt (читается функцией mapper). Далее по одной порции поступает на каждый редуктор. Таким образом число, задаваемое в файле /usr/countcomputers.txt, определяет число редукторов. В связи с этим у меня возник вопрос: редукторы выполняются только на компьютерах, на которых запущен демон TaskTracker, или на всех узлах, включая те, на которых запущены демоны NameNode, JobTracker и Secondary NameNode? Мне это очень важно знать ответ на этот вопрос, поскольку от него зависит число, задаваемое в файле /usr/countcomputers.txt, читаемое в программе.

У вопроса есть решение - Посмотреть?

Ответы - Зависимость числа редукторов от количества узлов кластера / Зависимость числа редукторов от количества узлов кластера

Является ответом!
a_gura

06.02.2013 09:40:34

Мэпперы и редьюсеры выполняются только TaskTracker'ом.

https://ru.stackoverflow.com/questions/190533/%d0%97%d0%b0%d0%b2%d0%b8%d1%81%d0%b8%d0%bc%d0%be%d1%81%d1%82%d1%8c-%d1%87%d0%b8%d1%81%d0%bb%d0%b0-%d1%80%d0%b5%d0%b4%d1%83%d0%ba%d1%82%d0%be%d1%80%d0%be%d0%b2-%d0%be%d1%82-%d0%ba%d0%be%d0%bb%d0%b8%d1%87%d0%b5%d1%81%d1%82%d0%b2%d0%b0-%d1%83%d0%b7%d0%bb%d0%be%d0%b2-%d0%ba%d0%bb%d0%b0%d1%81%d1%82%d0%b5%d1%80%d0%b0/190544#comment190547_190544
@a_gura А зависит ли число репликации в файле hdfs-site.xml от количества компьютеров кластера?
https://ru.stackoverflow.com/questions/190533/%d0%97%d0%b0%d0%b2%d0%b8%d1%81%d0%b8%d0%bc%d0%be%d1%81%d1%82%d1%8c-%d1%87%d0%b8%d1%81%d0%bb%d0%b0-%d1%80%d0%b5%d0%b4%d1%83%d0%ba%d1%82%d0%be%d1%80%d0%be%d0%b2-%d0%be%d1%82-%d0%ba%d0%be%d0%bb%d0%b8%d1%87%d0%b5%d1%81%d1%82%d0%b2%d0%b0-%d1%83%d0%b7%d0%bb%d0%be%d0%b2-%d0%ba%d0%bb%d0%b0%d1%81%d1%82%d0%b5%d1%80%d0%b0/190544#comment190554_190544
dfs.replication - параметр распределенной файловой системы, который указывает кол-во реплицированных экземляров для каждого файла в HDFS. Для вашей задачи это не актуально.
https://ru.stackoverflow.com/questions/190533/%d0%97%d0%b0%d0%b2%d0%b8%d1%81%d0%b8%d0%bc%d0%be%d1%81%d1%82%d1%8c-%d1%87%d0%b8%d1%81%d0%bb%d0%b0-%d1%80%d0%b5%d0%b4%d1%83%d0%ba%d1%82%d0%be%d1%80%d0%be%d0%b2-%d0%be%d1%82-%d0%ba%d0%be%d0%bb%d0%b8%d1%87%d0%b5%d1%81%d1%82%d0%b2%d0%b0-%d1%83%d0%b7%d0%bb%d0%be%d0%b2-%d0%ba%d0%bb%d0%b0%d1%81%d1%82%d0%b5%d1%80%d0%b0/190544#comment190565_190544
@a_gura так если у меня 4 компьютера в кластере, на 2 из которых соответственно запускается TaskTracker, то какой должен быть какой коэффициент надо задавать в файле hdfs-site.xml <property> <name>dfs.replication</name> <value>?</value> <description>При создании файла можно задать фактический коэффициент репликации.</description> </property>
https://ru.stackoverflow.com/questions/190533/%d0%97%d0%b0%d0%b2%d0%b8%d1%81%d0%b8%d0%bc%d0%be%d1%81%d1%82%d1%8c-%d1%87%d0%b8%d1%81%d0%bb%d0%b0-%d1%80%d0%b5%d0%b4%d1%83%d0%ba%d1%82%d0%be%d1%80%d0%be%d0%b2-%d0%be%d1%82-%d0%ba%d0%be%d0%bb%d0%b8%d1%87%d0%b5%d1%81%d1%82%d0%b2%d0%b0-%d1%83%d0%b7%d0%bb%d0%be%d0%b2-%d0%ba%d0%bb%d0%b0%d1%81%d1%82%d0%b5%d1%80%d0%b0/190544#comment190569_190544
@ivan31 TaskTracker здесь не при чем. Любой создаваемый в dfs файл будет реплицирован dfs.replication раз.
Помочь в развитии проекта:
Закрыть X